CN116092094A - 图像文本识别方法、装置、计算机可读介质及电子设备 - Google Patents
图像文本识别方法、装置、计算机可读介质及电子设备 Download PDFInfo
- Publication number
- CN116092094A CN116092094A CN202111307156.0A CN202111307156A CN116092094A CN 116092094 A CN116092094 A CN 116092094A CN 202111307156 A CN202111307156 A CN 202111307156A CN 116092094 A CN116092094 A CN 116092094A
- Authority
- CN
- China
- Prior art keywords
- image
- gray
- layer
- text
- complaint
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 238000004891 communication Methods 0.000 claims abstract description 151
- 230000007797 corrosion Effects 0.000 claims abstract description 34
- 238000005260 corrosion Methods 0.000 claims abstract description 34
- 238000005520 cutting process Methods 0.000 claims description 48
- 238000009826 distribution Methods 0.000 claims description 30
- 238000012545 processing Methods 0.000 claims description 28
- 238000003062 neural network model Methods 0.000 claims description 22
- 238000005315 distribution function Methods 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 11
- 238000003066 decision tree Methods 0.000 claims description 8
- 230000015654 memory Effects 0.000 claims description 8
- 230000011218 segmentation Effects 0.000 claims description 8
- 230000003628 erosive effect Effects 0.000 claims description 6
- 238000009499 grossing Methods 0.000 claims description 6
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 description 21
- 238000003860 storage Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 17
- 238000013473 artificial intelligence Methods 0.000 description 14
- 238000010801 machine learning Methods 0.000 description 11
- 238000012549 training Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 8
- 238000007726 management method Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 230000002159 abnormal effect Effects 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000012550 audit Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000003708 edge detection Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000001965 increasing effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000003862 health status Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000012954 risk control Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000008961 swelling Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
- G06T5/30—Erosion or dilatation, e.g. thinning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/16—Image preprocessing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/24—Character recognition characterised by the processing or recognition method
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本申请属于计算机技术领域,具体涉及一种图像文本识别方法、装置、计算机可读介质及电子设备。该方法包括:将待处理图像转换成灰度图像,并根据灰度图像的各个像素点的灰度值所属的图层区间,将灰度图像分割成与各个图层区间对应的灰度图层;对各个灰度图层做图像腐蚀,得到各个灰度图层对应的特征层,特征层包括多个连通区域;将各个特征层叠加,得到叠加特征层,叠加特征层包括多个连通区域;将叠加特征层上的各个连通区域按照预设方向膨胀,得到文本区域;对叠加特征层上的各个文本区域的文本进行识别,得到待处理图像对应的识别文本。由此,提高对各图层的连通区域的识别准确度,从而能够实现对待处理图像的文本的精确识别。
Description
技术领域
本申请属于计算机技术领域,具体涉及一种图像文本识别方法、装置、计算机可读介质及电子设备。
背景技术
随着计算机科学与技术的发展,自动化信息处理能力和水平也得到了显著的提高。图片文档的电子化作为文档电子化中必不可少的步骤之一,一直受到相关技术研究人员的重视。
相关技术中的文本识别方法需要根据图片文档的场景变化,依赖人工设定特征及规则,受主观因素影响较强,且通用较差,往往只对当前设计特征和规则的场景效果较好。一旦分析场景变化,原先设计的特征及规则往往不再适用,文本识别的准确率较低。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本申请的目的在于提供一种图像文本识别方法、装置、计算机可读介质及电子设备,至少在一定程度上克服相关技术中如何提高文本识别的准确率的技术问题。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
根据本申请实施例的一个方面,提供一种图像文本识别方法,所述图像文本识别方法包括:
将待处理图像转换成灰度图像,并根据所述灰度图像的各个像素点的灰度值所属的图层区间,将所述灰度图像分割成与各个所述图层区间对应的灰度图层,所述图层区间用于表示对应的灰度图层中的像素点的灰度值的取值范围;
对各个所述灰度图层做图像腐蚀,得到各个所述灰度图层对应的特征层,所述特征层包括多个连通区域,所述连通区域为包括多个具有连通关系的像素点的区域;
将各个所述特征层叠加,得到叠加特征层,所述叠加特征层包括多个所述连通区域;
将所述叠加特征层上的各个连通区域按照预设方向膨胀,得到文本区域;
对所述叠加特征层上的各个所述文本区域的文本进行识别,得到所述待处理图像对应的识别文本。
根据本申请实施例的一个方面,提供一种图像文本识别装置,所述图像文本识别装置包括:
图层分割模块,被配置为将待处理图像转换成灰度图像,并根据所述灰度图像的各个像素点的灰度值所属的图层区间,将所述灰度图像分割成与各个所述图层区间对应的灰度图层,所述图层区间用于表示对应的灰度图层中的像素点的灰度值的取值范围;
腐蚀模块,被配置为对各个所述灰度图层做图像腐蚀,得到各个所述灰度图层对应的特征层,所述特征层包括多个连通区域,所述连通区域为包括多个具有连通关系的像素点的区域;
特征叠加模块,被配置为将各个所述特征层叠加,得到叠加特征层,所述叠加特征层包括多个所述连通区域;
膨胀模块,被配置为将所述叠加特征层上的各个连通区域按照预设方向膨胀,得到文本区域;
文本识别模块,被配置为对所述叠加特征层上的各个所述文本区域的文本进行识别,得到所述待处理图像对应的识别文本。
在本申请的一些实施例中,基于以上技术方案,所述图像文本识别装置还包括:
极小值确定单元,被配置为根据所述灰度图像的各个像素点的灰度值,确定所述灰度图像中各个灰度值的分布频次中的一个或多个极小值;
全值取值范围确定单元,被配置为根据所述灰度图像的灰度值的最小灰度值确定全值取值范围的最小值;根据所述灰度图像的灰度值的最大灰度值确定所述全值取值范围的最大值;
图层区间获取单元,被配置为根据各个所述极小值对应的灰度值,将所述全值取值范围分割成多个所述图层区间。
在本申请的一些实施例中,基于以上技术方案,所述图层区间获取单元包括:
排序子单元,被配置为将所述全值取值范围的最小值、所述全值取值范围的最小值、以及各个所述极小值对应的灰度值按从小到大或从大到小的顺序排序;
图层区间分割子单元,被配置为将排序相邻的两个灰度值作为所述图层区间对应的两个区间端点,对所述全值取值范围进行分割,得到多个首尾相接且不重叠的图层区间。
在本申请的一些实施例中,基于以上技术方案,所述极小值确定单元包括:
分布频次确定子单元,被配置为根据所述灰度图像中各个像素点的灰度值,计算各个灰度值的分布频次;
分布函数获取子单元,被配置为根据各个灰度值在所述灰度图像中的分布频次,得到对应的分布函数;
平滑曲线获取子单元,被配置为对所述分布函数作函数平滑,得到所述分布函数对应的平滑曲线;
极小值获取子单元,被配置为识别得出所述平滑曲线的各个波谷,将各个波谷对应的点的值作为所述灰度图像中各个灰度值的分布频次中的极小值。
在本申请的一些实施例中,基于以上技术方案,所述腐蚀模块包括:
二值图层获取单元,被配置为在所述灰度图层的灰度值取值区间中确定目标阈值,并将所述灰度图层中大于或等于所述目标阈值的灰度值对应于第一数值,将所述灰度图层中小于所述目标阈值的灰度值对应于第二数值,形成所述灰度图层对应的二值图层;
标记连通区域获取单元,被配置为对所述二值图像做图像腐蚀,得到由灰度值为所述第一数值的多个像素点组成的标记连通区域;
腐蚀单元,被配置为将所述灰度图层中的位于对应所述二值图层的所述标记连通区域所在位置的像素值保留,并将所述灰度图层中的位于对应所述二值图层的所述标记连通区域所在位置之外的像素值舍弃。
在本申请的一些实施例中,基于以上技术方案,所述预设方向为水平方向或竖直方向,所述膨胀模块包括:
外切矩形获取单元,被配置为获取所述连通区域的外切矩形,将所述连通区域膨胀至填充满所述外切矩形,所述外切矩形为在预设方向与所述连通区域外切的矩形;
最邻近连通区域获取单元,被配置为获取所述连通区域的最邻近连通区域,所述最邻近连通区域为与所述连通区域的间隔距离最短的连通区域;
文本区域获取单元,被配置为当所述最邻近连通区域相对于所述连通区域的方向为预设方向时,将所述连通区域朝向所述最邻近连通区域的方向膨胀,以得到所述文本区域。
在本申请的一些实施例中,基于以上技术方案,所述文本识别模块包括:
文本切割单元,被配置为对所述文本区域作文本切割,得到一个或多个单字区域;
字符识别单元,被配置为对各个所述单字区域的字符进行识别,得到各个所述单字区域对应的字符信息;
文本信息获取单元,被配置为将各个所述单字区域对应的字符信息按照各个所述单字区域在所述文本区域中的排列位置组合,得到所述文本区域对应的文本信息;
识别文本获取单元,被配置为根据多个所述文本区域对应的文本信息,获取所述待处理图像的识别文本。
在本申请的一些实施例中,基于以上技术方案,所述文本切割单元包括:
长高比计算子单元,被配置为计算所述文本区域的长高比,所述长高比为所述文本区域的长度和所述文本区域的高度的比值;
字符预计子单元,被配置为根据所述长高比计算所述文本区域的字符的预计数量;
单字区域获取子单元,被配置为根据所述预计数量对所述文本区域在长度方向上进行均匀切割,得到所述预计数量个所述单字区域。
在本申请的一些实施例中,基于以上技术方案,所述单字区域获取子单元包括:
预切割数量获取子单元,被配置为根据所述预计数量获取预切割数量,所述预切割数量大于或等于所述预计数量;
切割线均匀排列子单元,被配置为根据所述预切割数量在所述文本区域上在长度方向上均匀排列候选切割线,所述候选切割线能够将所述文本区域在长度方向上进行均匀切割得到所述预切割数量个候选区域;
目标切割线获取子单元,被配置为将两侧具有相邻切割线的候选切割线作为目标切割线;
距离总和计算子单元,被配置为检测所述目标切割线和两侧相邻的候选切割线之间的距离的距离总和;
目标切割线保留子单元,被配置为当所述距离总和与所述文本区域的高度的比值大于或等于预设比值时,将所述目标切割线保留;
目标切割线舍弃子单元,被配置为当所述距离总和与所述文本区域的高度的比值小于预设比值时,将所述目标切割线舍弃。
在本申请的一些实施例中,基于以上技术方案,所述特征叠加模块包括:
叠加特征层获取单元,被配置为将各个所述特征层叠加,得到叠加特征层;
合并连通区域获取单元,被配置为将所述叠加特征层上间隔距离小于预设距离的连通区域,合并成合并连通区域;
面积占比计算单元,被配置为计算所述合并连通区域中来自各个特征层的连通区域的区域面积,并计算各个所述特征层对应的面积占比,所述面积占比为所述特征层的相应位置的连通区域的区域面积,与所述合并连通区域的区域面积的比值;
连通区域替换单元,被配置为将所述合并连通区域替换为所述面积占比最大的所述特征层的相应位置的连通区域。
在本申请的一些实施例中,基于以上技术方案,所述方法应用于投诉单的自动化处理,所述待处理图像包括所述投诉单中的图像;所述图像文本识别装置还包括:
标签分类单元,被配置为将所述待处理图像对应的识别文本输入到预训练的神经网络模型中,得到所述待处理图像所在的投诉单对应的投诉效力标签和投诉风险标签;
投诉单数据库存储单元,被配置为将所述投诉单对应的投诉效力标签和投诉风险标签、和所述投诉单对应的主体存储到投诉单数据库中。
在本申请的一些实施例中,基于以上技术方案,所述图像文本识别装置还包括:
交易数据获取单元,被配置为获取交易订单的信息流数据和资金流数据,所述交易订单对应于目标主体;
标签搜索单元,被配置为根据所述目标主体搜索所述投诉单数据库,以获取与所述目标主体对应的目标投诉单,以及所述目标投诉单对有的投诉效力标签和投诉风险标签;
风险策略建议获取单元,被配置为将所述交易订单的信息流数据、资金流数据以及所述目标主体对应的投诉效力标签、投诉风险标签输入到预训练的决策树模型中,得到与所述目标主体对应的风险策略建议,所述风险策略建议包括信任交易订单、限制交易订单数额、处罚交易订单、拦截交易订单、提醒交易风险中的一种或多种。
根据本申请实施例的一个方面,提供一种计算机可读介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如以上技术方案中的图像文本识别方法。
根据本申请实施例的一个方面,提供一种电子设备,该电子设备包括:处理器;以及存储器,用于存储处理器的可执行指令;其中,处理器被配置为经由执行可执行指令来执行如以上技术方案中的图像文本识别方法。
根据本申请实施例的一个方面,提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行如以上技术方案中的图像文本识别方法。
在本申请实施例提供的技术方案中,根据灰度图像的各个像素点的灰度值所属的图层区间,将灰度图像分割成与各个图层区间对应的灰度图层;对各个灰度图层做图像腐蚀;将各个特征层叠加,得到叠加特征层;将叠加特征层上的各个连通区域按照预设方向膨胀,得到文本区域;对叠加特征层上的各个文本区域的文本进行识别,得到待处理图像对应的识别文本。由此,通过将灰度图像分割成与各个图层区间对应的灰度图层,对各个灰度图层做图像腐蚀,实现分别对待处理图像中的各个灰度图层进行腐蚀处理,提高对各图层的腐蚀效果,避免对连通区域的识别的遗漏和误识别,能够提高对连通区域的识别准确度,从而能够实现对待处理图像的文本的精确识别。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示意性地示出了应用本申请技术方案的示例性系统架构框图。
图2示意性地示出了本申请某些实施方式的图像文本识别方法的步骤流程图。
图3示意性地示出了本申请某实施例中根据灰度图像的各个像素点的灰度值所属的图层区间,将灰度图像分割成与各个图层区间对应的灰度图层之前的步骤流程图。
图4示意性地示出了本申请某些实施方式中某张灰度图像的灰度值与分布频次的对应关系示意图。
图5示意性地示出了本申请某实施例中根据各个极小值对应的灰度值,将全值取值范围分割成多个图层区间的步骤流程图。
图6示意性地示出了本申请某实施例中根据灰度图像的各个像素点的灰度值,确定灰度图像中各个灰度值的分布频次中的一个或多个极小值的步骤流程图。
图7示意性地示出了本申请某实施例中对各个灰度图层做图像腐蚀,得到各个灰度图层对应的特征层,特征层包括多个连通区域的步骤流程图。
图8示意性地示出了本申请某实施例中将各个特征层叠加,得到叠加特征层的步骤流程图。
图9示意性地示出了本申请某实施例中将叠加特征层上的各个连通区域按照预设方向膨胀,得到文本区域的步骤流程图。
图10示意性地示出了本申请某实施例中对叠加特征层上的各个文本区域的文本进行识别,得到待处理图像对应的识别文本的步骤流程图。
图11示意性地示出了本申请某实施例中对文本区域作文本切割,得到一个或多个单字区域的步骤流程图。
图12示意性地示出了本申请某实施例中根据预计数量对文本区域在长度方向上进行均匀切割,得到预计数量个单字区域的步骤流程图。
图13示意性地示出了本申请某实施例中对叠加特征层上的各个文本区域的文本进行识别,得到待处理图像对应的识别文本之后的步骤流程图。
图14示意性地示出了本申请某实施例的第一子神经网络模型的模型内部结构示意图。
图15示意性地示出了本申请某实施例的第二子神经网络模型的模型内部结构示意图。
图16示意性地示出了本申请某实施例中将投诉单对应的投诉效力标签和投诉风险标签、和投诉单对应的主体存储到投诉单数据库中之后的步骤流程图。
图17示意性地示出了本申请某实施例中如何将交易订单的信息流数据、资金流数据以及目标主体对应的投诉效力标签、投诉风险标签输入到预训练的决策树模型中,得到与目标主体对应的风险策略建议的具体过程示意图。
图18示意性地示出了本申请实施例提供的图像文本识别装置的结构框图。
图19示意性地示出了用于实现本申请实施例的电子设备的计算机系统结构框图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR(Optical Character Recognition,光学字符识别)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中,用户管理模块负责所有区块链参与者的身份信息管理,包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等,并且在授权的情况下,监管和审计某些真实身份的交易情况,提供风险控制的规则配置(风控审计);基础服务模块部署在所有区块链节点设备上,用来验证业务请求的有效性,并对有效请求完成共识后记录到存储上,对于一个新的业务请求,基础服务先对接口适配解析和鉴权处理(接口适配),然后通过共识算法将业务信息加密(共识管理),在加密之后完整一致的传输至共享账本上(网络通信),并进行记录存储;智能合约模块负责合约的注册发行以及合约触发和合约执行,开发人员可以通过某种编程语言定义合约逻辑,发布到区块链上 (合约注册),根据合约条款的逻辑,调用密钥或者其它的事件触发执行,完成合约逻辑,同时还提供对合约升级注销的功能;运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出,例如:告警、监控网络情况、监控节点设备健康状态等。
平台产品服务层提供典型应用的基本能力和实现框架,开发人员可以基于这些基本能力,叠加业务的特性,完成业务逻辑的区块链实现。应用服务层提供基于区块链方案的应用服务给业务参与方进行使用。
本申请实施例提供的方案涉及人工智能的计算机视觉技术和机器学习等技术,具体通过下文中的实施例进行说明。
图1示意性地示出了应用本申请技术方案的示例性系统架构框图。
如图1所示,系统架构100可以包括终端设备110、网络120和服务器130。终端设备110可以包括智能手机、平板电脑、笔记本电脑、台式电脑等各种电子设备。服务器130可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。网络120可以是能够在终端设备110和服务器130之间提供通信链路的各种连接类型的通信介质,例如可以是有线通信链路或者无线通信链路。
根据实现需要,本申请实施例中的系统架构可以具有任意数目的终端设备、网络和服务器。例如,服务器130可以是由多个服务器设备组成的服务器群组。另外,本申请实施例提供的技术方案可以应用于终端设备 110,也可以应用于服务器130,或者可以由终端设备110和服务器130共同实施,本申请对此不做特殊限定。
举例而言,服务器130上可以搭载了本申请实施方式的图像文本识别方法,用户通过终端设备110上的客户端与服务器130进行交互。由此,根据灰度图像的各个像素点的灰度值所属的图层区间,将灰度图像分割成与各个图层区间对应的灰度图层;对各个灰度图层做图像腐蚀;将各个特征层叠加,得到叠加特征层;将叠加特征层上的各个连通区域按照预设方向膨胀,得到文本区域;对叠加特征层上的各个文本区域的文本进行识别,得到待处理图像对应的识别文本。由此,通过将灰度图像分割成与各个图层区间对应的灰度图层,对各个灰度图层做图像腐蚀,实现分别对待处理图像中的各个灰度图层进行腐蚀处理,提高对各图层的腐蚀效果,避免对连通区域的识别的遗漏和误识别,能够提高对连通区域的识别准确度,从而能够实现对待处理图像的文本的精确识别。
又或者,举例而言,服务器130上可以搭载了本申请实施方式的图像文本识别方法,应用于投诉单的自动化处理,用户通过终端设备110上的客户端将投诉单上传至服务器130,服务器通过本申请某实施例的图像文本识别方法对投诉单进行文本识别后,将各个文本区域对应的识别文本输入到预训练的神经网络模型中,得到与投诉单对应的投诉效力标签和投诉风险标签,将投诉单对应的投诉效力标签和投诉风险标签、和投诉单对应的主体存储到投诉单数据库中,由此,实现对于投诉单的自动化的处理,能够节省人工,提高对于投诉单的处理效率。
服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、 CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能语音交互设备、智能家电、车载终端等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
相关技术中,图像的文本检测思路可以是通过边缘检测的方式对图像的文本进行提取。然而,在复杂背景的图像下进行边缘检测可能会导致背景部分的边缘过多(即噪音增加),同时文字部分的边缘信息则容易被忽略,从而导致效果变差。如果在此时进行腐蚀或膨胀,那么将会使得背景区域跟文字区域粘合,效果进一步恶化。而在一些场景中,例如投诉订单中的图片可能为聊天截图、产品页面截图等,页面背景复杂,对于图像中文本的识别能力较差。
而本申请某些实施方式通过将灰度图像分割成与各个图层区间对应的灰度图层,对各个灰度图层做图像腐蚀,实现分别对待处理图像中的各个灰度图层进行腐蚀处理,提高对各图层的腐蚀效果,避免对连通区域的识别的遗漏和误识别,能够提高对连通区域的识别准确度,从而能够实现对待处理图像的文本的精确识别。
下面结合具体实施方式对本申请提供的图像文本识别方法做出详细说明。
图2示意性地示出了本申请某些实施方式的图像文本识别方法的步骤流程图。该图像文本识别方法的执行主体可以是终端设备,也可以是服务器等,本申请对此不设限。如图2所示,该图像文本识别方法主要可以包括如下步骤S210~步骤S250。
S210.将待处理图像转换成灰度图像,并根据灰度图像的各个像素点的灰度值所属的图层区间,将灰度图像分割成与各个图层区间对应的灰度图层,图层区间用于表示对应的灰度图层中的像素点的灰度值的取值范围。
具体地,待处理图像可以为聊天记录图片、交易订单界面、文档、广告截图等。各个图层区间的取值范围可以是预设的、两两之间不重叠的取值范围。
由此,能够将灰度图像分割成与各个图层区间对应的灰度图层,将灰度值接近的像素点划分到同一图层,以便后续步骤分别对各图层进行图像腐蚀和连通区域的识别,能够提高对各图层的腐蚀效果,避免对连通区域的识别的遗漏和误识别。
图3示意性地示出了本申请某实施例中根据灰度图像的各个像素点的灰度值所属的图层区间,将灰度图像分割成与各个图层区间对应的灰度图层之前的步骤流程图。如图3所示,在以上实施例的基础上,步骤S210中的根据灰度图像的各个像素点的灰度值所属的图层区间,将灰度图像分割成与各个图层区间对应的灰度图层之前,可以进一步包括以下步骤S310~步骤S330。
S310.根据灰度图像的各个像素点的灰度值,确定灰度图像中各个灰度值的分布频次中的一个或多个极小值。
S320.根据灰度图像的灰度值的最小灰度值确定全值取值范围的最小值;根据灰度图像的灰度值的最大灰度值确定全值取值范围的最大值。
S330.根据各个极小值对应的灰度值,将全值取值范围分割成多个图层区间。
图4示意性地示出了本申请某些实施方式中某张灰度图像的灰度值与分布频次的对应关系示意图。例如,请参阅图4,根据该灰度图像的灰度值与分布频次的对应关系示意图,可以确定灰度图像中各个灰度值的分布频次中的六个极小值点对应的极小值:极小值点(48,0)对应的极小值0、极小值点(72,8)对应的极小值8、极小值点(100,150)对应的极小值 150、极小值点(120,95对应的极小值95)、极小值点(141,14)对应的极小值14,和极小值点(218,0)对应的极小值0。然后,根据灰度图像的灰度值的最小灰度值49确定全值取值范围的最小值为灰度值49,或者也可以将小于最小灰度值49的任意灰度值,例如灰度值0、1、5等作为全值取值范围的最小值。接着,根据灰度图像的灰度值的最大灰度值217确定全值取值范围的最大值为灰度值217,或者也可以将大于最大灰度值217的任意灰度值,例如灰度值250、254、255等作为全值取值范围的最大值。
例如,根据灰度图像的灰度值的最小灰度值49确定全值取值范围的最小值为灰度值49,根据灰度图像的灰度值的最大灰度值217确定全值取值范围的最大值为灰度值217,然后根据各个极小值对应的灰度值,将全值取值范围分割成多个图层区间[49,72]、(72,100]、(100,120]、(120,141]、 (141,217]。
又例如,根据灰度图像的灰度值的最小灰度值49确定全值取值范围的最小值为小于最小灰度值49的灰度值0,根据灰度图像的灰度值的最大灰度值217确定全值取值范围的最大值为大于最大灰度值217的灰度值255,然后在去除极小值对应的灰度值中最小的灰度值48和最大的灰度值218后,根据各个极小值对应的灰度值,将全值取值范围分割成多个图层区间[0,72]、 (72,100]、(100,120]、(120,141]、(141,255]。
在某些实施方式中,也可以根据灰度图像的各个像素点的灰度值,生成灰度图像的灰度值与各个灰度值出现概率的对应关系,再确定灰度图像中各个灰度值的出现概率中的一个或多个极小值,再根据各个极小值对应的灰度值,将全值取值范围分割成多个图层区间,具体方案与步骤S310~步骤S330类似,此处不再展开说明。
由此,将全值取值范围分割成多个图层区间,有利于后续根据多个图层区间,将灰度图像分割成与各个图层区间对应的灰度图层,进而有利于对各图层分别进行腐蚀,且各图层的灰度值近似,能够有利于提高对图像的腐蚀效果。
在一些实施方式中,在步骤S330的根据各个极小值对应的灰度值,将全值取值范围分割成多个图层区间之前,还可以先根据灰度图像的各个像素点的灰度值,确定灰度图像中各个灰度值的分布频次中的一个或多个极大值,然后根据极大值的数量,确定将全值取值范围分割成的图层区间的数量,其中,每个图层区间的取值范围包括所对应的一个极大值。具体地,请参阅图4,在步骤S330的根据各个极小值对应的灰度值,将全值取值范围分割成多个图层区间之前,先根据灰度图像的各个像素点的灰度值,确定灰度图像中各个灰度值的分布频次中的一个或多个极大值:极大值点 (60,254)对应的极大值254、极大值点(94,610)对应的极大值610、极大值点(106,270)对应的极大值270、极大值点(130,305)对应的极大值305,和极大值点(156,202)对应的极大值202。然后根据极大值的数量5,确定将全值取值范围分割成的图层区间的数量也为5。其中,每个图层区间的取值范围包括所对应的一个极大值。然后再如上文实施例所述,根据各个极小值对应的灰度值,将全值取值范围分割成5个图层区间[49,72]、 (72,100]、(100,120]、(120,141]、(141,217]。
图5示意性地示出了本申请某实施例中根据各个极小值对应的灰度值,将全值取值范围分割成多个图层区间的步骤流程图。如图5所示,在以上实施例的基础上,步骤S330中的根据各个极小值对应的灰度值,将全值取值范围分割成多个图层区间,可以进一步包括以下步骤S510~步骤S520。
S510.将全值取值范围的最小值、全值取值范围的最大值、以及各个极小值对应的灰度值按从小到大或从大到小的顺序排序;
S520.将排序相邻的两个灰度值作为图层区间对应的两个区间端点,对全值取值范围进行分割,得到多个首尾相接且不重叠的图层区间。
例如,如图4的实施例中,将小于最小灰度值49的灰度值0作为全值取值范围的最小值,将大于最大灰度值217的灰度值255作为全值取值范围的最大值。然后,将全值取值范围的最小值0、全值取值范围的最大值 255、以及各个极小值对应的灰度值48、72、100、120、141、218中去掉最小的灰度值48和最大的灰度值218之后的灰度值,按从小到大或从大到小的顺序排序得到:0、72、100、120、141、255。然后,将排序相邻的两个灰度值作为图层区间对应的两个区间端点,对全值取值范围进行分割,得到多个首尾相接且不重叠的图层区间[0,72]、(72,100]、(100,120]、 (120,141]、(141,255]。
图6示意性地示出了本申请某实施例中根据灰度图像的各个像素点的灰度值,确定灰度图像中各个灰度值的分布频次中的一个或多个极小值的步骤流程图。如图6所示,在以上实施例的基础上,步骤S310中的根据灰度图像的各个像素点的灰度值,确定灰度图像中各个灰度值的分布频次中的一个或多个极小值,可以进一步包括以下步骤S610~步骤S640。
S610.根据灰度图像中各个像素点的灰度值,计算各个灰度值的分布频次;
S620.根据各个灰度值在灰度图像中的分布频次,得到对应的分布函数;
S630.对分布函数作函数平滑,得到分布函数对应的平滑曲线;
S640.识别得出平滑曲线的各个波谷,将各个波谷对应的点的值作为灰度图像中各个灰度值的分布频次中的极小值。
具体地,对分布函数做函数平滑,可以是对分布函数做核密度估计 (kerneldensity estimation),使得分布函数的分布平滑连续,从而能够得到明确的波谷,有利于从统计角度得到更为准确的极小值,从而能够根据灰度图像的灰度值的聚类趋势对图层区间作划分,使得对图层区间的划分更为准确,将灰度值接近的同类像素划分到同一图层,有利于提高对连通区域的识别准确度,进而能够提高对待处理图像的文本的识别准确率。
在一些实施方式中,除了采用核密度估计的方式对分布函数做函数平滑,还可以采用滤波等方法对分布函数做函数平滑,本申请对此不作限制。
在某些实施方式中,在步骤S630之后,还可以识别得出平滑曲线的各个波峰,将各个波峰对应的点的值作为灰度图像中各个灰度值的分布频次中的极大值,然后根据极大值的数量,确定将全值取值范围分割成的图层区间的数量,其中,每个图层区间的取值范围包括所对应的一个极大值。
S220.对各个灰度图层做图像腐蚀,得到各个灰度图层对应的特征层,特征层包括多个连通区域,连通区域为包括多个具有连通关系的像素点的区域。
具体地,图像腐蚀的方式可以是采用卷积核对像素点进行逐个扫描腐蚀等,本申请对此不限限制。
连通区域为包括多个具有连通关系的像素点的区域。在具有连通关系的像素点的区域中,每个像素点中至少与该区域的其中一个像素点具有邻接关系。邻接关系可以包括4邻接、8邻接等。
图7示意性地示出了本申请某实施例中对各个灰度图层做图像腐蚀,得到各个灰度图层对应的特征层,特征层包括多个连通区域的步骤流程图。如图7所示,在以上实施例的基础上,步骤S220中的对各个灰度图层做图像腐蚀,得到各个灰度图层对应的特征层,特征层包括多个连通区域,可以进一步包括以下步骤S710~步骤S730。
S710.在灰度图层的灰度值取值区间中确定目标阈值,并将灰度图层中大于或等于目标阈值的灰度值对应于第一数值,将灰度图层中小于目标阈值的灰度值对应于第二数值,形成灰度图层对应的二值图层;
S720.对二值图像做图像腐蚀,得到由灰度值为第一数值的多个像素点组成的标记连通区域;
S730.将灰度图层中的位于对应二值图层的标记连通区域所在位置的像素值保留,并将灰度图层中的位于对应二值图层的标记连通区域所在位置之外的像素值舍弃。
由此,确定灰度图层对应的二值图层后对二值图像做图像腐蚀,得到由灰度值为第一数值的多个像素点组成的标记连通区域,再将灰度图层中的位于对应二值图层的标记连通区域所在位置的像素值保留,并将灰度图层中的位于对应二值图层的标记连通区域所在位置之外的像素值舍弃,能够在不丢失灰度图层的像素点的多阶灰度值的情况下,实现对灰度图层的腐蚀,能够在保留图像的图层色阶精确度的情况下,实现对图层中的连通区域的识别。
S230.将各个特征层叠加,得到叠加特征层,叠加特征层包括多个连通区域。
图8示意性地示出了本申请某实施例中将各个特征层叠加,得到叠加特征层的步骤流程图。如图8所示,在以上实施例的基础上,步骤S230中的将各个特征层叠加,得到叠加特征层,可以进一步包括以下步骤S810~步骤S840。
S810.将各个特征层叠加,得到叠加特征层;
S820.将叠加特征层上间隔距离小于预设距离的连通区域,合并成合并连通区域;
S830.计算合并连通区域中来自各个特征层的连通区域的区域面积,并计算各个特征层对应的面积占比,面积占比为特征层的相应位置的连通区域的区域面积,与合并连通区域的区域面积的比值;
S840.将合并连通区域替换为面积占比最大的特征层的相应位置的连通区域。
由此,将各个特征层叠加,得到叠加特征层,将叠加特征层上间隔距离小于预设距离的连通区域,合并成合并连通区域,能够使得各个图层之间原本拼合或接近的连通区域合并,产生关联,从而能够增强各图层之间的关联性,提高对待处理图层的识别准确度。然后,将合并连通区域替换为面积占比最大的特征层的相应位置的连通区域,使得只保留合并连通区域中面积占比最大的特征层的相应位置的连通区域,也就是说,只保留贡献较大的特征层的相应位置的连通区域,使得对合并连通区域的识别能够更关注贡献较大的特征层,从而能够提升对连通区域的识别准确率,从而提高对待处理图像的文本识别准确率。
S240.将叠加特征层上的各个连通区域按照预设方向膨胀,得到文本区域。
具体地,预设方向为水平方向、竖直方向、斜30°方向、斜45°方向、斜60°方向、一定曲率的曲线方向等,可以视具有的应用场景采用不同的预设方向。
图9示意性地示出了本申请某实施例中将叠加特征层上的各个连通区域按照预设方向膨胀,得到文本区域的步骤流程图。如图9所示,在以上实施例的基础上,预设方向为水平方向或竖直方向,步骤S240中的将叠加特征层上的各个连通区域按照预设方向膨胀,得到文本区域,可以进一步包括以下步骤S910~步骤S930。
S910.获取连通区域的外切矩形,将连通区域膨胀至填充满外切矩形,外切矩形为在预设方向与连通区域外切的矩形;
S920.获取连通区域的最邻近连通区域,最邻近连通区域为与连通区域的间隔距离最短的连通区域;
S930.当最邻近连通区域相对于连通区域的方向为预设方向时,将连通区域朝向最邻近连通区域的方向膨胀,以得到文本区域。
由此,能够实现连通区域和最邻近连通区域之间预设方向上的膨胀,得到文本区域。可以理解,例如“小”、“旦”、“八”、“元”等汉语字符,由于此类汉语字符的内部不完全具有连通性,而是由字符中残缺的各部分分立而成,因此在图层中不被识别为一个连通区域,而是被识别为多个连通区域。而本申请实现连通区域和最邻近连通区域之间预设方向上的膨胀,得到文本区域,能够将包含残缺字符或者单个字符的连通区域均通过膨胀连通为文本区域,文本区域可以包括多个字符。而在膨胀过程中,残缺字符也被包裹在膨胀区域,能够避免对字符的漏识别或对残缺字符的单独识别,进而能够提高对待处理图像的文本识别能力。
在一些实施方式中,当最邻近连通区域相对于连通区域的方向为预设方向,则将连通区域朝向最邻近连通区域的方向膨胀,其中预设方向为水平方向,由此,结合由于人的阅读习惯,大部分图像的文字均是横向排版,能够提升对大部分待处理图像的文本识别准确率。
在一些实施方式中,可以是当最邻近连通区域相对于连通区域的方向为预设方向时,触发连通区域朝与最邻近连通区域以相向的方向共同膨胀,以得到所述文本区域。由此,能够使得连通区域与最邻近连通区域之间能够通过以相向的方向共同膨胀,使得膨胀更为均匀,能够得到更为准确的文本区域。
在一些实施方式中,可以是当最邻近连通区域相对于连通区域的方向为预设方向,且最邻近连通区域与连通区域的间隔距离小于第一预设距离时,将连通区域朝向最邻近连通区域的方向膨胀,以得到所述文本区域。由此,能够避免最邻近连通区域与连通区域的间隔距离过大时,最邻近连通区域与连通区域之间仍发生膨胀,从而能够避免将无关的连通区域膨胀连通得到文本区域,能够提高对文本区域的识别的准确性。
S250.对叠加特征层上的各个文本区域的文本进行识别,得到待处理图像对应的识别文本。
具体地,可以将叠加特征层上的各个文本区域输入到预训练的机器学习模型中,得到待处理图像对应的识别文本。预训练的机器学习模型基于可以由CNN(ConvolutionalNeural Network,卷积神经网络)模型、 CNN+LSTM(Long Short-Term Memory,长短期记忆网络)模型、Faster RCNN 等建立。可以先构建训练数据,采用48×48的灰度图像构建样本图像,每个样本图像可以包括单个字符,以作为训练机器学习模型的训练数据。为保证训练数据的充分性,可以收集了45种不同样式的字体,例如宋体、黑体、楷体以及不规范的手写体,从而能够比较全面地覆盖各种印刷字体,能够提高机器学习模型对于字符的识别能力。
在某些实施方式中,各种不同样式的字体可以分别包括多种不同字号的图片,每种字号多种张,从而提高训练数据的多样性和覆盖的全面性。
在某些实施方式中,可以将每个样本图像都加上5%、6%、7%、8%、 9%或10%等预设比例的随机人工噪音,从而增强机器学习模型的泛化能力。
图10示意性地示出了本申请某实施例中对叠加特征层上的各个文本区域的文本进行识别,得到待处理图像对应的识别文本的步骤流程图。如图 10所示,在以上实施例的基础上,步骤S250中的对叠加特征层上的各个文本区域的文本进行识别,得到待处理图像对应的识别文本,可以进一步包括以下步骤S1010~步骤S1040。
S1010.对文本区域作文本切割,得到一个或多个单字区域;
S1020.对各个单字区域的字符进行识别,得到各个单字区域对应的字符信息;
S1030.将各个单字区域对应的字符信息按照各个单字区域在文本区域中的排列位置组合,得到文本区域对应的文本信息;
S1040.根据多个文本区域对应的文本信息,获取待处理图像的识别文本。
具体地,根据多个文本区域对应的文本信息,获取待处理图像的识别文本,可以是根据多个文本区域分别在待处理图像中的位置,例如,可以将位置相近并逐行分布的文本区域进行逐行拼接拼接,得到待处理图像的识别文本。
由此,对文本区域作文本切割得到单字区域后对各个单字区域的字符进行识别,由于识别的对象均为单字区域,相比直接对文本区域进行整体的识别,能够简化识别方法,提高识别准确度。例如,相比对文本区域进行整体的识别的构建和训练,对单字区域进行识别更易于对识别模型的构建和训练,能够通过更低的训练数据量达到更好的训练效果。
图11示意性地示出了本申请某实施例中对文本区域作文本切割,得到一个或多个单字区域的步骤流程图。如图11所示,在以上实施例的基础上,步骤S1010中的对文本区域作文本切割,得到一个或多个单字区域,可以进一步包括以下步骤S1110~步骤S1130。
S1110.计算文本区域的长高比,长高比为文本区域的长度和文本区域的高度的比值;
S1120.根据长高比计算文本区域的字符的预计数量;
S1130.根据预计数量对文本区域在长度方向上进行均匀切割,得到预计数量个单字区域。
可以理解,对于同一种语言的各个字符,一般具有较为固定的长高比。因此,根据文本区域的长高比可以近似估算出文本区域的字符的预计数量,便于对文本区域进行精准的切割,实现对单字区域的较为准确的识别。
图12示意性地示出了本申请某实施例中根据预计数量对文本区域在长度方向上进行均匀切割,得到预计数量个单字区域的步骤流程图。如图12 所示,在以上实施例的基础上,步骤S1130中的根据预计数量对文本区域在长度方向上进行均匀切割,得到预计数量个单字区域,可以进一步包括以下步骤S1210~步骤S1260。
S1210.根据预计数量获取预切割数量,预切割数量大于或等于预计数量;
S1220.根据预切割数量在文本区域上在长度方向上均匀排列候选切割线,候选切割线能够将文本区域在长度方向上进行均匀切割得到预切割数量个候选区域;
S1230.将两侧具有相邻切割线的候选切割线作为目标切割线;
S1240.检测目标切割线和两侧相邻的候选切割线之间的距离的距离总和;
S1250.当距离总和与文本区域的高度的比值大于或等于预设比值时,将目标切割线保留;
S1260.当距离总和与文本区域的高度的比值小于预设比值时,将目标切割线舍弃。
由此,结合两个字符之间的间隔一般具有最小间隔,将两个字符之间的最小间隔与字符组成的文本行的高度之间的比值的经验值作为预设比值,执行步骤S1210至步骤S1260的方法,能够实现对候选切割线的筛选,从而提高对单字区域的切割准确性,进而提高字符识别准确率。
图13示意性地示出了本申请某实施例中对叠加特征层上的各个文本区域的文本进行识别,得到待处理图像对应的识别文本之后的步骤流程图。如图13所示,在以上实施例的基础上,方法应用于投诉单的自动化处理,待处理图像包括投诉单中的图像;步骤S250的对叠加特征层上的各个文本区域的文本进行识别,得到待处理图像对应的识别文本之后,可以进一步包括以下步骤S1310~步骤S1320。
S1310.将待处理图像对应的识别文本输入到预训练的神经网络模型中,得到待处理图像所在的投诉单对应的投诉效力标签和投诉风险标签;
S1320.将投诉单对应的投诉效力标签和投诉风险标签、和投诉单对应的主体存储到投诉单数据库中。
投诉效力标签可以包括投诉有效标签和投诉无效标签。投诉风险标签可以包括空分类标签、诈骗风险标签、交易纠纷风险标签等。
神经网络模型可以包括第一子神经网络模型和第二子神经网络模型。其中,第一子神经网络模型可以为BERT(Bidirectional Encoder Representation fromTransformers)等预训练模型,能够对待处理图像对应的识别文本进行语义理解和文本分类,得到与识别文本对应的投诉效力标签。第二子神经网络模型可以为CRF(ConditionalRandom Fields,条件随机场)等分类模型,能够对待处理图像对应的识别文本进行语义理解、信息抽取、文本分类,得到与识别文本对应的投诉风险标签。
在某些实施方式中,可以先对待处理图像对应的识别文本先进行数据清洗和去噪,再输入到预训练的神经网络模型中。具体地,数据清洗可以包括将待处理图像对应的识别文本中的非法字符和停用词、表情符号等去除,然后对文本进行错别字纠正和符号清洗。
在某些实施方式中,可以将该预训练的神经网络模型部署在准实时平台上,以小时级别输出投诉单对应的投诉效力标签和投诉风险标签,并将投诉单对应的投诉效力标签和投诉风险标签、和投诉单对应的主体存储到投诉单数据库中。
图14示意性地示出了本申请某实施例的第一子神经网络模型的模型内部结构示意图。具体地,将待处理图像对应的识别文本作分词处理后,输入到第一子神经网络模型中。例如,待处理图像对应的识别文本为:“您好,我叫张三。”则将待处理图像对应的识别文本“您好,我叫张三。”作分词处理后,得到“[CLS]/您好/,/我/叫/张三/。[SEP]”。则令X1=“您好”, X2=“,”,X3=“我”,X4=“叫”,X5=“张三”,X6=“。”,XN=“[SEP]”,输入到如图14所示的第一子神经网络模型中。经过对X[CLS]嵌入编码得到X[CLS]的编码E[CLS],经过对X1嵌入编码得到X1的编码E1,……经过对XN嵌入编码得到XN的编码EN,以此类推。然后将E[CLS]、 E1……EN输入到transformer神经网络中,得到对应的文本特征C、 T1……TN,再根据文本特征C、T1……TN得出与待处理图像对应的识别文本“您好,我叫张三。”的投诉效力标签。
图15示意性地示出了本申请某实施例的第二子神经网络模型的模型内部结构示意图。例如,待处理图像对应的识别文本为:“我来自A市。”则将待处理图像对应的识别文本“我来自A市。”作分词处理后,得到“我/ 来自/A市/。”。则令X1=“我”,X2=“来自”,X3=“A市”,X4=“。”,输入到如图15所示的第一子神经网络模型中。经过对X1嵌入编码得到X1 的编码E1,经过对X2嵌入编码得到X2的编码E2,……经过对XN嵌入编码得到XN的编码EN,以此类推。然后将E1、E2……EN输入到 transformer神经网络中,得到对应的文本特征T1、T2……TN,再将文本特征T1、T2……TN输入到由多个LSTM组成的神经网络中,得到对应的类型特征C1、C2……CN。最后,根据类型特征C1、C2……CN得出与待处理图像对应的识别文本“我来自A市。”的投诉风险标签。投诉风险标签可以包括空分类标签、诈骗风险标签、交易纠纷风险标签等。
由此,通过对投诉单中的图像进行文本识别以及将待处理图像对应的识别文本输入到预训练的神经网络模型中,得出与待处理图像对应的识别文本的投诉效力标签和投诉风险标签,实现对于投诉单的自动化的处理,能够节省对投诉单人工审核的人力成本,并且能够通过自动化处理提高对于投诉单的处理效率,以对危害较大的投诉订单及时进行止损。
可以理解,投诉单中的突击性里面包含的文字很可能是交易内容信息或者交易前的沟通内容,因此,本申请实施例能够可以有效识别出商户的恶意性以及商户交易类目,得出与待处理图像对应的识别文本的投诉效力标签和投诉风险标签,实现对于投诉单的自动化的处理。
并且,本申请能够实现对待处理图像的文本的精确识别,因此,可以减少了投诉图片中有效信息的丢失,能够提高对于投诉单的自动化的处理的处理准确合理性。
在一个应用场景中,黑产在在线支付上进行诈骗的情况可能存在,如何获取有效信息进行异常商户的识别和打击是一个大课题。用户在交易时察觉到异常时,通常会进行投诉,用户投诉时候提交的投诉订单中的投诉图片里面可能会包含大量文本信息。因此,本申请在此应用场景中能够可以有效识别出商户的恶意性以及商户交易类目,得出与待处理图像对应的识别文本的投诉效力标签和投诉风险标签,实现对于投诉单的自动化的处理,有利于对黑产进行精准、及时、全面的打击。
图16示意性地示出了本申请某实施例中将投诉单对应的投诉效力标签和投诉风险标签、和投诉单对应的主体存储到投诉单数据库中之后的步骤流程图。如图16所示,在以上实施例的基础上,步骤S1320的将投诉单对应的投诉效力标签和投诉风险标签、和投诉单对应的主体存储到投诉单数据库中之后,可以进一步包括以下步骤S1610~步骤S1630。
S1610.获取交易订单的信息流数据和资金流数据,交易订单对应于目标主体;
S1620.根据目标主体搜索投诉单数据库,以获取与目标主体对应的目标投诉单,以及目标投诉单对有的投诉效力标签和投诉风险标签;
S1630.将交易订单的信息流数据、资金流数据以及目标主体对应的投诉效力标签、投诉风险标签输入到预训练的决策树模型中,得到与目标主体对应的风险策略建议,风险策略建议包括信任交易订单、限制交易订单数额、处罚交易订单、拦截交易订单、提醒交易风险中的一种或多种。
图17示意性地示出了本申请某实施例中如何将交易订单的信息流数据、资金流数据以及目标主体对应的投诉效力标签、投诉风险标签输入到预训练的决策树模型中,得到与目标主体对应的风险策略建议的具体过程示意图。如图17所示,在获取投诉单并对投诉单中的图像进行文本识别之后,将待处理图像对应的识别文本输入到第一子神经网络模型中,得出与待处理图像对应的识别文本的投诉效力标签。将待处理图像对应的识别文本输入到第二子神经网络模型中,得出与待处理图像对应的识别文本的投诉风险标签。然后,将投诉单对应的投诉效力标签和投诉风险标签、和投诉单对应的主体存储到投诉单数据库中。实时策略引擎可以实时获取交易订单的信息流数据和资金流数据,并根据交易订单对应的目标主体搜索投诉单数据库,获取与目标主体对应的目标投诉单,以及目标投诉单对有的投诉效力标签和投诉风险标签。最后,将交易订单的信息流数据、资金流数据以及目标主体对应的投诉效力标签、投诉风险标签输入到实时策略引擎中所包括的预训练的决策树模型或者评分卡模型中,得到与目标主体对应的风险策略建议,风险策略建议包括信任交易订单、限制交易订单数额、处罚交易订单、拦截交易订单、提醒交易风险中的一种或多种。
具体地,可以根据交易订单对应的目标主体的不同类的风险标签进行不同梯度的自动处罚,对投诉有效标签较多的商户进行关闭支付权限、处罚出资金等较为严重的处理策略,对较投诉有效标签较少的商户进行额度限制,或对商户中的异常订单进行拦截提醒等较为轻微的处理策略,从而实现对于实时交易的风控。
由此,将投诉单对应的投诉效力标签和投诉风险标签、和投诉单对应的主体存储到投诉单数据库中,以便根据目标主体搜索投诉单数据库,以获取与目标主体对应的目标投诉单,以及目标投诉单对有的投诉效力标签和投诉风险标签,再将交易订单的信息流数据、资金流数据以及目标主体对应的投诉效力标签、投诉风险标签输入到预训练的决策树模型中,得到与目标主体对应的风险策略建议,能够基于多类别风险标签、是否有效投诉标签和商户的其他交易信息生成自动处理策略,有利于对异常商户建立梯度的处罚体系,实现对于异常交易订单的自动化处理。
应当注意,尽管在附图中以特定顺序描述了本申请中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
以下介绍本申请的装置实施例,可以用于执行本申请上述实施例中的图像文本识别方法。图18示意性地示出了本申请实施例提供的图像文本识别装置的结构框图。如图18所示,图像文本识别装置1800包括:
图层分割模块1810,被配置为将待处理图像转换成灰度图像,并根据灰度图像的各个像素点的灰度值所属的图层区间,将灰度图像分割成与各个图层区间对应的灰度图层,图层区间用于表示对应的灰度图层中的像素点的灰度值的取值范围;
腐蚀模块1820,被配置为对各个灰度图层做图像腐蚀,得到各个灰度图层对应的特征层,特征层包括多个连通区域,连通区域为包括多个具有连通关系的像素点的区域;
特征叠加模块1830,被配置为将各个特征层叠加,得到叠加特征层,叠加特征层包括多个连通区域;
膨胀模块1840,被配置为将叠加特征层上的各个连通区域按照预设方向膨胀,得到文本区域;
文本识别模块1850,被配置为对叠加特征层上的各个文本区域的文本进行识别,得到待处理图像对应的识别文本。
在本申请的一些实施例中,基于以上各实施例,图像文本识别装置还包括:
极小值确定单元,被配置为根据灰度图像的各个像素点的灰度值,确定灰度图像中各个灰度值的分布频次中的一个或多个极小值;
全值取值范围确定单元,被配置为根据灰度图像的灰度值的最小灰度值确定全值取值范围的最小值;根据灰度图像的灰度值的最大灰度值确定全值取值范围的最大值;
图层区间获取单元,被配置为根据各个极小值对应的灰度值,将全值取值范围分割成多个图层区间。
在本申请的一些实施例中,基于以上各实施例,图层区间获取单元包括:
排序子单元,被配置为将全值取值范围的最小值、全值取值范围的最小值、以及各个极小值对应的灰度值按从小到大或从大到小的顺序排序;
图层区间分割子单元,被配置为将排序相邻的两个灰度值作为图层区间对应的两个区间端点,对全值取值范围进行分割,得到多个首尾相接且不重叠的图层区间。
在本申请的一些实施例中,基于以上各实施例,极小值确定单元包括:
分布频次确定子单元,被配置为根据灰度图像中各个像素点的灰度值,计算各个灰度值的分布频次;
分布函数获取子单元,被配置为根据各个灰度值在灰度图像中的分布频次,得到对应的分布函数;
平滑曲线获取子单元,被配置为对分布函数作函数平滑,得到分布函数对应的平滑曲线;
极小值获取子单元,被配置为识别得出平滑曲线的各个波谷,将各个波谷对应的点的值作为灰度图像中各个灰度值的分布频次中的极小值。
在本申请的一些实施例中,基于以上各实施例,腐蚀模块包括:
二值图层获取单元,被配置为在灰度图层的灰度值取值区间中确定目标阈值,并将灰度图层中大于或等于目标阈值的灰度值对应于第一数值,将灰度图层中小于目标阈值的灰度值对应于第二数值,形成灰度图层对应的二值图层;
标记连通区域获取单元,被配置为对二值图像做图像腐蚀,得到由灰度值为第一数值的多个像素点组成的标记连通区域;
腐蚀单元,被配置为将灰度图层中的位于对应二值图层的标记连通区域所在位置的像素值保留,并将灰度图层中的位于对应二值图层的标记连通区域所在位置之外的像素值舍弃。
在本申请的一些实施例中,基于以上各实施例,预设方向为水平方向或竖直方向,膨胀模块包括:
外切矩形获取单元,被配置为获取连通区域的外切矩形,将连通区域膨胀至填充满外切矩形,外切矩形为在预设方向与连通区域外切的矩形;
最邻近连通区域获取单元,被配置为获取连通区域的最邻近连通区域,最邻近连通区域为与连通区域的间隔距离最短的连通区域;
文本区域获取单元,被配置为当最邻近连通区域相对于连通区域的方向为预设方向时,将连通区域朝向最邻近连通区域的方向膨胀,以得到文本区域。
在本申请的一些实施例中,基于以上各实施例,文本识别模块包括:
文本切割单元,被配置为对文本区域作文本切割,得到一个或多个单字区域;
字符识别单元,被配置为对各个单字区域的字符进行识别,得到各个单字区域对应的字符信息;
文本信息获取单元,被配置为将各个单字区域对应的字符信息按照各个单字区域在文本区域中的排列位置组合,得到文本区域对应的文本信息;
识别文本获取单元,被配置为根据多个文本区域对应的文本信息,获取待处理图像的识别文本。
在本申请的一些实施例中,基于以上各实施例,文本切割单元包括:
长高比计算子单元,被配置为计算文本区域的长高比,长高比为文本区域的长度和文本区域的高度的比值;
字符预计子单元,被配置为根据长高比计算文本区域的字符的预计数量;
单字区域获取子单元,被配置为根据预计数量对文本区域在长度方向上进行均匀切割,得到预计数量个单字区域。
在本申请的一些实施例中,基于以上各实施例,单字区域获取子单元包括:
预切割数量获取子单元,被配置为根据预计数量获取预切割数量,预切割数量大于或等于预计数量;
切割线均匀排列子单元,被配置为根据预切割数量在文本区域上在长度方向上均匀排列候选切割线,候选切割线能够将文本区域在长度方向上进行均匀切割得到预切割数量个候选区域;
目标切割线获取子单元,被配置为将两侧具有相邻切割线的候选切割线作为目标切割线;
距离总和计算子单元,被配置为检测目标切割线和两侧相邻的候选切割线之间的距离的距离总和;
目标切割线保留子单元,被配置为当距离总和与文本区域的高度的比值大于或等于预设比值时,将目标切割线保留;
目标切割线舍弃子单元,被配置为当距离总和与文本区域的高度的比值小于预设比值时,将目标切割线舍弃。
在本申请的一些实施例中,基于以上各实施例,特征叠加模块包括:
叠加特征层获取单元,被配置为将各个特征层叠加,得到叠加特征层;
合并连通区域获取单元,被配置为将叠加特征层上间隔距离小于预设距离的连通区域,合并成合并连通区域;
面积占比计算单元,被配置为计算合并连通区域中来自各个特征层的连通区域的区域面积,并计算各个特征层对应的面积占比,面积占比为特征层的相应位置的连通区域的区域面积,与合并连通区域的区域面积的比值;
连通区域替换单元,被配置为将合并连通区域替换为面积占比最大的特征层的相应位置的连通区域。
在本申请的一些实施例中,基于以上各实施例,方法应用于投诉单的自动化处理,待处理图像包括投诉单中的图像;图像文本识别装置还包括:
标签分类单元,被配置为将待处理图像对应的识别文本输入到预训练的神经网络模型中,得到待处理图像所在的投诉单对应的投诉效力标签和投诉风险标签;
投诉单数据库存储单元,被配置为将投诉单对应的投诉效力标签和投诉风险标签、和投诉单对应的主体存储到投诉单数据库中。
在本申请的一些实施例中,基于以上各实施例,图像文本识别装置还包括:
交易数据获取单元,被配置为获取交易订单的信息流数据和资金流数据,交易订单对应于目标主体;
标签搜索单元,被配置为根据目标主体搜索投诉单数据库,以获取与目标主体对应的目标投诉单,以及目标投诉单对有的投诉效力标签和投诉风险标签;
风险策略建议获取单元,被配置为将交易订单的信息流数据、资金流数据以及目标主体对应的投诉效力标签、投诉风险标签输入到预训练的决策树模型中,得到与目标主体对应的风险策略建议,风险策略建议包括信任交易订单、限制交易订单数额、处罚交易订单、拦截交易订单、提醒交易风险中的一种或多种。
本申请各实施例中提供的图像文本识别装置的具体细节已经在对应的方法实施例中进行了详细的描述,此处不再赘述。
图19示意性地示出了用于实现本申请实施例的电子设备的计算机系统结构框图。
需要说明的是,图19示出的电子设备的计算机系统1900仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图19所示,计算机系统1900包括中央处理器1901(Central Processing Unit,CPU),其可以根据存储在只读存储器1902(Read-Only Memory,ROM)中的程序或者从存储部分1908加载到随机访问存储器 1903(Random Access Memory,RAM)中的程序而执行各种适当的动作和处理。在随机访问存储器1903中,还存储有系统操作所需的各种程序和数据。中央处理器1901、在只读存储器1902以及随机访问存储器1903通过总线1904彼此相连。输入/输出接口1905(Input/Output接口,即I/O接口) 也连接至总线1904。
以下部件连接至输入/输出接口1905:包括键盘、鼠标等的输入部分 1906;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器 (Liquid Crystal Display,LCD)等以及扬声器等的输出部分1907;包括硬盘等的存储部分1908;以及包括诸如局域网卡、调制解调器等的网络接口卡的通信部分1909。通信部分1909经由诸如因特网的网络执行通信处理。驱动器1910也根据需要连接至输入/输出接口1905。可拆卸介质1911,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1910 上,以便于从其上读出的计算机程序根据需要被安装入存储部分1908。
特别地,根据本申请的实施例,各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1909从网络上被下载和安装,和/或从可拆卸介质1911 被安装。在该计算机程序被中央处理器1901执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory, EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read- Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD- ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
Claims (15)
1.一种图像文本识别方法,其特征在于,包括:
将待处理图像转换成灰度图像,并根据所述灰度图像的各个像素点的灰度值所属的图层区间,将所述灰度图像分割成与各个所述图层区间对应的灰度图层,所述图层区间用于表示对应的灰度图层中的像素点的灰度值的取值范围;
对各个所述灰度图层做图像腐蚀,得到各个所述灰度图层对应的特征层,所述特征层包括多个连通区域,所述连通区域为包括多个具有连通关系的像素点的区域;
将各个所述特征层叠加,得到叠加特征层,所述叠加特征层包括多个所述连通区域;
将所述叠加特征层上的各个连通区域按照预设方向膨胀,得到文本区域;
对所述叠加特征层上的各个所述文本区域的文本进行识别,得到所述待处理图像对应的识别文本。
2.根据权利要求1所述的方法,其特征在于,在所述根据所述灰度图像的各个像素点的灰度值所属的图层区间,将所述灰度图像分割成与各个所述图层区间对应的灰度图层之前,所述方法还包括:
根据所述灰度图像的各个像素点的灰度值,确定所述灰度图像中各个灰度值的分布频次中的一个或多个极小值;
根据所述灰度图像的灰度值的最小灰度值确定全值取值范围的最小值;根据所述灰度图像的灰度值的最大灰度值确定所述全值取值范围的最大值;
根据各个所述极小值对应的灰度值,将所述全值取值范围分割成多个所述图层区间。
3.根据权利要求2所述的方法,其特征在于,所述根据各个所述极小值对应的灰度值,将所述全值取值范围分割成多个所述图层区间,包括:
将所述全值取值范围的最小值、所述全值取值范围的最小值、以及各个所述极小值对应的灰度值按从小到大或从大到小的顺序排序;
将排序相邻的两个灰度值作为所述图层区间对应的两个区间端点,对所述全值取值范围进行分割,得到多个首尾相接且不重叠的图层区间。
4.根据权利要求2所述的方法,其特征在于,所述根据所述灰度图像的各个像素点的灰度值,确定所述灰度图像中各个灰度值的分布频次中的一个或多个极小值,包括:
根据所述灰度图像中各个像素点的灰度值,计算各个灰度值的分布频次;
根据各个灰度值在所述灰度图像中的分布频次,得到对应的分布函数;
对所述分布函数作函数平滑,得到所述分布函数对应的平滑曲线;
识别得出所述平滑曲线的各个波谷,将各个波谷对应的点的值作为所述灰度图像中各个灰度值的分布频次中的极小值。
5.根据权利要求1所述的方法,其特征在于,所述对各个所述灰度图层做图像腐蚀,得到各个所述灰度图层对应的特征层,所述特征层包括多个连通区域,包括:
在所述灰度图层的灰度值取值区间中确定目标阈值,并将所述灰度图层中大于或等于所述目标阈值的灰度值对应于第一数值,将所述灰度图层中小于所述目标阈值的灰度值对应于第二数值,形成所述灰度图层对应的二值图层;
对所述二值图像做图像腐蚀,得到由灰度值为所述第一数值的多个像素点组成的标记连通区域;
将所述灰度图层中的位于对应所述二值图层的所述标记连通区域所在位置的像素值保留,并将所述灰度图层中的位于对应所述二值图层的所述标记连通区域所在位置之外的像素值舍弃。
6.根据权利要求1所述的方法,其特征在于,所述预设方向为水平方向或竖直方向,所述将所述叠加特征层上的各个连通区域按照预设方向膨胀,得到文本区域,包括:
获取所述连通区域的外切矩形,将所述连通区域膨胀至填充满所述外切矩形,所述外切矩形为在预设方向与所述连通区域外切的矩形;
获取所述连通区域的最邻近连通区域,所述最邻近连通区域为与所述连通区域的间隔距离最短的连通区域;
当所述最邻近连通区域相对于所述连通区域的方向为预设方向时,将所述连通区域朝向所述最邻近连通区域的方向膨胀,以得到所述文本区域。
7.根据权利要求1所述的方法,其特征在于,所述对所述叠加特征层上的各个所述文本区域的文本进行识别,得到所述待处理图像对应的识别文本,包括:
对所述文本区域作文本切割,得到一个或多个单字区域;
对各个所述单字区域的字符进行识别,得到各个所述单字区域对应的字符信息;
将各个所述单字区域对应的字符信息按照各个所述单字区域在所述文本区域中的排列位置组合,得到所述文本区域对应的文本信息;
根据多个所述文本区域对应的文本信息,获取所述待处理图像的识别文本。
8.根据权利要求7所述的方法,其特征在于,所述对所述文本区域作文本切割,得到一个或多个单字区域,包括:
计算所述文本区域的长高比,所述长高比为所述文本区域的长度和所述文本区域的高度的比值;
根据所述长高比计算所述文本区域的字符的预计数量;
根据所述预计数量对所述文本区域在长度方向上进行均匀切割,得到所述预计数量个所述单字区域。
9.根据权利要求8所述的方法,其特征在于,所述根据所述预计数量对所述文本区域在长度方向上进行均匀切割,得到所述预计数量个所述单字区域,包括:
根据所述预计数量获取预切割数量,所述预切割数量大于或等于所述预计数量;
根据所述预切割数量在所述文本区域上在长度方向上均匀排列候选切割线,所述候选切割线能够将所述文本区域在长度方向上进行均匀切割得到所述预切割数量个候选区域;
将两侧具有相邻切割线的候选切割线作为目标切割线;
检测所述目标切割线和两侧相邻的候选切割线之间的距离的距离总和;
当所述距离总和与所述文本区域的高度的比值大于或等于预设比值时,将所述目标切割线保留;
当所述距离总和与所述文本区域的高度的比值小于预设比值时,将所述目标切割线舍弃。
10.根据权利要求1所述的方法,其特征在于,所述将各个所述特征层叠加,得到叠加特征层,包括:
将各个所述特征层叠加,得到叠加特征层;
将所述叠加特征层上间隔距离小于预设距离的连通区域,合并成合并连通区域;
计算所述合并连通区域中来自各个特征层的连通区域的区域面积,并计算各个所述特征层对应的面积占比,所述面积占比为所述特征层的相应位置的连通区域的区域面积,与所述合并连通区域的区域面积的比值;
将所述合并连通区域替换为所述面积占比最大的所述特征层的相应位置的连通区域。
11.根据权利要求1-10任意一项所述的方法,其特征在于,所述方法应用于投诉单的自动化处理,所述待处理图像包括所述投诉单中的图像;在所述对所述叠加特征层上的各个所述文本区域的文本进行识别,得到所述待处理图像对应的识别文本之后,所述方法还包括:
将所述待处理图像对应的识别文本输入到预训练的神经网络模型中,得到所述待处理图像所在的投诉单对应的投诉效力标签和投诉风险标签;
将所述投诉单对应的投诉效力标签和投诉风险标签、和所述投诉单对应的主体存储到投诉单数据库中。
12.根据权利要求11所述的方法,其特征在于,在所述将所述投诉单对应的投诉效力标签和投诉风险标签、和所述投诉单对应的主体存储到投诉单数据库中之后,所述方法还包括:
获取交易订单的信息流数据和资金流数据,所述交易订单对应于目标主体;
根据所述目标主体搜索所述投诉单数据库,以获取与所述目标主体对应的目标投诉单,以及所述目标投诉单对有的投诉效力标签和投诉风险标签;
将所述交易订单的信息流数据、资金流数据以及所述目标主体对应的投诉效力标签、投诉风险标签输入到预训练的决策树模型中,得到与所述目标主体对应的风险策略建议,所述风险策略建议包括信任交易订单、限制交易订单数额、处罚交易订单、拦截交易订单、提醒交易风险中的一种或多种。
13.一种图像文本识别装置,其特征在于,包括:
图层分割模块,被配置为将待处理图像转换成灰度图像,并根据所述灰度图像的各个像素点的灰度值所属的图层区间,将所述灰度图像分割成与各个所述图层区间对应的灰度图层,所述图层区间用于表示对应的灰度图层中的像素点的灰度值的取值范围;
腐蚀模块,被配置为对各个所述灰度图层做图像腐蚀,得到各个所述灰度图层对应的特征层,所述特征层包括多个连通区域,所述连通区域为包括多个具有连通关系的像素点的区域;
特征叠加模块,被配置为将各个所述特征层叠加,得到叠加特征层,所述叠加特征层包括多个所述连通区域;
膨胀模块,被配置为将所述叠加特征层上的各个连通区域按照预设方向膨胀,得到文本区域;
文本识别模块,被配置为对所述叠加特征层上的各个所述文本区域的文本进行识别,得到所述待处理图像对应的识别文本。
14.一种计算机可读介质,其上存储有计算机程序,该计算机程序被处理器执行时实现权利要求1至12中任意一项所述的图像文本识别方法。
15.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至12中任意一项所述的图像文本识别方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111307156.0A CN116092094A (zh) | 2021-11-05 | 2021-11-05 | 图像文本识别方法、装置、计算机可读介质及电子设备 |
PCT/CN2022/118298 WO2023077963A1 (zh) | 2021-11-05 | 2022-09-13 | 图像文本识别方法、装置、计算机可读介质及电子设备 |
US18/354,726 US20230360183A1 (en) | 2021-11-05 | 2023-07-19 | Method, computer-readable medium, and electronic device for image text recognition |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111307156.0A CN116092094A (zh) | 2021-11-05 | 2021-11-05 | 图像文本识别方法、装置、计算机可读介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116092094A true CN116092094A (zh) | 2023-05-09 |
Family
ID=86210694
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111307156.0A Pending CN116092094A (zh) | 2021-11-05 | 2021-11-05 | 图像文本识别方法、装置、计算机可读介质及电子设备 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230360183A1 (zh) |
CN (1) | CN116092094A (zh) |
WO (1) | WO2023077963A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117934517A (zh) * | 2024-03-19 | 2024-04-26 | 西北工业大学 | 基于散度聚类的单示例自进化目标检测分割方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002279344A (ja) * | 2001-03-16 | 2002-09-27 | Ricoh Co Ltd | 文字認識装置、文字認識方法および記録媒体 |
CN104156706A (zh) * | 2014-08-12 | 2014-11-19 | 华北电力大学句容研究中心 | 一种基于光学字符识别技术的中文字符识别方法 |
CN108985324A (zh) * | 2018-06-04 | 2018-12-11 | 平安科技(深圳)有限公司 | 手写字训练样本获取方法、装置、设备及介质 |
CN109034147B (zh) * | 2018-09-11 | 2020-08-11 | 上海唯识律简信息科技有限公司 | 基于深度学习和自然语言的光学字符识别优化方法和系统 |
CN109255499B (zh) * | 2018-10-25 | 2021-12-07 | 创新先进技术有限公司 | 投诉、投诉案件处理方法、装置及设备 |
-
2021
- 2021-11-05 CN CN202111307156.0A patent/CN116092094A/zh active Pending
-
2022
- 2022-09-13 WO PCT/CN2022/118298 patent/WO2023077963A1/zh unknown
-
2023
- 2023-07-19 US US18/354,726 patent/US20230360183A1/en active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117934517A (zh) * | 2024-03-19 | 2024-04-26 | 西北工业大学 | 基于散度聚类的单示例自进化目标检测分割方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2023077963A1 (zh) | 2023-05-11 |
US20230360183A1 (en) | 2023-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111931664B (zh) | 混贴票据图像的处理方法、装置、计算机设备及存储介质 | |
CN105426356B (zh) | 一种目标信息识别方法和装置 | |
CN111898696A (zh) | 伪标签及标签预测模型的生成方法、装置、介质及设备 | |
CN108596616B (zh) | 用户数据真实性分析方法及装置、存储介质、电子设备 | |
CN111371767B (zh) | 恶意账号识别方法、恶意账号识别装置、介质及电子设备 | |
CN113014566B (zh) | 恶意注册的检测方法、装置、计算机可读介质及电子设备 | |
CN110633991A (zh) | 风险识别方法、装置和电子设备 | |
CN111681091A (zh) | 基于时间域信息的金融风险预测方法、装置及存储介质 | |
CN112541443B (zh) | 发票信息抽取方法、装置、计算机设备及存储介质 | |
CN110502694A (zh) | 基于大数据分析的律师推荐方法及相关设备 | |
CN111753496B (zh) | 行业类别识别方法、装置、计算机设备及可读存储介质 | |
CN115204886A (zh) | 账户识别的方法、装置、电子设备和存储介质 | |
CN115115969A (zh) | 视频检测方法、装置、设备、存储介质和程序产品 | |
Nadeem et al. | SSM: Stylometric and semantic similarity oriented multimodal fake news detection | |
CN116092094A (zh) | 图像文本识别方法、装置、计算机可读介质及电子设备 | |
CN114282258A (zh) | 截屏数据脱敏方法、装置、计算机设备及存储介质 | |
CN113627233A (zh) | 基于视觉语义信息的人脸伪造检测方法和装置 | |
CN117058723A (zh) | 掌纹识别方法、装置及存储介质 | |
US11935331B2 (en) | Methods and systems for real-time electronic verification of content with varying features in data-sparse computer environments | |
CN113269179B (zh) | 数据处理方法、装置、设备及存储介质 | |
CN115880702A (zh) | 数据处理方法、装置、设备、程序产品及存储介质 | |
CN114373098A (zh) | 一种图像分类方法、装置、计算机设备及存储介质 | |
CN111104844B (zh) | 多发票信息录入方法、装置、电子设备及存储介质 | |
CN113590786A (zh) | 一种数据预测方法、装置、设备及存储介质 | |
CN113836297A (zh) | 文本情感分析模型的训练方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40086088 Country of ref document: HK |