CN115205883A - 基于ocr和nlp的资料审核方法、装置、设备、存储介质 - Google Patents
基于ocr和nlp的资料审核方法、装置、设备、存储介质 Download PDFInfo
- Publication number
- CN115205883A CN115205883A CN202210860778.4A CN202210860778A CN115205883A CN 115205883 A CN115205883 A CN 115205883A CN 202210860778 A CN202210860778 A CN 202210860778A CN 115205883 A CN115205883 A CN 115205883A
- Authority
- CN
- China
- Prior art keywords
- image
- determining
- characters
- document
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000012015 optical character recognition Methods 0.000 title abstract description 44
- 239000000463 material Substances 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 15
- 238000001514 detection method Methods 0.000 claims description 14
- 238000004458 analytical method Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 11
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 238000003708 edge detection Methods 0.000 claims description 9
- 238000012553 document review Methods 0.000 claims description 6
- 238000012552 review Methods 0.000 claims 2
- 238000013473 artificial intelligence Methods 0.000 abstract description 8
- 238000012795 verification Methods 0.000 abstract description 6
- 238000013524 data verification Methods 0.000 abstract description 5
- 238000003058 natural language processing Methods 0.000 description 44
- 238000005516 engineering process Methods 0.000 description 21
- 230000006870 function Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 239000011149 active material Substances 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/42—Document-oriented image-based pattern recognition based on the type of document
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/1801—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/18105—Extraction of features or characteristics of the image related to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/19007—Matching; Proximity measures
- G06V30/19093—Proximity measures, i.e. similarity or distance measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/24—Character recognition characterised by the processing or recognition method
- G06V30/242—Division of the character sequences into groups prior to recognition; Selection of dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Character Discrimination (AREA)
Abstract
本发明属于人工智能领域,提供了一种基于OCR和NLP的资料审核方法、装置、设备、存储介质,方法包括:获取核保业务的资料文件图像和图像参考信息;从资料文件图像进行图像识别出人脸区域和字符区域;当根据人脸区域的占比确定为有效资料图像,通过预设的OCR模型识别出目标字符和内容字符,根据目标字符的标题字符确定目标词典;将目标词典和内容字符输入至预设的NLP模型识别出资料审核结果。根据本实施例的技术方案,能够通过人脸占比对资料文件图像的有效性进行初步筛选,无需人工核验,减少人工成本,并且在确定资料文件图像为有效图像之后进行OCR模型和NLP模型分析出资料审核结果,实现了资料文件图像的自动审核,提高了工作效率。
Description
技术领域
本发明属于人工智能领域,尤其涉及一种基于OCR和NLP的资料审核方法、装置、设备、存储介质。
背景技术
在保险行业中,资料审核是投保或者理赔的重要流程,传统的资料审核方式主要依靠作业人员对客户提供的资料文件进行人工查阅,通过个人经验来得出资料审核结果,不仅要求作业人员具有比较丰富的工作经验,而且在工作负荷较大的情况下准确性无法保障,工作效率也比较低。
随着光学字符识别(Optical Character Recognition,OCR)技术和自然语言处理(Natural Language Processing,NLP)技术的出现,已经有一些方案可以利用OCR技术从资料文件的图像中识别出文字,再通过NLP技术对识别出的文字进行语义识别,从而实现自动审核。但是,一旦上传了错误的资料文件,会导致后续识别出现错误,这就需要先通过人工对资料文件进行初步筛查,再根据核保资料的内容调整OCR识别区域和NLP的识别关键字,工作效率依然非常低下。
发明内容
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
本发明实施例提供了一种基于OCR和NLP的资料审核方法、装置、设备、存储介质,能够自动确定资料文件的有效性,并自动完成OCR和NLP识别,提高资料审核的效率。
第一方面,本发明实施例提供了一种基于OCR和NLP的资料审核方法,包括:
获取核保业务的资料文件图像和图像参考信息,所述图像参考信息包括预设的参考占比区间;
对所述资料文件图像进行图像识别,确定所述资料文件图像的人脸区域和字符区域;
当所述资料文件图像的人脸区域的占比满足所述参考占比区间,将所述资料文件图像确定为有效资料图像;
通过预设的OCR模型从所述有效资料图像的所述字符区域识别出目标字符;
从所述目标字符中确定标题字符和内容字符,根据所述标题字符从预设的候选词典中确定目标词典;
将所述目标词典和所述内容字符输入至预设的NLP模型进行语义识别,得到资料审核结果。
另外,在一些实施例中,所述图像参考信息还包括参考欧氏距离,所述将所述资料文件图像确定为有效资料图像,所述方法还包括:
获取所述资料文件图像中每个像素点的RGB值;
确定各个所述像素点的RGB值与第一RGB参考值之间的第一欧氏距离,所述第一RGB参考值所对应的颜色为黑色;
确定各个所述像素点的RGB值与第二RGB参考值之间的第二欧氏距离,所述第二RGB参考值所对应的颜色为白色;
根据全部所述像素点的所述第一欧氏距离和所述第二欧氏距离确定所述资料文件图像的平均欧氏距离;
当所述资料文件图像的平均欧氏距离小于所述参考欧氏距离,将所述资料文件图像确定为所述有效资料图像。
另外,在一些实施例中,所述获取所述资料文件图像中每个像素点的RGB值,包括:
通过预设的边缘检测算法对所述资料文件图像进行边缘检测,确定图像边缘;
根据所述图像边缘确定图像检测区域,在所述图像检测区域获取每个所述像素点的RGB值。
另外,在一些实施例中,所述通过预设的OCR模型从所述有效资料图像的所述字符区域识别出目标字符,包括:
将所述有效资料图像进行二值化处理,得到二值化图像;
根据所述二值化图像进行字符投影,根据字符投影的结果确定字符分界点;
根据所所有的所述字符分界点,从所述有效资料图像中分割出多个待识别字符;
对每个所述待识别字符进行字符识别,得到所述目标字符。
另外,在一些实施例中,所述图像参考信息还包括标题位置信息,所述从所述目标字符中确定标题字符和内容字符,包括:
根据所述标题位置信息确定标题区域,将剩余的区域确定为内容区域;
将从所述标题区域中识别出的字符确定为所述标题字符,将从所述内容区域中识别出的字符确定为所述内容字符。
另外,在一些实施例中,所述图像参考信息还包括资料样式信息,所述资料样式信息包括所述资料文件图像中资料指标的排列方式,所述目标词典包括多个候选关键词,所述将所述目标词典和所述内容字符输入至预设的NLP模型进行语义识别,得到资料审核结果,包括:
根据所述资料样式信息从所述资料文件图像中确定至少一个指标识别区域,所述指标识别区域包括指标名称区域和指标数值区域;
将所述指标名称区域中的所述内容字符确定为待匹配字符,将所述指标数值区域的所述内容字符确定为目标指标值,所述目标指标值至少包括一个;
根据所述待匹配字符从所述候选关键词中匹配出目标关键词;
对将每个所述目标关键词和所对应的至少一个所述目标指标值输入至所述NLP模型,得到指标分析结果;
根据全部的所述指标分析结果确定所述资料审核结果。
另外,在一些实施例中,所述根据所述待匹配字符从所述候选关键词中匹配出目标关键词,包括:
确定所述待匹配字符与所述候选关键词之间的第三欧氏距离;
当所述第三欧氏距离小于预设阈值,将所对应的所述候选关键词确定为所述目标关键词。
第二方面,本发明实施例提供了一种基于OCR和NLP的资料审核装置,包括:
信息获取单元,用于获取核保业务的资料文件图像和图像参考信息,所述图像参考信息包括预设的参考占比区间;
图像识别单元,用于对所述资料文件图像进行图像识别,确定所述资料文件图像的人脸区域和字符区域;
图像检测单元,用于当所述资料文件图像的人脸区域的占比满足所述参考占比区间,将所述资料文件图像确定为有效资料图像;
字符识别单元,用于通过预设的OCR模型从所述有效资料图像的所述字符区域识别出目标字符;
词典确定单元,用于从所述目标字符中确定标题字符和内容字符,根据所述标题字符从预设的候选词典中确定目标词典;
语义识别单元,用于将所述目标词典和所述内容字符输入至预设的NLP模型进行语义识别,得到资料审核结果。
第三方面,本发明实施例提供了一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的基于OCR和NLP的资料审核方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序用于执行如第一方面所述的基于OCR和NLP的资料审核方法。
本发明实施例包括:获取核保业务的资料文件图像和图像参考信息,所述图像参考信息包括预设的参考占比区间;对所述资料文件图像进行图像识别,确定所述资料文件图像的人脸区域和字符区域;当所述资料文件图像的人脸区域的占比满足所述参考占比区间,将所述资料文件图像确定为有效资料图像;通过预设的OCR模型从所述有效资料图像的所述字符区域识别出目标字符;从所述目标字符中确定标题字符和内容字符,根据所述标题字符从预设的候选词典中确定目标词典;将所述目标词典和所述内容字符输入至预设的NLP模型进行语义识别,得到资料审核结果。根据本实施例的技术方案,由于资料文件通常是规范性较强的证明文件,能够通过人脸占比对资料文件图像的有效性进行初步筛选,无需人工核验,减少人工成本,并且在确定资料文件图像为有效图像之后进行OCR模型和NLP模型分析出资料审核结果,实现了资料文件图像的自动审核,提高了工作效率。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
图1是本发明一个实施例提供的基于OCR和NLP的资料审核方法的流程图;
图2是本发明另一个实施例提供的确定资料文件图像有效的流程图;
图3是本发明另一个实施例提供的确定图像边缘的流程图;
图4是本发明另一个实施例提供的OCR识别的流程图;
图5是本发明另一个实施例提供的标题识别的流程图;
图6是本发明另一个实施例提供的NLP识别的流程图;
图7是本发明另一个实施例提供的确定目标关键词的流程图;
图8是本发明另一个实施例提供的基于OCR和NLP的资料审核装置的结构图;
图9是本发明另一个实施例提供的电子设备的装置图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书、权利要求书或上述附图中的术语“第一”、“目标”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
本发明提供了一种基于OCR和NLP的资料审核方法、装置、设备、存储介质,方法包括:获取核保业务的资料文件图像和图像参考信息,所述图像参考信息包括预设的参考占比区间;对所述资料文件图像进行图像识别,确定所述资料文件图像的人脸区域和字符区域;当所述资料文件图像的人脸区域的占比满足所述参考占比区间,将所述资料文件图像确定为有效资料图像;通过预设的OCR模型从所述有效资料图像的所述字符区域识别出目标字符;从所述目标字符中确定标题字符和内容字符,根据所述标题字符从预设的候选词典中确定目标词典;将所述目标词典和所述内容字符输入至预设的NLP模型进行语义识别,得到资料审核结果。根据本实施例的技术方案,由于资料文件通常是规范性较强的证明文件,能够通过人脸占比对资料文件图像的有效性进行初步筛选,无需人工核验,减少人工成本,并且在确定资料文件图像为有效图像之后进行OCR模型和NLP模型分析出资料审核结果,实现了资料文件图像的自动审核,提高了工作效率。
本申请实施例可以基于人工智能技术对相关的数据进行编译、获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用装置。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互装置、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
NLP是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
如图1所示,图1是本发明一个实施例提供的一种基于OCR和NLP的资料审核方法的流程图,该基于OCR和NLP的资料审核方法包括但不限于有以下步骤:
步骤S110,获取核保业务的资料文件图像和图像参考信息,图像参考信息包括预设的参考占比区间;
步骤S120,对资料文件图像进行图像识别,确定资料文件图像的人脸区域和字符区域;
步骤S130,当资料文件图像的人脸区域的占比满足参考占比区间,将资料文件图像确定为有效资料图像;
步骤S140,通过预设的OCR模型从有效资料图像的字符区域识别出目标字符;
步骤S150,从目标字符中确定标题字符和内容字符,根据标题字符从预设的候选词典中确定目标词典;
步骤S160,将目标词典和内容字符输入至预设的NLP模型进行语义识别,得到资料审核结果。
需要说明的是,资料文件可以是与核保业务相关的任意文件,例如身份证明文件、财务证明文件、诊断证明文件等,本实施例对资料文件的具体类型不作限定。
需要说明的是,由于核保业务的类型较多,不同的资料文件图像的构成方式不同,例如身份证明文件包括人脸区域和内容区域,财务证明文件通常只有内容区域,而这些证明文件通常具有比较统一的格式,例如身份证明文件的人脸占比是可知的,财务证明文件的人脸占比为0,因此可以预先设置好每种资料文件图像的人脸占比的范围作为图像参考信息,能够验证资料文件图像是否有效。例如对于身份证明文件,参考占比区间为5%至10%,当通过图像识别确定资料文件图像中的人脸区域的占比为9%,则可以确定该文件有效,能够执行后续判断操作;当通过图像识别确定资料文件图像中的人脸区域的占比为15%,则可以确定该文件不属于身份证明文件,生成提示信息并退出识别流程。又如,当核保业务所需要的资料文件图像为财务证明文件,该文件的参考占比区间为0,则资料文件图像只要检测到人脸区域,就可以确定该文件无效,属于误上传。
需要说明的是,图像识别可以通过常见的图像识别技术完成,能够从资料文件图像中识别出人脸区域和字符区域即可,在确定人脸区域和字符区域后,可以计算出各自的面积,通过人脸区域的面积和资料文件图像的面积计算出人脸区域占比即可。
需要说明的是,当资料文件图像包括多张图像时,由于核保业务的资料上传通常有固定的顺序,例如多张资料文件图像依次为身份证明文件和财务证明文件,在资料文件图像的顺序可知的情况下,可以在图像参考信息中预先设置多个参考占比区间,每张资料文件图像进行逐张对比,例如第一张资料文件图像与第一个参考占比区间进行比对,确定第一张资料文件图像是否身份证明文件,第二张资料文件图像与第二个参考占比区间进行比对,确定第二张资料文件图像是否为财务证明文件,本领域技术人员有动机根据时机需求调整参考图像信息的设置方式,在此不多做限定。
需要说明的是,OCR模型可以采用常见的类型,本实施例对模型的具体选取不作限定,能够实现OCR识别即可。目标字符可以是字符区域中的所有字符,本实施例的字符包括文字和数字,在此不多做限定。
需要说明的是,标题字符通常能够用于区分资料文件图像的具体类型,例如财务证明文件包括个人财务证明或公司财务证明,可以通过标题字符进行识别确定文件的具体类型,通过简单的语义识别实现即可。由于不同的资料证明文件所对应的指标不同,因此语义识别的侧重点也不同,为了提高NLP模型识别的准确度,可以设置不同的词典对应不同的资料文件图像,通过标题字符进行匹配,能够确保NLP模型采用正确的词典进行语义识别,避免采用规模较大的通用词典,有效提高语义识别的效率。
需要说明的是,NLP模型可以常见的模型,本实施例对NLP模型的具体结构不作过多限定,在具备目标词典的基础上,能够实现语义识别即可。值得注意的是,通过NLP模型能够识别出资料文件图像中不同指标所表征的含义,例如财务证明文件中每个数值是否符合核保标准,具体的语义识别方式根据具体指标的表征意义调整即可。
另外,在一实施例中,图像参考信息还包括参考欧氏距离,参照图2,图1所示实施例的步骤S130还包括但不限于有以下步骤:
步骤S210,获取资料文件图像中每个像素点的RGB值;
步骤S220,确定各个像素点的RGB值与第一RGB参考值之间的第一欧氏距离,第一RGB参考值所对应的颜色为黑色;
步骤S230,确定各个像素点的RGB值与第二RGB参考值之间的第二欧氏距离,第二RGB参考值所对应的颜色为白色;
步骤S240,根据全部像素点的第一欧氏距离和第二欧氏距离确定资料文件图像的平均欧氏距离;
步骤S250,当资料文件图像的平均欧氏距离小于参考欧氏距离,将资料文件图像确定为有效资料图像。
需要说明的是,在实际上传资料文件图像的过程中,很可能因为操作失误上传了错误的图像,例如上传的图像为与核保不相关的图像,这种图像通常具有比较丰富的色彩,而核保业务的图像色彩较为单一甚至为黑白图像,因此可以通过色彩丰富程度对资料文件图像的有效性进行判断,若图像的色彩丰富程度叫高,则可能上传的图像是错误的,从而在语义识别之前对图像进行初筛,避免对错误的图像进行识别,确保核保的准确性。
可以理解的是,为了判断图像的色彩丰富程度,可以通过计算像素点的色彩与黑白色彩之间的欧氏距离确定,欧氏距离是用来衡量两个数据样本之间的相似度,又叫欧几里得度量(euclidean metric),是最易于理解的一种距离计算方法,是一个通常采用的距离定义,指在m维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离)。在二维和三维空间中的欧氏距离就是两点之间的实际距离欧氏距离的作用。当像素点的RGB值与表征白色的RGB值之间的欧氏距离越小,代表二者的相似程度越高,因此,通过RGB值与第一RGB值进行欧氏距离的计算,能够确定像素点与白色的相似度,与第二RGB值进行欧氏距离的计算,能够确定其与黑色之间的相似度,当资料文件图像的平均欧氏距离在参考欧氏距离之内,则可以确定该资料文件图像为有效图像。
值得注意的是,不同的资料文件图像所对应的参考欧氏距离可以不同,例如身份证明文件具有一定的色彩,参考欧氏距离可以设置较大,而财务证明文件为黑白文件,参考欧氏距离可以设置得较小,能够满足图像识别的精度即可。
值得注意的是,欧氏距离的具体计算方式为本领域技术人员熟知的技术,在此不多做赘述。
另外,在一实施例中,参照图3,图2所示实施例的步骤S210还包括但不限于有以下步骤:
步骤S310,通过预设的边缘检测算法对资料文件图像进行边缘检测,确定图像边缘;
步骤S320,根据图像边缘确定图像检测区域,在图像检测区域获取每个像素点的RGB值。
需要说明的是,由于资料文件图像可以是扫描得到的图像,因此图像中可能存在较多的空白区域,为了提高图像识别的准确度,可以先通过边缘算法对资料文件图像进行边缘检测,将图像边缘内作为图像检测区域,在图像检测区域内进行后续识别,能够提高图像识别的准确性。
需要说明的是,边缘检测算法可以是常见的Canny算法,也可以是其他算法,本实施例对边缘检测算法的具体类型不作限定。
另外,在一实施例中,参照图4,图1所示实施例的步骤S140还包括但不限于有以下步骤:
步骤S410,将有效资料图像进行二值化处理,得到二值化图像;
步骤S420,根据二值化图像进行字符投影,根据字符投影的结果确定字符分界点;
步骤S430,根据所所有的字符分界点,从有效资料图像中分割出多个待识别字符;
步骤S440,对每个待识别字符进行字符识别,得到目标字符。
需要说明的是,由于资料证明文件大多为文字字符,因此可以通过投影法进行OCR识别,常见的投影法包括垂直投影法和水平投影法,利用二值化图片的像素的分布直方图进行分析,从而找出相邻字符的字符分界点分割出多个待识别字符,再对待识别字符进行简单的图像识别即可得到目标字符,从而完成OCR识别。投影法的具体实现过程为本领域技术人员熟知的技术,在此不多做赘述。
另外,在一实施例中,图像参考信息还包括标题位置信息,参照图5,图1所示的步骤S150还包括但不限于有以下步骤:
步骤S510,根据标题位置信息确定标题区域,将剩余的区域确定为内容区域;
步骤S520,将从标题区域中识别出的字符确定为标题字符,将从内容区域中识别出的字符确定为内容字符。
需要说明的是,不同的证明文件有不同的标题区域,例如常见的财务报表的标题通常在资料文件的左侧或者上侧,由于核保业务所需要的证明文件是可预知的,因此可以预先设置好标题位置信息,将标题位置信息所对应的区域作为标题区域,进行标题字符的识别,剩余的区域则可以确定为内容区域,进行内容识别。
另外,在一实施例中,图像参考信息还包括资料样式信息,资料样式信息包括资料文件图像中资料指标的排列方式,目标词典包括多个候选关键词,参照图6,图1所示实施例的步骤S160还包括但不限于有以下步骤:
步骤S610,根据资料样式信息从资料文件图像中确定至少一个指标识别区域,指标识别区域包括指标名称区域和指标数值区域;
步骤S620,将指标名称区域中的内容字符确定为待匹配字符,将指标数值区域的内容字符确定为目标指标值,目标指标值至少包括一个;
步骤S630,根据待匹配字符从候选关键词中匹配出目标关键词;
步骤S640,对将每个目标关键词和所对应的至少一个目标指标值输入至NLP模型,得到指标分析结果;
步骤S650,根据全部的指标分析结果确定资料审核结果。
需要说明的是,不同的证明文件有不同的排列方式,例如资产证明文件,每一行或者每一列为不同的财务指标,为了更好地进行语义识别,可以根据资料样式信息确定多个指标识别区域,在指标名称区域识别出待匹配字符进行目标关键字的匹配,以确定具体的指标类型,例如财务证明文件中的各种财务指标;并从待匹配字符所对应的指标数值区域进行数字识别,从而确定与财务指标所对应的数值,从而确定指标分析结果。
需要说明的是,资料样式可以是指标数值与待匹配字符的分布方式,例如指标数值位于待匹配字符的右侧等,根据不同的资料文件调整即可。
需要说明的是,目标指标值的数量可以是多个,例如财务证明文件中记载有多年的财务数值,本实施例对目标指标值的数量不作限定。需要说明的是,在具有多个目标指标值的情况下,可以通过计算相邻的两个目标指标值之间的数量关系确定指标分析结果,例如根据连续几年的财务数值进行环比计算,得到每年的增长率作为指标分析结果,具体的计算方法根据具体的指标类型和核保需求在NLP模型中调整即可。
在获取到多个指标分析结果之后,可以通过NLP模型确定资料审核结果,例如根据不同的财务指标的指标分析结果确定用户的财务风险等,具体的评估方式根据资料文件的类型调整即可。
另外,在一实施例中,参照图7,图6所示实施例的步骤S630还包括但不限于有以下步骤:
步骤S710,确定待匹配字符与候选关键词之间的第三欧氏距离;
步骤S720,当第三欧氏距离小于预设阈值,将所对应的候选关键词确定为目标关键词。
需要说明的是,由于资料文件通常为相对严谨的资料,因此待匹配字符通常为描述比较准确的字符,可以通过正向最大匹配算法对文本进行切分,从而完成关键词的识别。在得到OCR模型输出的文本之后,可以将待匹配字符转换成语义向量,通过语义向量与目标词典中逐个候选关键词进行匹配,计算两词之间的欧氏距离,当欧氏距离在阈值内则可以认为匹配成功,否则作为未知新词汇直接跳过,能够有效提高目标关键词的识别准确性。
另外,参照图8,本发明实施例提供了一种基于OCR和NLP的资料审核装置,该基于OCR和NLP的资料审核装置800包括但不限于有以下单元:
信息获取单元810,用于获取核保业务的资料文件图像和图像参考信息,图像参考信息包括预设的参考占比区间;
图像识别单元820,用于对资料文件图像进行图像识别,确定资料文件图像的人脸区域和字符区域;
图像检测单元830,用于当资料文件图像的人脸区域的占比满足参考占比区间,将资料文件图像确定为有效资料图像;
字符识别单元840,用于通过预设的OCR模型从有效资料图像的字符区域识别出目标字符;
词典确定单元850,用于从目标字符中确定标题字符和内容字符,根据标题字符从预设的候选词典中确定目标词典;
语义识别单元860,用于将目标词典和内容字符输入至预设的NLP模型进行语义识别,得到资料审核结果。
另外,参照图9,本发明的一个实施例还提供了一种电子设备,该电子设备900包括:存储器910、处理器920及存储在存储器910上并可在处理器920上运行的计算机程序。
处理器920和存储器910可以通过总线或者其他方式连接。
实现上述实施例的基于OCR和NLP的资料审核方法所需的非暂态软件程序以及指令存储在存储器910中,当被处理器920执行时,执行上述实施例中的基于OCR和NLP的资料审核方法,例如,执行以上描述的图1中的方法步骤S110至步骤S160、图2中的方法步骤S210至步骤S250、图3中的方法步骤S310至步骤S320、图4中的方法步骤S410至步骤S440、图5中的方法步骤S510至步骤S520、图6中的方法步骤S610至步骤S650、图7中的方法步骤S710至步骤S720。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
此外,本发明的一个实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被一个处理器或控制器执行,例如,被上述电子设备实施例中的一个处理器执行,可使得上述处理器执行上述实施例中的基于OCR和NLP的资料审核方法,例如,执行以上描述的图1中的方法步骤S110至步骤S160、图2中的方法步骤S210至步骤S250、图3中的方法步骤S310至步骤S320、图4中的方法步骤S410至步骤S440、图5中的方法步骤S510至步骤S520、图6中的方法步骤S610至步骤S650、图7中的方法步骤S710至步骤S720。本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、装置可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读存储介质上,计算机可读存储介质可以包括计算机存储介质(或非暂时性存储介质)和通信存储介质(或暂时性存储介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除存储介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的存储介质。此外,本领域普通技术人员公知的是,通信存储介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送存储介质。
本实施例可用于众多通用或专用的计算机装置环境或配置中。例如:个人计算机、服务器计算机、手持电子设备或便携式电子设备、平板型电子设备、多处理器装置、基于微处理器的装置、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何装置或电子设备的分布式计算环境等等。本申请可以在由计算机执行的计算机程序的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理电子设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储电子设备在内的本地和远程计算机存储介质中。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
应当注意,尽管在上文详细描述中提及了用于动作执行的电子设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算电子设备(可以是个人计算机、服务器、触控终端、或者网络电子设备等)执行根据本申请实施方式的方法。
本实施例的电子设备可以包括:射频(Radio Frequency,RF)电路、存储器、输入单元、显示单元、传感器、音频电路、无线保真(wireless fidelity,WiFi)模块、处理器、以及电源等部件。RF电路可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器处理;另外,将设计上行的数据发送给基站。通常,RF电路包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low Noise Amplifier,LNA)、双工器等。此外,RF电路还可以通过无线通信与网络和其他装置通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(Global System ofMobile communication,GSM)、通用分组无线服务(General Packet Radio Service,GPRS)、码分多址(Code Division Multiple Access,CDMA)、宽带码分多址(Wideband CodeDivision Multiple Access,WCDMA)、长期演进(Long Term Evolution,LTE)、电子邮件、短消息服务(Short Messaging Service,SMS)等。存储器可用于存储软件程序以及模块,处理器通过运行存储在存储器的软件程序以及模块,从而执行电子设备的各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。输入单元可用于接收输入的数字或字符信息,以及产生与电子设备的设置以及功能控制有关的键信号输入。具体地,输入单元可包括触控面板以及其他输入装置。触控面板,也称为触摸屏,可收集在其上或附近的触摸操作(比如使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器,并能接收处理器发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类别实现触控面板。除了触控面板,输入单元还可以包括其他输入装置。具体地,其他输入装置可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。显示单元可用于显示输入的信息或提供的信息以及电子设备的各种菜单。显示单元可包括显示面板,可选的,可以采用液晶显示器(LiquidCrystal Display,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板。进一步的,触控面板可覆盖显示面板,当触控面板检测到在其上或附近的触摸操作后,传送给处理器以确定触摸事件的类别,随后处理器根据触摸事件的类别在显示面板上提供相应的视觉输出。触控面板与显示面板是作为两个独立的部件来实现电子设备的输入和输入功能,但是在某些实施例中,可以将触控面板与显示面板集成而实现电子设备的输入和输出功能。电子设备还可包括至少一种传感器,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板的亮度,接近传感器可在电子设备移动到耳边时,关闭显示面板和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别电子设备姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于电子设备还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。音频电路、扬声器、传声器可提供音频接口。音频电路可将接收到的音频数据转换后的电信号,传输到扬声器,由扬声器转换为声音信号输出;另一方面,传声器将收集的声音信号转换为电信号,由音频电路接收后转换为音频数据,再将音频数据输出处理器处理后,经RF电路以发送给比如另一电子设备,或者将音频数据输出至存储器以便进一步处理。
本领域技术人员在考虑说明书及实践这里公开的实施方式后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
以上是对本发明的较佳实施进行了具体说明,但本发明并不局限于上述实施方式,熟悉本领域的技术人员在不违背本发明精神的前提下还可作出种种的等同变形或替换,这些等同的变形或替换均包含在本发明权利要求所限定的范围内。
Claims (10)
1.一种基于OCR和NLP的资料审核方法,其特征在于,包括:
获取核保业务的资料文件图像和图像参考信息,所述图像参考信息包括预设的参考占比区间;
对所述资料文件图像进行图像识别,确定所述资料文件图像的人脸区域和字符区域;
当所述资料文件图像的人脸区域的占比满足所述参考占比区间,将所述资料文件图像确定为有效资料图像;
通过预设的OCR模型从所述有效资料图像的所述字符区域识别出目标字符;
从所述目标字符中确定标题字符和内容字符,根据所述标题字符从预设的候选词典中确定目标词典;
将所述目标词典和所述内容字符输入至预设的NLP模型进行语义识别,得到资料审核结果。
2.根据权利要求1所述的基于OCR和NLP的资料审核方法,其特征在于,所述图像参考信息还包括参考欧氏距离,所述将所述资料文件图像确定为有效资料图像,所述方法还包括:
获取所述资料文件图像中每个像素点的RGB值;
确定各个所述像素点的RGB值与第一RGB参考值之间的第一欧氏距离,所述第一RGB参考值所对应的颜色为黑色;
确定各个所述像素点的RGB值与第二RGB参考值之间的第二欧氏距离,所述第二RGB参考值所对应的颜色为白色;
根据全部所述像素点的所述第一欧氏距离和所述第二欧氏距离确定所述资料文件图像的平均欧氏距离;
当所述资料文件图像的平均欧氏距离小于所述参考欧氏距离,将所述资料文件图像确定为所述有效资料图像。
3.根据权利要求2所述的基于OCR和NLP的资料审核方法,其特征在于,所述获取所述资料文件图像中每个像素点的RGB值,包括:
通过预设的边缘检测算法对所述资料文件图像进行边缘检测,确定图像边缘;
根据所述图像边缘确定图像检测区域,在所述图像检测区域获取每个所述像素点的RGB值。
4.根据权利要求1所述的基于OCR和NLP的资料审核方法,其特征在于,所述通过预设的OCR模型从所述有效资料图像的所述字符区域识别出目标字符,包括:
将所述有效资料图像进行二值化处理,得到二值化图像;
根据所述二值化图像进行字符投影,根据字符投影的结果确定字符分界点;
根据所所有的所述字符分界点,从所述有效资料图像中分割出多个待识别字符;
对每个所述待识别字符进行字符识别,得到所述目标字符。
5.根据权利要求1所述的基于OCR和NLP的资料审核方法,其特征在于,所述图像参考信息还包括标题位置信息,所述从所述目标字符中确定标题字符和内容字符,包括:
根据所述标题位置信息确定标题区域,将剩余的区域确定为内容区域;
将从所述标题区域中识别出的字符确定为所述标题字符,将从所述内容区域中识别出的字符确定为所述内容字符。
6.根据权利要求1所述的基于OCR和NLP的资料审核方法,其特征在于,所述图像参考信息还包括资料样式信息,所述资料样式信息包括所述资料文件图像中资料指标的排列方式,所述目标词典包括多个候选关键词,所述将所述目标词典和所述内容字符输入至预设的NLP模型进行语义识别,得到资料审核结果,包括:
根据所述资料样式信息从所述资料文件图像中确定至少一个指标识别区域,所述指标识别区域包括指标名称区域和指标数值区域;
将所述指标名称区域中的所述内容字符确定为待匹配字符,将所述指标数值区域的所述内容字符确定为目标指标值,所述目标指标值至少包括一个;
根据所述待匹配字符从所述候选关键词中匹配出目标关键词;
对将每个所述目标关键词和所对应的至少一个所述目标指标值输入至所述NLP模型,得到指标分析结果;
根据全部的所述指标分析结果确定所述资料审核结果。
7.根据权利要求6所述的基于OCR和NLP的资料审核方法,其特征在于,所述根据所述待匹配字符从所述候选关键词中匹配出目标关键词,包括:
确定所述待匹配字符与所述候选关键词之间的第三欧氏距离;
当所述第三欧氏距离小于预设阈值,将所对应的所述候选关键词确定为所述目标关键词。
8.一种基于OCR和NLP的资料审核装置,其特征在于,包括:
信息获取单元,用于获取核保业务的资料文件图像和图像参考信息,所述图像参考信息包括预设的参考占比区间;
图像识别单元,用于对所述资料文件图像进行图像识别,确定所述资料文件图像的人脸区域和字符区域;
图像检测单元,用于当所述资料文件图像的人脸区域的占比满足所述参考占比区间,将所述资料文件图像确定为有效资料图像;
字符识别单元,用于通过预设的OCR模型从所述有效资料图像的所述字符区域识别出目标字符;
词典确定单元,用于从所述目标字符中确定标题字符和内容字符,根据所述标题字符从预设的候选词典中确定目标词典;
语义识别单元,用于将所述目标词典和所述内容字符输入至预设的NLP模型进行语义识别,得到资料审核结果。
9.一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的基于OCR和NLP的资料审核方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序用于执行如权利要求1至7中任意一项所述的基于OCR和NLP的资料审核方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210860778.4A CN115205883A (zh) | 2022-07-21 | 2022-07-21 | 基于ocr和nlp的资料审核方法、装置、设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210860778.4A CN115205883A (zh) | 2022-07-21 | 2022-07-21 | 基于ocr和nlp的资料审核方法、装置、设备、存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115205883A true CN115205883A (zh) | 2022-10-18 |
Family
ID=83584524
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210860778.4A Pending CN115205883A (zh) | 2022-07-21 | 2022-07-21 | 基于ocr和nlp的资料审核方法、装置、设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115205883A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116756396A (zh) * | 2023-06-29 | 2023-09-15 | 广东齐峰信息科技有限公司 | 基于知识图谱的数字档案管理系统及方法 |
CN116959018A (zh) * | 2023-06-05 | 2023-10-27 | 简单汇信息科技(广州)有限公司 | 一种基于ocr的智能查验方法、系统及设备 |
-
2022
- 2022-07-21 CN CN202210860778.4A patent/CN115205883A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116959018A (zh) * | 2023-06-05 | 2023-10-27 | 简单汇信息科技(广州)有限公司 | 一种基于ocr的智能查验方法、系统及设备 |
CN116959018B (zh) * | 2023-06-05 | 2024-02-23 | 简单汇信息科技(广州)有限公司 | 一种基于ocr的智能查验方法、系统及设备 |
CN116756396A (zh) * | 2023-06-29 | 2023-09-15 | 广东齐峰信息科技有限公司 | 基于知识图谱的数字档案管理系统及方法 |
CN116756396B (zh) * | 2023-06-29 | 2023-12-22 | 广东齐峰信息科技有限公司 | 基于知识图谱的数字档案管理系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109993150B (zh) | 用于识别年龄的方法和装置 | |
CN110704661B (zh) | 一种图像分类方法和装置 | |
CN112101329B (zh) | 一种基于视频的文本识别方法、模型训练的方法及装置 | |
CN112100431B (zh) | Ocr系统的评估方法、装置、设备及可读存储介质 | |
CN111738041A (zh) | 一种视频分割方法、装置、设备及介质 | |
CN107885430A (zh) | 一种音频播放方法、装置、存储介质及电子设备 | |
CA3052846A1 (en) | Character recognition method, device, electronic device and storage medium | |
CN113887534B (zh) | 一种对象检测模型的确定方法和相关装置 | |
CN113011412B (zh) | 基于笔顺及ocr文字识别方法、装置、设备及存储介质 | |
CN112995757B (zh) | 视频剪裁方法及装置 | |
CN115205883A (zh) | 基于ocr和nlp的资料审核方法、装置、设备、存储介质 | |
CN114722937B (zh) | 一种异常数据检测方法、装置、电子设备和存储介质 | |
CN109977936A (zh) | 纸质调查问卷统计方法、装置、介质和计算机设备 | |
CN113822427A (zh) | 一种模型训练的方法、图像匹配的方法、装置及存储介质 | |
CN114862602A (zh) | 基于筋线识别的车辆定损方法、装置、电子设备、介质 | |
CN107992872B (zh) | 一种对图片进行文本识别的方法及移动终端 | |
CN117292384B (zh) | 文字识别方法、相关装置及存储介质 | |
CN112287738B (zh) | 图形控件的文本匹配方法及装置、介质、电子设备 | |
CN113822273A (zh) | 一种字幕检测方法和相关装置 | |
CN114817742B (zh) | 基于知识蒸馏的推荐模型配置方法、装置、设备、介质 | |
CN115563255A (zh) | 对话文本的处理方法、装置、电子设备及存储介质 | |
US11210335B2 (en) | System and method for judging situation of object | |
CN116089651A (zh) | 一种特征提取模型的训练方法、装置、设备以及存储介质 | |
CN115294583A (zh) | 基于ocr和nlp的软件内容分析方法、装置、存储介质 | |
CN114663894B (zh) | 基于目标检测的票据识别方法、装置、电子设备、介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |