CN111860480A - 一种基于多识别参量的网上银行服务方法 - Google Patents
一种基于多识别参量的网上银行服务方法 Download PDFInfo
- Publication number
- CN111860480A CN111860480A CN202010615387.7A CN202010615387A CN111860480A CN 111860480 A CN111860480 A CN 111860480A CN 202010615387 A CN202010615387 A CN 202010615387A CN 111860480 A CN111860480 A CN 111860480A
- Authority
- CN
- China
- Prior art keywords
- certificate
- text
- module
- language
- text information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
- G06V30/1475—Inclination or skew detection or correction of characters or of image to be recognised
- G06V30/1478—Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Multimedia (AREA)
- Development Economics (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Character Input (AREA)
Abstract
本发明涉及一种基于多识别参量的网上银行服务方法,包括:对待识别证件进行预扫描;根据预扫描图像选取对应的扫描分辨率;对图像文件中的文字信息进行识别并生成文本信息;判定文本信息中文本所属语种;判定文本信息所属证件的种类;输出模块将文本信息和判定结果。本发明先使用文本分析模块对待识别证件的文本信息进行识别和比对,判定文本信息所属语种,再通过证件分析模块对文本信息中的特征进行提取,从而完成对待识别证件的判定,最后通过信息输出模块将文本信息和判定过程交由人工审核,能够有效提高对不同种类证件进行分类解析的速率,从而使所述方法能够对不同类型的证件进行高效识别和判定。
Description
技术领域
本发明涉证件识别技术领域,尤其涉及一种基于多识别参量的网上银行服务方法。
背景技术
在银行办理贷款时,需要提供多种个人证件材料,资料种类繁多,因此银行在办理贷款时需要对很多证件中的图片和文字进行审核。采用人工手段录入证件信息成本很大,无法突破传统的人工作业。
现有的证件种类繁多,故目前使用的识别或核验装置也很多,而现有技术中的相关技术方案均是采用一种证件或一类证件应用一个专用的识别核验机。这样,在实际使用时有些场合需要多个窗口对外同时进行相同或不同的证件核验,这就需要每个窗口放置多个相关的识别核验机,这不仅使材料、资源浪费,购置的费用增大,而且占用了各种场所办公位置,工作时操作十分不便。
现有技术中的证件识别装置均只能够针对单一种类的证件进行识别和解析,无法针对不同类型的证件进行快速和高精度的解析。
发明内容
为此,本发明提供一种基于多识别参量的网上银行服务方法,用以克服现有技术无法使用单个系统对多种不同类型的证件进行高效解析的问题。
为实现上述目的,本发明提供一种基于多识别参量的网上银行服务方法,包括:
步骤1:使用图像收集器对待识别证件进行预扫描,生成预扫描图像;
步骤2:将预扫描图像输送至分辨率调节模块,分辨率调节模块识别预扫描图像中的文字并判定预扫描图像中最小文字的文字尺寸D,判定完成后分辨率调节模块从存储模块中调取预设文字尺寸矩阵D0,将D与D0中的各项参数进行比对,并根据比对结果控制图像收集器选取对应的分辨率对待识别证件进行扫描;
步骤3:将扫描完成的图像文件输送至OCR识别模块,OCR识别模块对图像文件中的文字信息进行识别,并在识别完成后生成与图片信息中相同布局的文本信息;
步骤4:将所述文本信息输送至文本分析模块,文本模块从存储模块中调取预设语种文本矩阵组L0,调取完成后文本识别模块将文本信息中的文字与L0矩阵组中的各项语种矩阵内文本进行比对,并根据比对结果判定所述OCR识别模块输出的文本信息中文本所属语种;
步骤5:分析完成后,文本分析模块将判定结果和文本信息一同输送至证件分析模块,证件分析模块从存储模块中调取预设判定特征矩阵组R0,调取完成后,证件分析模块根据R0矩阵组内对应语种中指定的特征点对文本信息进行排查,并根据排查完成时特征点的种类以及数量完成对文本信息所属证件种类的判定;
步骤6:当证件分析模块完成对文本信息所属证件的判定时,会将文本信息和判定结果一同输送至信息输出模块,信息输出模块将文本信息和判定结果输出系统以使工作人员对文本信息和判定结果进行人工审核。
进一步地,所述存储模块中设有预设文字尺寸矩阵D0,所述分辨率调节模块中设有预设分辨率矩阵I0;对于预设文字尺寸矩阵D0,D0(D1,D2,D3,D4,D5),其中,D1为第一预设文字尺寸,D2为第二预设文字尺寸,D3为第三预设文字尺寸,D4为第四预设文字尺寸,D5为第五预设文字尺寸,各预设文字尺寸的尺寸值按照顺序逐渐减小;对于预设分辨率矩阵I0,I0(I1,I2,I3,I4,I5),其中,I1为第一预设分辨率,I2为第二预设分辨率,I3为第三预设分辨率,I4为第四预设分辨率,I5为第五预设分辨率,各预设分辨率的数值按照顺序逐渐增加;
当所述系统对待识别证件进行识别时,所述图像收集器使用I1分辨率对待识别证件进行预扫描,并将预扫描完成的预扫描图像输送至所述分辨率调节模块,分辨率调节模块会识别预扫描图像,并从中提取出文字信息,提取完成后,分辨率调节模块依次测量各文字的尺寸并从中选取最小的文字尺寸D,将D与D0矩阵中的各项数值进行比对:
当D>D1时,分辨率调节模块将图像识别模块的扫描分辨率调节为I1;
当D1≥D>D2时,分辨率调节模块将图像识别模块的扫描分辨率调节为I2;
当D2≥D>D3时,分辨率调节模块将图像识别模块的扫描分辨率调节为I3;
当D3≥D>D4时,分辨率调节模块将图像识别模块的扫描分辨率调节为I4;
当D4≥D>D5时,分辨率调节模块将图像识别模块的扫描分辨率调节为I5;
当分辨率调节模块完成对图像识别模块的扫描分辨率的调节时,图像识别模块对待识别证件进行扫描,并在扫描完成时将扫描的图像文件输送至所述OCR识别模块。
进一步地,所述存储模块中还设有预设语种文本矩阵组L0,L0(L1,L2,L3,L4),其中,L1为第一预设语种文本矩阵,L2为第二预设语种文本矩阵,L3为第三预设语种文本矩阵,L4为第四预设语种文本矩阵;当所述文本识别模块对所述OCR识别模块输送的文本信息进行识别时,会提取文本信息中的文字,并将文字依次与各预设语种文本矩阵中的预设文字进行比对:
当文本信息中的文字与L1矩阵中的文字相似度大于等于80%,则所述文本识别模块将文本信息中文字的语种判定为第一语种;
当文本信息中的文字与L2矩阵中的文字相似度大于等于80%,则所述文本识别模块将文本信息中文字的语种判定为第二语种;
当文本信息中的文字与L3矩阵中的文字相似度大于等于80%,则所述文本识别模块将文本信息中文字的语种判定为第三语种;
当文本信息中的文字与L4矩阵中的文字相似度大于等于80%,则所述文本识别模块将文本信息中文字的语种判定为第四语种;
当文本信息中的文字与多个预设语种文本矩阵中的文字相似度均大于等于80%,则所述文本识别模块将与文本信息中文字相似度最高的预设语种文本矩阵所属语种判定为该文本信息文字所属语种;
判定完成后,文本识别模块将文本信息和判定结果一同输送至所述文本分析模块。
进一步地,所述存储模块中还设有预设判定特征矩阵组R0,R0(R1,R2,R3,R4),其中,R1为第一语种判定特征矩阵组,R2为第二语种判定特征矩阵组,R3为第三语种判定特征矩阵组,R4为第四语种判定特征矩阵组;
当所述文本识别模块完成对文本信息语种的判定时,证件分析模块会根据文本识别模块的判定结果从所述存储模块中预存的R0矩阵组中选取对应的语种判定特征矩阵Ri对文本信息所属证件的种类进行判断,i=1,2,3,4。
进一步地,对于第i语种判定特征矩阵组Ri,Ri(Ri1,Ri2,Ri3,Ri4),其中,Ri1为第i语种第一类证件判定特征矩阵,Ri2为第i语种第二类证件判定特征矩阵,Ri3为第i语种第三类证件判定特征矩阵,Ri4为第i语种第四类证件判定特征矩阵;对于第i语种第j类证件判定特征矩阵Rij,Rij(Rij1,Rij2,Rij3...Rijn)其中,Rij1为第i语种第j类证件第一判定特征,Rij2为第i语种第j类证件第二判定特征,Rij3为第i语种第j类证件第三判定特征,Rijn为第i语种第j类证件第n判定特征;
当所述证件分析模块对文本信息进行分析时,会对文本信息进行全文排查,在排查过程中,证件分析模块会建立特征统计矩阵N(N1,N2,N3,N4),其中N1为排查过程中第i语种第一类证件判定特征出现的次数,N2为排查过程中第i语种第二类证件判定特征出现的次数,N3为排查过程中第i语种第三类证件判定特征出现的次数,N4为排查过程中第i语种第四类证件判定特征出现的次数;在排查前,N1=N2=N3=N4=0;在排查过程中出现第一类证件判定特征时,则N1=0+1=1;在排查过程中出现第二类证件判定特征时,则N2=0+1=1;在排查过程中出现第三类证件判定特征时,则N3=0+1=1;在排查过程中出现第四类证件判定特征时,则N4=0+1=1;当排查结束时,证件分析模块依次统计N1,N2,N3,N4的数值:
当N1的数值最大时,证件分析模块判定文本信息所属证件属于第一类证件;
当N2的数值最大时,证件分析模块判定文本信息所属证件属于第二类证件;
当N3的数值最大时,证件分析模块判定文本信息所属证件属于第三类证件;
当N4的数值最大时,证件分析模块判定文本信息所属证件属于第四类证件;
判定完成后,证件分析模块将排查过程时检索到的特征标记在文本信息上并将判定结果和带有标记的文本信息输送至所述信息输出模块。
进一步地,各所述第i语种第j类证件第n判定特征Rijn包括单个文字特征、单个词语特征、单个句子特征和单个数字特征。
进一步地,所述步骤3中所述OCR识别模块在识别所述图像文件中的文字时,包括以下步骤:
步骤3-1:OCR识别模块对接收到的图像文件进行预处理,提取图像文件中的文字信息;
步骤3-2:OCR识别模块根据初始图像文件中文字的位置对提取的文字信息进行分段和分行;
步骤3-3:OCR识别模块对字符进行切割以降低文字信息中字符粘连、断笔对文字信息识别精度造成的影响;
步骤3-4:OCR识别模块对提取出的文字信息进行识别;
步骤3-5:识别完成后,OCR识别模块依据原始的图像文件对识别完成的文字进行排版,排版完成后生成与初始图像文件相同布局的文本信息。
进一步地,所述OCR识别模块对接收到的图像文件进行预处理时,先通过使用二值化区分前景信息与背景信息,对前景信息进行噪声去除,再根据图像文件的倾斜角度对图像信息进行倾斜校正以完成对五项文件的预处理。
进一步地,所述图像收集器收集待识别证件的方式包括扫描和摄像。
与现有技术相比,本发明的有益效果在于,本发明先使用文本分析模块对待识别证件的文本信息进行识别和比对,判定文本信息所属语种,再通过证件分析模块对文本信息中的特征进行提取,从而完成对待识别证件的判定,最后通过信息输出模块将文本信息和判定过程交由人工审核,能够有效提高对不同种类证件进行分类解析的速率,从而使所述系统能够对不同类型的证件进行高效识别和判定。
进一步地,所述系统中还设有OCR识别模块,通过私用OCR识别模块,能够快速而精确地识别出图像文件中的文字,为后续的语种识别和证件种类判定提供了高精度的文字轨迹/形状信息,从而进一步提高了所述系统对不同证件的解析效率。
进一步地,所述系统中还设有存储模块,通过设置存储模块,可以在系统中预先存储解析证件所需的识别标准和判定标准,在系统对待识别证件进行扫描分辨率调节、语种分析以及证件种类判定时,各指定模块均能够从存储模块中提取出对应的识别标准或判定标准以对证件进行快速而准确的解析,从而进一步提高了所述系统对不同种类证件的解析效率。
进一步地,所述系统中还设有分辨率调节模块,在调节模块中设有预设分辨率矩阵I0(I1,I2,I3,I4,I5),在系统对待识别证件进行解析时,所述图像收集器会对图像进行预扫描并在扫描完成时将预扫描图像输送至分辨率调节模块,分辨率调节模块会测量预扫描图像中最小文字的尺寸D并从所述存储模块中调取预设文字尺寸矩阵D0(D1,D2,D3,D4,D5),将D与D0矩阵中的各项数值依次进行对比,根据对比结果从I0矩阵中选取对应的分辨率并控制图像收集器使用指定分辨率对待识别证件进行扫描。通过使用预扫描,根据预扫描图像中最小文字的尺寸确定系统在分析时使用的扫描分辨率,能够有效保证图像文件的清晰度,并提高后续模块在提取、识别和判定时的精度,从而进一步提高了所述系统对证件的解析效率。
进一步地,所述存储模块中还设有预设语种文本矩阵组L0(L1,L2,L3,L4),当所述文本识别模块对文本信息所属语种进行识别时,会提取文本信息中的文字并将文字依次与L0矩阵组中各矩阵内的预设文字进行比对,根据比对结果判定文本信息中文字的语种,通过预设多个语种文字的判定标准,能够使系统对多语种的证件进行解析,从而提高了所述系统的解析范围。
进一步地,所述存储模块中还设有预设判定特征矩阵组R0(R1,R2,R3,R4),证件分析模块会根据文本识别模块的判定结果从存储模块中预存的R0矩阵组中选取对应的判定特征矩阵对文本信息所属证件的种类进行判断,通过使用指定语种的判定特征矩阵对对应语种的文本信息所属证件的种类进行判定,能够进一步提高对证件种类判定的准确率,从而进一步提高了所述系统对证件的解析效率。
进一步地,对于对于第i语种判定特征矩阵组Ri,Ri(Ri1,Ri2,Ri3,Ri4),对于第i语种第j类证件判定特征矩阵Rij,Rij(Rij1,Rij2,Rij3...Rijn);在排查过程中,证件分析模块会建立特征统计矩阵N(N1,N2,N3,N4),根据文本信息中出现的特征所属种类对矩阵中对应的数值进行更新,在排查完成时,根据统计结果完成对待识别证件种类的判定,通过使用多个预设的特征字/词/句子对待识别证件的种类进行分类,能够更加快速和准确的完成对待识别证件的解析,进一步提高了所述系统对证件的解析效率。
进一步地,所述OCR识别模块能够对图像进行倾斜修正,因此,对于所述图像收集器的具体设备的选用上能够更加多样化,从而提高了所述系统的适用范围。
附图说明
图1为本发明所述基于多识别参量的网上银行服务方法的流程图。
具体实施方式
为了使本发明的目的和优点更加清楚明白,下面结合实施例对本发明作进一步描述;应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非在限制本发明的保护范围。
需要说明的是,在本发明的描述中,术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系,这仅仅是为了便于描述,而不是指示或暗示所述装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,还需要说明的是,在本发明的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域技术人员而言,可根据具体情况理解上述术语在本发明中的具体含义。
请参阅图1所示,其为本发明所述基于多识别参量的网上银行服务方法的流程图。本发明所述基于多识别参量的网上银行服务方法包括:
步骤1:使用图像收集器对待识别证件进行预扫描,生成预扫描图像;
步骤2:将预扫描图像输送至分辨率调节模块,分辨率调节模块识别预扫描图像中的文字并判定预扫描图像中最小文字的文字尺寸D,判定完成后分辨率调节模块从存储模块中调取预设文字尺寸矩阵D0,将D与D0中的各项参数进行比对,并根据比对结果控制图像收集器选取对应的分辨率对待识别证件进行扫描;
步骤3:将扫描完成的图像文件输送至OCR识别模块,OCR识别模块对图像文件中的文字信息进行识别,并在识别完成后生成与图片信息中相同布局的文本信息;
步骤4:将所述文本信息输送至文本分析模块,文本模块从存储模块中调取预设语种文本矩阵组L0,调取完成后文本识别模块将文本信息中的文字与L0矩阵组中的各项语种矩阵内文本进行比对,并根据比对结果判定所述OCR识别模块输出的文本信息中文本所属语种;
步骤5:分析完成后,文本分析模块将判定结果和文本信息一同输送至证件分析模块,证件分析模块从存储模块中调取预设判定特征矩阵组R0,调取完成后,证件分析模块根据R0矩阵组内对应语种中指定的特征点对文本信息进行排查,并根据排查完成时特征点的种类以及数量完成对文本信息所属证件种类的判定;
步骤6:当证件分析模块完成对文本信息所属证件的判定时,会将文本信息和判定结果一同输送至信息输出模块,信息输出模块将文本信息和判定结果输出系统以使工作人员对文本信息和判定结果进行人工审核。
具体而言,所述存储模块中设有预设文字尺寸矩阵D0,所述分辨率调节模块中设有预设分辨率矩阵I0;对于预设文字尺寸矩阵D0,D0(D1,D2,D3,D4,D5),其中,D1为第一预设文字尺寸,D2为第二预设文字尺寸,D3为第三预设文字尺寸,D4为第四预设文字尺寸,D5为第五预设文字尺寸,各预设文字尺寸的尺寸值按照顺序逐渐减小;对于预设分辨率矩阵I0,I0(I1,I2,I3,I4,I5),其中,I1为第一预设分辨率,I2为第二预设分辨率,I3为第三预设分辨率,I4为第四预设分辨率,I5为第五预设分辨率,各预设分辨率的数值按照顺序逐渐增加;
当所述系统对待识别证件进行识别时,所述图像收集器使用I1分辨率对待识别证件进行预扫描,并将预扫描完成的预扫描图像输送至所述分辨率调节模块,分辨率调节模块会识别预扫描图像,并从中提取出文字信息,提取完成后,分辨率调节模块依次测量各文字的尺寸并从中选取最小的文字尺寸D,将D与D0矩阵中的各项数值进行比对:
当D>D1时,分辨率调节模块将图像识别模块的扫描分辨率调节为I1;
当D1≥D>D2时,分辨率调节模块将图像识别模块的扫描分辨率调节为I2;
当D2≥D>D3时,分辨率调节模块将图像识别模块的扫描分辨率调节为I3;
当D3≥D>D4时,分辨率调节模块将图像识别模块的扫描分辨率调节为I4;
当D4≥D>D5时,分辨率调节模块将图像识别模块的扫描分辨率调节为I5;
当分辨率调节模块完成对图像识别模块的扫描分辨率的调节时,图像识别模块对待识别证件进行扫描,并在扫描完成时将扫描的图像文件输送至所述OCR识别模块。
具体而言,所述存储模块中还设有预设语种文本矩阵组L0,L0(L1,L2,L3,L4),其中,L1为第一预设语种文本矩阵,L2为第二预设语种文本矩阵,L3为第三预设语种文本矩阵,L4为第四预设语种文本矩阵;当所述文本识别模块对所述OCR识别模块输送的文本信息进行识别时,会提取文本信息中的文字,并将文字依次与各预设语种文本矩阵中的预设文字进行比对:
当文本信息中的文字与L1矩阵中的文字相似度大于等于80%,则所述文本识别模块将文本信息中文字的语种判定为第一语种;
当文本信息中的文字与L2矩阵中的文字相似度大于等于80%,则所述文本识别模块将文本信息中文字的语种判定为第二语种;
当文本信息中的文字与L3矩阵中的文字相似度大于等于80%,则所述文本识别模块将文本信息中文字的语种判定为第三语种;
当文本信息中的文字与L4矩阵中的文字相似度大于等于80%,则所述文本识别模块将文本信息中文字的语种判定为第四语种;
当文本信息中的文字与多个预设语种文本矩阵中的文字相似度均大于等于80%,则所述文本识别模块将与文本信息中文字相似度最高的预设语种文本矩阵所属语种判定为该文本信息文字所属语种;
判定完成后,文本识别模块将文本信息和判定结果一同输送至所述文本分析模块。
具体而言,所述存储模块中还设有预设判定特征矩阵组R0,R0(R1,R2,R3,R4),其中,R1为第一语种判定特征矩阵组,R2为第二语种判定特征矩阵组,R3为第三语种判定特征矩阵组,R4为第四语种判定特征矩阵组;
当所述文本识别模块完成对文本信息语种的判定时,证件分析模块会根据文本识别模块的判定结果从所述存储模块中预存的R0矩阵组中选取对应的语种判定特征矩阵Ri对文本信息所属证件的种类进行判断,i=1,2,3,4。
具体而言,对于第i语种判定特征矩阵组Ri,Ri(Ri1,Ri2,Ri3,Ri4),其中,Ri1为第i语种第一类证件判定特征矩阵,Ri2为第i语种第二类证件判定特征矩阵,Ri3为第i语种第三类证件判定特征矩阵,Ri4为第i语种第四类证件判定特征矩阵;对于第i语种第j类证件判定特征矩阵Rij,Rij(Rij1,Rij2,Rij3...Rijn)其中,Rij1为第i语种第j类证件第一判定特征,Rij2为第i语种第j类证件第二判定特征,Rij3为第i语种第j类证件第三判定特征,Rijn为第i语种第j类证件第n判定特征;
当所述证件分析模块对文本信息进行分析时,会对文本信息进行全文排查,在排查过程中,证件分析模块会建立特征统计矩阵N(N1,N2,N3,N4),其中N1为排查过程中第i语种第一类证件判定特征出现的次数,N2为排查过程中第i语种第二类证件判定特征出现的次数,N3为排查过程中第i语种第三类证件判定特征出现的次数,N4为排查过程中第i语种第四类证件判定特征出现的次数;在排查前,N1=N2=N3=N4=0;在排查过程中出现第一类证件判定特征时,则N1=0+1=1;在排查过程中出现第二类证件判定特征时,则N2=0+1=1;在排查过程中出现第三类证件判定特征时,则N3=0+1=1;在排查过程中出现第四类证件判定特征时,则N4=0+1=1;当排查结束时,证件分析模块依次统计N1,N2,N3,N4的数值:
当N1的数值最大时,证件分析模块判定文本信息所属证件属于第一类证件;
当N2的数值最大时,证件分析模块判定文本信息所属证件属于第二类证件;
当N3的数值最大时,证件分析模块判定文本信息所属证件属于第三类证件;
当N4的数值最大时,证件分析模块判定文本信息所属证件属于第四类证件;
判定完成后,证件分析模块将排查过程时检索到的特征标记在文本信息上并将判定结果和带有标记的文本信息输送至所述信息输出模块。
具体而言,各所述第i语种第j类证件第n判定特征Rijn包括单个文字特征、单个词语特征、单个句子特征和单个数字特征。
具体而言,所述步骤3中所述OCR识别模块在识别所述图像文件中的文字时,包括以下步骤:
步骤3-1:OCR识别模块对接收到的图像文件进行预处理,提取图像文件中的文字信息;
步骤3-2:OCR识别模块根据初始图像文件中文字的位置对提取的文字信息进行分段和分行;
步骤3-3:OCR识别模块对字符进行切割以降低文字信息中字符粘连、断笔对文字信息识别精度造成的影响;
步骤3-4:OCR识别模块对提取出的文字信息进行识别;
步骤3-5:识别完成后,OCR识别模块依据原始的图像文件对识别完成的文字进行排版,排版完成后生成与初始图像文件相同布局的文本信息。
具体而言,所述OCR识别模块对接收到的图像文件进行预处理时,先通过使用二值化区分前景信息与背景信息,对前景信息进行噪声去除,再根据图像文件的倾斜角度对图像信息进行倾斜校正以完成对五项文件的预处理。
具体而言,所述图像收集器收集待识别证件的方式包括扫描和摄像。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
以上所述仅为本发明的优选实施例,并不用于限制本发明;对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种基于多识别参量的网上银行服务方法,其特征在于,包括:
步骤1:使用图像收集器对待识别证件进行预扫描,生成预扫描图像;
步骤2:将预扫描图像输送至分辨率调节模块,分辨率调节模块识别预扫描图像中的文字并判定预扫描图像中最小文字的文字尺寸D,判定完成后分辨率调节模块从存储模块中调取预设文字尺寸矩阵D0,将D与D0中的各项参数进行比对,并根据比对结果控制图像收集器选取对应的分辨率对待识别证件进行扫描;
步骤3:将扫描完成的图像文件输送至OCR识别模块,OCR识别模块对图像文件中的文字信息进行识别,并在识别完成后生成与图片信息中相同布局的文本信息;
步骤4:将所述文本信息输送至文本分析模块,文本模块从存储模块中调取预设语种文本矩阵组L0,调取完成后文本识别模块将文本信息中的文字与L0矩阵组中的各项语种矩阵内文本进行比对,并根据比对结果判定所述OCR识别模块输出的文本信息中文本所属语种;
步骤5:分析完成后,文本分析模块将判定结果和文本信息一同输送至证件分析模块,证件分析模块从存储模块中调取预设判定特征矩阵组R0,调取完成后,证件分析模块根据R0矩阵组内对应语种中指定的特征点对文本信息进行排查,并根据排查完成时特征点的种类以及数量完成对文本信息所属证件种类的判定;
步骤6:当证件分析模块完成对文本信息所属证件的判定时,会将文本信息和判定结果一同输送至信息输出模块,信息输出模块将文本信息和判定结果输出系统以使工作人员对文本信息和判定结果进行人工审核。
2.根据权利要求1所述的基于多识别参量的网上银行服务方法,其特征在于,所述存储模块中设有预设文字尺寸矩阵D0,所述分辨率调节模块中设有预设分辨率矩阵I0;对于预设文字尺寸矩阵D0,D0(D1,D2,D3,D4,D5),其中,D1为第一预设文字尺寸,D2为第二预设文字尺寸,D3为第三预设文字尺寸,D4为第四预设文字尺寸,D5为第五预设文字尺寸,各预设文字尺寸的尺寸值按照顺序逐渐减小;对于预设分辨率矩阵I0,I0(I1,I2,I3,I4,I5),其中,I1为第一预设分辨率,I2为第二预设分辨率,I3为第三预设分辨率,I4为第四预设分辨率,I5为第五预设分辨率,各预设分辨率的数值按照顺序逐渐增加;
当所述系统对待识别证件进行识别时,所述图像收集器使用I1分辨率对待识别证件进行预扫描,并将预扫描完成的预扫描图像输送至所述分辨率调节模块,分辨率调节模块会识别预扫描图像,并从中提取出文字信息,提取完成后,分辨率调节模块依次测量各文字的尺寸并从中选取最小的文字尺寸D,将D与D0矩阵中的各项数值进行比对:
当D>D1时,分辨率调节模块将图像识别模块的扫描分辨率调节为I1;
当D1≥D>D2时,分辨率调节模块将图像识别模块的扫描分辨率调节为I2;
当D2≥D>D3时,分辨率调节模块将图像识别模块的扫描分辨率调节为I3;
当D3≥D>D4时,分辨率调节模块将图像识别模块的扫描分辨率调节为I4;
当D4≥D>D5时,分辨率调节模块将图像识别模块的扫描分辨率调节为I5;
当分辨率调节模块完成对图像识别模块的扫描分辨率的调节时,图像识别模块对待识别证件进行扫描,并在扫描完成时将扫描的图像文件输送至所述OCR识别模块。
3.根据权利要求2所述的基于多识别参量的网上银行服务方法,其特征在于,所述存储模块中还设有预设语种文本矩阵组L0,L0(L1,L2,L3,L4),其中,L1为第一预设语种文本矩阵,L2为第二预设语种文本矩阵,L3为第三预设语种文本矩阵,L4为第四预设语种文本矩阵;当所述文本识别模块对所述OCR识别模块输送的文本信息进行识别时,会提取文本信息中的文字,并将文字依次与各预设语种文本矩阵中的预设文字进行比对:
当文本信息中的文字与L1矩阵中的文字相似度大于等于80%,则所述文本识别模块将文本信息中文字的语种判定为第一语种;
当文本信息中的文字与L2矩阵中的文字相似度大于等于80%,则所述文本识别模块将文本信息中文字的语种判定为第二语种;
当文本信息中的文字与L3矩阵中的文字相似度大于等于80%,则所述文本识别模块将文本信息中文字的语种判定为第三语种;
当文本信息中的文字与L4矩阵中的文字相似度大于等于80%,则所述文本识别模块将文本信息中文字的语种判定为第四语种;
当文本信息中的文字与多个预设语种文本矩阵中的文字相似度均大于等于80%,则所述文本识别模块将与文本信息中文字相似度最高的预设语种文本矩阵所属语种判定为该文本信息文字所属语种;
判定完成后,文本识别模块将文本信息和判定结果一同输送至所述文本分析模块。
4.根据权利要求3所述的基于多识别参量的网上银行服务方法,其特征在于,所述存储模块中还设有预设判定特征矩阵组R0,R0(R1,R2,R3,R4),其中,R1为第一语种判定特征矩阵组,R2为第二语种判定特征矩阵组,R3为第三语种判定特征矩阵组,R4为第四语种判定特征矩阵组;
当所述文本识别模块完成对文本信息语种的判定时,证件分析模块会根据文本识别模块的判定结果从所述存储模块中预存的R0矩阵组中选取对应的语种判定特征矩阵Ri对文本信息所属证件的种类进行判断,i=1,2,3,4。
5.根据权利要求4所述的基于多识别参量的网上银行服务方法,其特征在于,对于第i语种判定特征矩阵组Ri,Ri(Ri1,Ri2,Ri3,Ri4),其中,Ri1为第i语种第一类证件判定特征矩阵,Ri2为第i语种第二类证件判定特征矩阵,Ri3为第i语种第三类证件判定特征矩阵,Ri4为第i语种第四类证件判定特征矩阵;对于第i语种第j类证件判定特征矩阵Rij,Rij(Rij1,Rij2,Rij3...Rijn)其中,Rij1为第i语种第j类证件第一判定特征,Rij2为第i语种第j类证件第二判定特征,Rij3为第i语种第j类证件第三判定特征,Rijn为第i语种第j类证件第n判定特征;
当所述证件分析模块对文本信息进行分析时,会对文本信息进行全文排查,在排查过程中,证件分析模块会建立特征统计矩阵N(N1,N2,N3,N4),其中N1为排查过程中第i语种第一类证件判定特征出现的次数,N2为排查过程中第i语种第二类证件判定特征出现的次数,N3为排查过程中第i语种第三类证件判定特征出现的次数,N4为排查过程中第i语种第四类证件判定特征出现的次数;在排查前,N1=N2=N3=N4=0;在排查过程中出现第一类证件判定特征时,则N1=0+1=1;在排查过程中出现第二类证件判定特征时,则N2=0+1=1;在排查过程中出现第三类证件判定特征时,则N3=0+1=1;在排查过程中出现第四类证件判定特征时,则N4=0+1=1;当排查结束时,证件分析模块依次统计N1,N2,N3,N4的数值:
当N1的数值最大时,证件分析模块判定文本信息所属证件属于第一类证件;
当N2的数值最大时,证件分析模块判定文本信息所属证件属于第二类证件;
当N3的数值最大时,证件分析模块判定文本信息所属证件属于第三类证件;
当N4的数值最大时,证件分析模块判定文本信息所属证件属于第四类证件;
判定完成后,证件分析模块将排查过程时检索到的特征标记在文本信息上并将判定结果和带有标记的文本信息输送至所述信息输出模块。
6.根据权利要求5所述的基于多识别参量的网上银行服务方法,其特征在于,各所述第i语种第j类证件第n判定特征Rijn包括单个文字特征、单个词语特征、单个句子特征和单个数字特征。
7.根据权利要求1所述的基于多识别参量的网上银行服务方法,其特征在于,所述步骤3中所述OCR识别模块在识别所述图像文件中的文字时,包括以下步骤:
步骤3-1:OCR识别模块对接收到的图像文件进行预处理,提取图像文件中的文字信息;
步骤3-2:OCR识别模块根据初始图像文件中文字的位置对提取的文字信息进行分段和分行;
步骤3-3:OCR识别模块对字符进行切割以降低文字信息中字符粘连、断笔对文字信息识别精度造成的影响;
步骤3-4:OCR识别模块对提取出的文字信息进行识别;
步骤3-5:识别完成后,OCR识别模块依据原始的图像文件对识别完成的文字进行排版,排版完成后生成与初始图像文件相同布局的文本信息。
8.根据权利要求7所述的基于多识别参量的网上银行服务方法,其特征在于,所述OCR识别模块对接收到的图像文件进行预处理时,先通过使用二值化区分前景信息与背景信息,对前景信息进行噪声去除,再根据图像文件的倾斜角度对图像信息进行倾斜校正以完成对五项文件的预处理。
9.根据权利要求1所述的基于多识别参量的网上银行服务方法,其特征在于,所述图像收集器收集待识别证件的方式包括扫描和摄像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010615387.7A CN111860480B (zh) | 2020-06-30 | 2020-06-30 | 一种基于多识别参量的网上银行服务方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010615387.7A CN111860480B (zh) | 2020-06-30 | 2020-06-30 | 一种基于多识别参量的网上银行服务方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111860480A true CN111860480A (zh) | 2020-10-30 |
CN111860480B CN111860480B (zh) | 2021-11-09 |
Family
ID=72989179
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010615387.7A Active CN111860480B (zh) | 2020-06-30 | 2020-06-30 | 一种基于多识别参量的网上银行服务方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111860480B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170064141A1 (en) * | 2015-08-24 | 2017-03-02 | Konica Minolta, Inc. | Image processing apparatus, electronic file generating method, and recording medium |
CN108229299A (zh) * | 2017-10-31 | 2018-06-29 | 北京市商汤科技开发有限公司 | 证件的识别方法和装置、电子设备、计算机存储介质 |
CN108628563A (zh) * | 2017-03-24 | 2018-10-09 | 卡西欧计算机株式会社 | 显示装置、显示方法以及存储介质 |
CN109492643A (zh) * | 2018-10-11 | 2019-03-19 | 平安科技(深圳)有限公司 | 基于ocr的证件识别方法、装置、计算机设备及存储介质 |
CN110728272A (zh) * | 2019-09-02 | 2020-01-24 | 平安普惠企业管理有限公司 | 基于ocr录入证件信息的方法及相关装置 |
-
2020
- 2020-06-30 CN CN202010615387.7A patent/CN111860480B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170064141A1 (en) * | 2015-08-24 | 2017-03-02 | Konica Minolta, Inc. | Image processing apparatus, electronic file generating method, and recording medium |
CN108628563A (zh) * | 2017-03-24 | 2018-10-09 | 卡西欧计算机株式会社 | 显示装置、显示方法以及存储介质 |
CN108229299A (zh) * | 2017-10-31 | 2018-06-29 | 北京市商汤科技开发有限公司 | 证件的识别方法和装置、电子设备、计算机存储介质 |
CN109492643A (zh) * | 2018-10-11 | 2019-03-19 | 平安科技(深圳)有限公司 | 基于ocr的证件识别方法、装置、计算机设备及存储介质 |
CN110728272A (zh) * | 2019-09-02 | 2020-01-24 | 平安普惠企业管理有限公司 | 基于ocr录入证件信息的方法及相关装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111860480B (zh) | 2021-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109657738B (zh) | 字符识别方法、装置、设备及存储介质 | |
US5764799A (en) | OCR method and apparatus using image equivalents | |
US7171061B2 (en) | Systems and methods for triage of passages of text output from an OCR system | |
WO2018166116A1 (zh) | 车损识别方法、电子装置及计算机可读存储介质 | |
CN1103087C (zh) | 光学扫描表单识别及更正方法 | |
US9152883B2 (en) | System and method for increasing the accuracy of optical character recognition (OCR) | |
US10055801B2 (en) | Systems and methods for generating structured data based on scanned documents | |
US10225431B2 (en) | System and method for importing scanned construction project documents | |
CN105760901B (zh) | 一种多语种倾斜文档图像的自动语言判别方法 | |
CN114862845B (zh) | 手机触摸屏的缺陷检测方法、装置、设备及存储介质 | |
JPH0721319A (ja) | 自動アジア言語決定装置 | |
US20150371100A1 (en) | Character recognition method and system using digit segmentation and recombination | |
CN109446345A (zh) | 核电文件校验处理方法以及系统 | |
US5970171A (en) | Apparatus and method of fusing the outputs of multiple intelligent character recognition (ICR) systems to reduce error rate | |
US7769235B2 (en) | Text recognition method using a trainable classifier | |
CN111860481B (zh) | 一种基于多识别参量的网上银行服务系统 | |
CN101320429B (zh) | 图像处理装置和图像处理方法 | |
CN116484052B (zh) | 一种基于大数据的教育资源共享系统 | |
CN112733828A (zh) | 一种进行字符识别的方法及系统 | |
CN111860480B (zh) | 一种基于多识别参量的网上银行服务方法 | |
JPH06501801A (ja) | 文書からの予め定められたデータを位置決定することおよび抽出することを含む文字認識方法および装置 | |
KR101486495B1 (ko) | 사후 광학 문자 인식 처리에서의 형상 클러스터링 기법 | |
RU2597163C2 (ru) | Сравнение документов с использованием достоверного источника | |
Salah et al. | OCR performance prediction using cross-OCR alignment | |
KR100655916B1 (ko) | 방대한 데이터의 디지털화를 위한 문서영상처리 및검증시스템 및 그 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |