CN111860481A - 一种基于多识别参量的网上银行服务系统 - Google Patents

一种基于多识别参量的网上银行服务系统 Download PDF

Info

Publication number
CN111860481A
CN111860481A CN202010617361.6A CN202010617361A CN111860481A CN 111860481 A CN111860481 A CN 111860481A CN 202010617361 A CN202010617361 A CN 202010617361A CN 111860481 A CN111860481 A CN 111860481A
Authority
CN
China
Prior art keywords
module
certificate
text
language
text information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010617361.6A
Other languages
English (en)
Other versions
CN111860481B (zh
Inventor
程玉
丁扬
杨成林
陈骁
邓日晓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Sanxiang Bank Co Ltd
Original Assignee
Hunan Sanxiang Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Sanxiang Bank Co Ltd filed Critical Hunan Sanxiang Bank Co Ltd
Priority to CN202010617361.6A priority Critical patent/CN111860481B/zh
Publication of CN111860481A publication Critical patent/CN111860481A/zh
Application granted granted Critical
Publication of CN111860481B publication Critical patent/CN111860481B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1475Inclination or skew detection or correction of characters or of image to be recognised
    • G06V30/1478Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Multimedia (AREA)
  • Development Economics (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Discrimination (AREA)

Abstract

本发明涉及一种基于多识别参量的网上银行服务系统,包括图像收集模块、分辨率调节模块、OCR识别模块、文本分析模块、证件分析模块、存储模块和信息输出模块。本发明先使用文本分析模块对待识别证件的文本信息进行识别和比对,判定文本信息所属语种,再通过证件分析模块对文本信息中的特征进行提取,从而完成对待识别证件的判定,最后通过信息输出模块将文本信息和判定过程交由人工审核,能够有效提高对不同种类证件进行分类解析的速率,从而使所述系统能够对不同类型的证件进行高效识别和判定。

Description

一种基于多识别参量的网上银行服务系统
技术领域
本发明涉证件识别技术领域,尤其涉及一种基于多识别参量的网上银行服务系统。
背景技术
在银行办理贷款时,需要提供多种个人证件材料,资料种类繁多,因此银行在办理贷款时需要对很多证件中的图片和文字进行审核。采用人工手段录入证件信息成本很大,无法突破传统的人工作业。
现有的证件种类繁多,故目前使用的识别或核验装置也很多,而现有技术中的相关技术方案均是采用一种证件或一类证件应用一个专用的识别核验机。这样,在实际使用时有些场合需要多个窗口对外同时进行相同或不同的证件核验,这就需要每个窗口放置多个相关的识别核验机,这不仅使材料、资源浪费,购置的费用增大,而且占用了各种场所办公位置,工作时操作十分不便。
现有技术中的证件识别装置均只能够针对单一种类的证件进行识别和解析,无法针对不同类型的证件进行快速和高精度的解析。
发明内容
为此,本发明提供一种基于多识别参量的网上银行服务系统,用以克服现有技术无法使用单个系统对多种不同类型的证件进行高效解析的问题。
为实现上述目的,本发明提供一种基于多识别参量的网上银行服务系统,包括:
图像收集模块,用以扫描待识别证件,并生成证件的图像信息;
分辨率调节模块,其与所述图像收集模块相连,用以调节图像收集模块在扫描证件时选用的分辨率;当图像收集模块对待识别证件进行预扫描时,图像收集模块会识别预扫描图像中的文字并根据文字尺寸控制图像收集模块选取对应的分辨率对待识别证件进行扫描;
OCR识别模块,其与所述图像收集模块相连,用以分析图像收集模块输出图像文件中的文字信息;当OCR识别模块接收到所述图像收集模块输送的图像文件时,OCR识别模块会对图像中的文字信息进行识别,并在识别完成后生成与图片信息中相同布局的文本信息;
文本分析模块,其与所述OCR识别模块相连,用以判定所述OCR识别模块输出的文本信息中文本所属语种;
证件分析模块,其分别与所述OCR识别模块和文本分析模块相连,用以根据文本信息分析模块的判定结果对OCR识别模块输送的文本信息所属证件的类别进行判定;当证件分析模块对文本信息进行判定时,证件分析模块会根据对应语种中指定的特征点对文本信息进行排查,并根据排查完成时特征点的种类以及数量完成对文本信息所属证件种类的判定;
存储模块,其分别与所述图像收集模块、文本分析模块和证件分析模块相连,用以存储预设的文本尺寸信息、指定语种的文本以及预设证件判定特征矩阵;
信息输出模块,其与所述证件分析模块相连,用以输出所述OCR识别模块识别的文本信息以及所述证件分析模块的判定结果;当证件分析模块完成对文本信息所属证件的判定时,证件分析模块会将文本信息和判定结果一同输送至信息输出模块,信息输出模块将文本信息和判定结果输出系统以使工作人员对文本信息和判定结果进行人工审核。
进一步地,所述存储模块中设有预设文字尺寸矩阵D0,所述分辨率调节模块中设有预设分辨率矩阵I0;对于预设文字尺寸矩阵D0,D0(D1,D2,D3,D4,D5),其中,D1为第一预设文字尺寸,D2为第二预设文字尺寸,D3为第三预设文字尺寸,D4为第四预设文字尺寸,D5为第五预设文字尺寸,各预设文字尺寸的尺寸值按照顺序逐渐减小;对于预设分辨率矩阵I0,I0(I1,I2,I3,I4,I5),其中,I1为第一预设分辨率,I2为第二预设分辨率,I3为第三预设分辨率,I4为第四预设分辨率,I5为第五预设分辨率,各预设分辨率的数值按照顺序逐渐增加;
当所述系统对待识别证件进行识别时,所述图像收集模块使用I1分辨率对待识别证件进行预扫描,并将预扫描完成的预扫描图像输送至所述分辨率调节模块,分辨率调节模块会识别预扫描图像,并从中提取出文字信息,提取完成后,分辨率调节模块依次测量各文字的尺寸并从中选取最小的文字尺寸D,将D与D0矩阵中的各项数值进行比对:
当D>D1时,分辨率调节模块将图像识别模块的扫描分辨率调节为I1;
当D1≥D>D2时,分辨率调节模块将图像识别模块的扫描分辨率调节为I2;
当D2≥D>D3时,分辨率调节模块将图像识别模块的扫描分辨率调节为I3;
当D3≥D>D4时,分辨率调节模块将图像识别模块的扫描分辨率调节为I4;
当D4≥D>D5时,分辨率调节模块将图像识别模块的扫描分辨率调节为I5;
当分辨率调节模块完成对图像识别模块的扫描分辨率的调节时,图像识别模块对待识别证件进行扫描,并在扫描完成时将扫描的图像文件输送至所述OCR识别模块。
进一步地,所述存储模块中还设有预设语种文本矩阵组L0,L0(L1,L2,L3,L4),其中,L1为第一预设语种文本矩阵,L2为第二预设语种文本矩阵,L3为第三预设语种文本矩阵,L4为第四预设语种文本矩阵;当所述文本识别模块对所述OCR识别模块输送的文本信息进行识别时,会提取文本信息中的文字,并将文字依次与各预设语种文本矩阵中的预设文字进行比对:
当文本信息中的文字与L1矩阵中的文字相似度大于等于80%,则所述文本识别模块将文本信息中文字的语种判定为第一语种;
当文本信息中的文字与L2矩阵中的文字相似度大于等于80%,则所述文本识别模块将文本信息中文字的语种判定为第二语种;
当文本信息中的文字与L3矩阵中的文字相似度大于等于80%,则所述文本识别模块将文本信息中文字的语种判定为第三语种;
当文本信息中的文字与L4矩阵中的文字相似度大于等于80%,则所述文本识别模块将文本信息中文字的语种判定为第四语种;
当文本信息中的文字与多个预设语种文本矩阵中的文字相似度均大于等于80%,则所述文本识别模块将与文本信息中文字相似度最高的预设语种文本矩阵所属语种判定为该文本信息文字所属语种;
判定完成后,文本识别模块将文本信息和判定结果一同输送至所述文本分析模块。
进一步地,所述存储模块中还设有预设判定特征矩阵组R0,R0(R1,R2,R3,R4),其中,R1为第一语种判定特征矩阵组,R2为第二语种判定特征矩阵组,R3为第三语种判定特征矩阵组,R4为第四语种判定特征矩阵组;
当所述文本识别模块完成对文本信息语种的判定时,证件分析模块会根据文本识别模块的判定结果从所述存储模块中预存的R0矩阵组中选取对应的语种判定特征矩阵Ri对文本信息所属证件的种类进行判断,i=1,2,3,4。
进一步地,对于第i语种判定特征矩阵组Ri,Ri(Ri1,Ri2,Ri3,Ri4),其中,Ri1为第i语种第一类证件判定特征矩阵,Ri2为第i语种第二类证件判定特征矩阵,Ri3为第i语种第三类证件判定特征矩阵,Ri4为第i语种第四类证件判定特征矩阵;对于第i语种第j类证件判定特征矩阵Rij,Rij(Rij1,Rij2,Rij3...Rijn)其中,Rij1为第i语种第j类证件第一判定特征,Rij2为第i语种第j类证件第二判定特征,Rij3为第i语种第j类证件第三判定特征,Rijn为第i语种第j类证件第n判定特征;
当所述证件分析模块对文本信息进行分析时,会对文本信息进行全文排查,在排查过程中,证件分析模块会建立特征统计矩阵N(N1,N2,N3,N4),其中N1为排查过程中第i语种第一类证件判定特征出现的次数,N2为排查过程中第i语种第二类证件判定特征出现的次数,N3为排查过程中第i语种第三类证件判定特征出现的次数,N4为排查过程中第i语种第四类证件判定特征出现的次数;在排查前,N1=N2=N3=N4=0;在排查过程中出现第一类证件判定特征时,则N1=0+1=1;在排查过程中出现第二类证件判定特征时,则N2=0+1=1;在排查过程中出现第三类证件判定特征时,则N3=0+1=1;在排查过程中出现第四类证件判定特征时,则N4=0+1=1;当排查结束时,证件分析模块依次统计N1,N2,N3,N4的数值:
当N1的数值最大时,证件分析模块判定文本信息所属证件属于第一类证件;
当N2的数值最大时,证件分析模块判定文本信息所属证件属于第二类证件;
当N3的数值最大时,证件分析模块判定文本信息所属证件属于第三类证件;
当N4的数值最大时,证件分析模块判定文本信息所属证件属于第四类证件;
判定完成后,证件分析模块将排查过程时检索到的特征标记在文本信息上并将判定结果和带有标记的文本信息输送至所述信息输出模块。
进一步地,各所述第i语种第j类证件第n判定特征Rijn包括单个文字特征、单个词语特征、单个句子特征和单个数字特征。
进一步地,所述OCR识别模块在识别所述图像文件中的文字时,包括以下步骤:
步骤1:OCR识别模块对接收到的图像文件进行预处理,提取图像文件中的文字信息;
步骤2:OCR识别模块根据初始图像文件中文字的位置对提取的文字信息进行分段和分行;
步骤3:OCR识别模块对字符进行切割以降低文字信息中字符粘连、断笔对文字信息识别精度造成的影响;
步骤4:OCR识别模块对提取出的文字信息进行识别;
步骤5:识别完成后,OCR识别模块依据原始的图像文件对识别完成的文字进行排版,排版完成后生成与初始图像文件相同布局的文本信息。
进一步地,所述OCR识别模块对接收到的图像文件进行预处理时,先通过使用二值化区分前景信息与背景信息,对前景信息进行噪声去除,再根据图像文件的倾斜角度对图像信息进行倾斜校正以完成对五项文件的预处理。
进一步地,所述图像收集模块收集待识别证件的方式包括扫描和摄像。
与现有技术相比,本发明的有益效果在于,本发明先使用文本分析模块对待识别证件的文本信息进行识别和比对,判定文本信息所属语种,再通过证件分析模块对文本信息中的特征进行提取,从而完成对待识别证件的判定,最后通过信息输出模块将文本信息和判定过程交由人工审核,能够有效提高对不同种类证件进行分类解析的速率,从而使所述系统能够对不同类型的证件进行高效识别和判定。
进一步地,所述系统中还设有OCR识别模块,通过私用OCR识别模块,能够快速而精确地识别出图像文件中的文字,为后续的语种识别和证件种类判定提供了高精度的文字轨迹/形状信息,从而进一步提高了所述系统对不同证件的解析效率。
进一步地,所述系统中还设有存储模块,通过设置存储模块,可以在系统中预先存储解析证件所需的识别标准和判定标准,在系统对待识别证件进行扫描分辨率调节、语种分析以及证件种类判定时,各指定模块均能够从存储模块中提取出对应的识别标准或判定标准以对证件进行快速而准确的解析,从而进一步提高了所述系统对不同种类证件的解析效率。
进一步地,所述系统中还设有分辨率调节模块,在调节模块中设有预设分辨率矩阵I0(I1,I2,I3,I4,I5),在系统对待识别证件进行解析时,所述图像收集模块会对图像进行预扫描并在扫描完成时将预扫描图像输送至分辨率调节模块,分辨率调节模块会测量预扫描图像中最小文字的尺寸D并从所述存储模块中调取预设文字尺寸矩阵D0(D1,D2,D3,D4,D5),将D与D0矩阵中的各项数值依次进行对比,根据对比结果从I0矩阵中选取对应的分辨率并控制图像收集模块使用指定分辨率对待识别证件进行扫描。通过使用预扫描,根据预扫描图像中最小文字的尺寸确定系统在分析时使用的扫描分辨率,能够有效保证图像文件的清晰度,并提高后续模块在提取、识别和判定时的精度,从而进一步提高了所述系统对证件的解析效率。
进一步地,所述存储模块中还设有预设语种文本矩阵组L0(L1,L2,L3,L4),当所述文本识别模块对文本信息所属语种进行识别时,会提取文本信息中的文字并将文字依次与L0矩阵组中各矩阵内的预设文字进行比对,根据比对结果判定文本信息中文字的语种,通过预设多个语种文字的判定标准,能够使系统对多语种的证件进行解析,从而提高了所述系统的解析范围。
进一步地,所述存储模块中还设有预设判定特征矩阵组R0(R1,R2,R3,R4),证件分析模块会根据文本识别模块的判定结果从存储模块中预存的R0矩阵组中选取对应的判定特征矩阵对文本信息所属证件的种类进行判断,通过使用指定语种的判定特征矩阵对对应语种的文本信息所属证件的种类进行判定,能够进一步提高对证件种类判定的准确率,从而进一步提高了所述系统对证件的解析效率。
进一步地,对于对于第i语种判定特征矩阵组Ri,Ri(Ri1,Ri2,Ri3,Ri4),对于第i语种第j类证件判定特征矩阵Rij,Rij(Rij1,Rij2,Rij3...Rijn);在排查过程中,证件分析模块会建立特征统计矩阵N(N1,N2,N3,N4),根据文本信息中出现的特征所属种类对矩阵中对应的数值进行更新,在排查完成时,根据统计结果完成对待识别证件种类的判定,通过使用多个预设的特征字/词/句子对待识别证件的种类进行分类,能够更加快速和准确的完成对待识别证件的解析,进一步提高了所述系统对证件的解析效率。
进一步地,所述OCR识别模块能够对图像进行倾斜修正,因此,对于所述图像收集模块的具体设备的选用上能够更加多样化,从而提高了所述系统的适用范围。
附图说明
图1为本发明所述基于多识别参量的网上银行服务系统的功能框图。
具体实施方式
为了使本发明的目的和优点更加清楚明白,下面结合实施例对本发明作进一步描述;应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非在限制本发明的保护范围。
需要说明的是,在本发明的描述中,术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系,这仅仅是为了便于描述,而不是指示或暗示所述装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,还需要说明的是,在本发明的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域技术人员而言,可根据具体情况理解上述术语在本发明中的具体含义。
请参阅图1所示,其为本发明所述基于多识别参量的网上银行服务系统的功能框图。
本发明所述基于多识别参量的网上银行服务系统,包括:图像收集模块、分辨率调节模块、OCR识别模块、文本分析模块、证件分析模块、存储模块和信息输出模块。其中,所述图像收集模块用以扫描待识别证件并生成证件的图像信息。所述分辨率调节模块与所述图像收集模块相连,用以调节图像收集模块在扫描证件时选用的分辨率。所述OCR识别模块与所述图像收集模块相连,用以分析图像收集模块输出图像文件中的文字信息。所述文本分析模块与所述OCR识别模块相连,用以判定所述OCR识别模块输出的文本信息中文本所属语种。所述证件分析模块分别与所述OCR识别模块和文本分析模块相连,用以根据文本信息分析模块的判定结果对OCR识别模块输送的文本信息所属证件的类别进行判定。所述存储模块分别与所述图像收集模块、文本分析模块和证件分析模块相连,用以存储预设的文本尺寸信息、指定语种的文本以及预设证件判定特征矩阵。所述信息输出模块与所述证件分析模块相连,用以输出所述OCR识别模块识别的文本信息以及所述证件分析模块的判定结果。
当所述系统对待识别证件进行判定时,图像收集模块对待识别证件进行预扫描;分辨率调节模块识别预扫描图像中的文字并根据文字尺寸选取对应的分辨率并使图像收集模块对待识别证件进行扫描,扫描完成后,图像收集模块将扫描完成的图像文件输送至OCR识别模块;OCR识别模块对图像中的文字信息进行识别,在识别完成后生成与图片信息中相同布局的文本信息并在生成文本信息后将其输送至文本分析模块;文本分析模块对文本信息中文字所属语种进行判定后将判定结果和文本信息输送至证件分析模块;证件分析模块根据对应语种中指定的特征点对文本信息进行排查,并根据排查完成时特征点的种类以及数量完成对文本信息所属证件种类的判定;当证件分析模块完成对文本信息所属证件的判定时,证件分析模块会将文本信息和判定结果一同输送至信息输出模块,信息输出模块将文本信息和判定结果输出系统以使工作人员对文本信息和判定结果进行人工审核。可以理解的是,所述图像收集模块收集待识别证件的方式可以为扫描、摄像或其他的图像采集方式,只要满足所述图像收集模块能够采集到清晰的证件图片文件即可。
具体而言,所述存储模块中设有预设文字尺寸矩阵D0,所述分辨率调节模块中设有预设分辨率矩阵I0;对于预设文字尺寸矩阵D0,D0(D1,D2,D3,D4,D5),其中,D1为第一预设文字尺寸,D2为第二预设文字尺寸,D3为第三预设文字尺寸,D4为第四预设文字尺寸,D5为第五预设文字尺寸,各预设文字尺寸的尺寸值按照顺序逐渐减小;对于预设分辨率矩阵I0,I0(I1,I2,I3,I4,I5),其中,I1为第一预设分辨率,I2为第二预设分辨率,I3为第三预设分辨率,I4为第四预设分辨率,I5为第五预设分辨率,各预设分辨率的数值按照顺序逐渐增加。
当所述系统对待识别证件进行识别时,所述图像收集模块使用I1分辨率对待识别证件进行预扫描,并将预扫描完成的预扫描图像输送至所述分辨率调节模块,分辨率调节模块会识别预扫描图像,并从中提取出文字信息,提取完成后,分辨率调节模块依次测量各文字的尺寸并从中选取最小的文字尺寸D,将D与D0矩阵中的各项数值进行比对:
当D>D1时,分辨率调节模块将图像识别模块的扫描分辨率调节为I1;
当D1≥D>D2时,分辨率调节模块将图像识别模块的扫描分辨率调节为I2;
当D2≥D>D3时,分辨率调节模块将图像识别模块的扫描分辨率调节为I3;
当D3≥D>D4时,分辨率调节模块将图像识别模块的扫描分辨率调节为I4;
当D4≥D>D5时,分辨率调节模块将图像识别模块的扫描分辨率调节为I5。
当分辨率调节模块完成对图像识别模块的扫描分辨率的调节时,图像识别模块对待识别证件进行扫描,并在扫描完成时将扫描的图像文件输送至所述OCR识别模块。
具体而言,所述存储模块中还设有预设语种文本矩阵组L0,L0(L1,L2,L3,L4),其中,L1为第一预设语种文本矩阵,L2为第二预设语种文本矩阵,L3为第三预设语种文本矩阵,L4为第四预设语种文本矩阵;当所述文本识别模块对所述OCR识别模块输送的文本信息进行识别时,会提取文本信息中的文字,并将文字依次与各预设语种文本矩阵中的预设文字进行比对:
当文本信息中的文字与L1矩阵中的文字相似度大于等于80%,则所述文本识别模块将文本信息中文字的语种判定为第一语种;
当文本信息中的文字与L2矩阵中的文字相似度大于等于80%,则所述文本识别模块将文本信息中文字的语种判定为第二语种;
当文本信息中的文字与L3矩阵中的文字相似度大于等于80%,则所述文本识别模块将文本信息中文字的语种判定为第三语种;
当文本信息中的文字与L4矩阵中的文字相似度大于等于80%,则所述文本识别模块将文本信息中文字的语种判定为第四语种。
当文本信息中的文字与多个预设语种文本矩阵中的文字相似度均大于等于80%,则所述文本识别模块将与文本信息中文字相似度最高的预设语种文本矩阵所属语种判定为该文本信息文字所属语种。
判定完成后,文本识别模块将文本信息和判定结果一同输送至所述文本分析模块。
具体而言,所述存储模块中还设有预设判定特征矩阵组R0,R0(R1,R2,R3,R4),其中,R1为第一语种判定特征矩阵组,R2为第二语种判定特征矩阵组,R3为第三语种判定特征矩阵组,R4为第四语种判定特征矩阵组。
当所述文本识别模块完成对文本信息语种的判定时,证件分析模块会根据文本识别模块的判定结果从所述存储模块中预存的R0矩阵组中选取对应的语种判定特征矩阵Ri对文本信息所属证件的种类进行判断,i=1,2,3,4。
具体而言,对于第i语种判定特征矩阵组Ri,Ri(Ri1,Ri2,Ri3,Ri4),其中,Ri1为第i语种第一类证件判定特征矩阵,Ri2为第i语种第二类证件判定特征矩阵,Ri3为第i语种第三类证件判定特征矩阵,Ri4为第i语种第四类证件判定特征矩阵;对于第i语种第j类证件判定特征矩阵Rij,Rij(Rij1,Rij2,Rij3...Rijn)其中,Rij1为第i语种第j类证件第一判定特征,Rij2为第i语种第j类证件第二判定特征,Rij3为第i语种第j类证件第三判定特征,Rijn为第i语种第j类证件第n判定特征。
当所述证件分析模块对文本信息进行分析时,会对文本信息进行全文排查,在排查过程中,证件分析模块会建立特征统计矩阵N(N1,N2,N3,N4),其中N1为排查过程中第i语种第一类证件判定特征出现的次数,N2为排查过程中第i语种第二类证件判定特征出现的次数,N3为排查过程中第i语种第三类证件判定特征出现的次数,N4为排查过程中第i语种第四类证件判定特征出现的次数;在排查前,N1=N2=N3=N4=0;在排查过程中出现第一类证件判定特征时,则N1=0+1=1;在排查过程中出现第二类证件判定特征时,则N2=0+1=1;在排查过程中出现第三类证件判定特征时,则N3=0+1=1;在排查过程中出现第四类证件判定特征时,则N4=0+1=1;当排查结束时,证件分析模块依次统计N1,N2,N3,N4的数值:
当N1的数值最大时,证件分析模块判定文本信息所属证件属于第一类证件;
当N2的数值最大时,证件分析模块判定文本信息所属证件属于第二类证件;
当N3的数值最大时,证件分析模块判定文本信息所属证件属于第三类证件;
当N4的数值最大时,证件分析模块判定文本信息所属证件属于第四类证件。
判定完成后,证件分析模块将排查过程时检索到的特征标记在文本信息上并将判定结果和带有标记的文本信息输送至所述信息输出模块。
具体而言,各所述第i语种第j类证件第n判定特征Rijn包括单个文字特征、单个词语特征、单个句子特征和单个数字特征。
具体而言,所述OCR识别模块在识别所述图像文件中的文字时,包括以下步骤:
步骤1:OCR识别模块对接收到的图像文件进行预处理,提取图像文件中的文字信息;
步骤2:OCR识别模块根据初始图像文件中文字的位置对提取的文字信息进行分段和分行;
步骤3:OCR识别模块对字符进行切割以降低文字信息中字符粘连、断笔对文字信息识别精度造成的影响;
步骤4:OCR识别模块对提取出的文字信息进行识别;
步骤5:识别完成后,OCR识别模块依据原始的图像文件对识别完成的文字进行排版,排版完成后生成与初始图像文件相同布局的文本信息。
具体而言,所述OCR识别模块对接收到的图像文件进行预处理时,先通过使用二值化区分前景信息与背景信息,对前景信息进行噪声去除,再根据图像文件的倾斜角度对图像信息进行倾斜校正以完成对五项文件的预处理。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
以上所述仅为本发明的优选实施例,并不用于限制本发明;对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于多识别参量的网上银行服务系统,其特征在于,包括:
图像收集模块,用以扫描待识别证件,并生成证件的图像信息;
分辨率调节模块,其与所述图像收集模块相连,用以调节图像收集模块在扫描证件时选用的分辨率;当图像收集模块对待识别证件进行预扫描时,图像收集模块会识别预扫描图像中的文字并根据文字尺寸控制图像收集模块选取对应的分辨率对待识别证件进行扫描;
OCR识别模块,其与所述图像收集模块相连,用以分析图像收集模块输出图像文件中的文字信息;当OCR识别模块接收到所述图像收集模块输送的图像文件时,OCR识别模块会对图像中的文字信息进行识别,并在识别完成后生成与图片信息中相同布局的文本信息;
文本分析模块,其与所述OCR识别模块相连,用以判定所述OCR识别模块输出的文本信息中文本所属语种;
证件分析模块,其分别与所述OCR识别模块和文本分析模块相连,用以根据文本信息分析模块的判定结果对OCR识别模块输送的文本信息所属证件的类别进行判定;当证件分析模块对文本信息进行判定时,证件分析模块会根据对应语种中指定的特征点对文本信息进行排查,并根据排查完成时特征点的种类以及数量完成对文本信息所属证件种类的判定;
存储模块,其分别与所述图像收集模块、文本分析模块和证件分析模块相连,用以存储预设的文本尺寸信息、指定语种的文本以及预设证件判定特征矩阵;
信息输出模块,其与所述证件分析模块相连,用以输出所述OCR识别模块识别的文本信息以及所述证件分析模块的判定结果;当证件分析模块完成对文本信息所属证件的判定时,证件分析模块会将文本信息和判定结果一同输送至信息输出模块,信息输出模块将文本信息和判定结果输出系统以使工作人员对文本信息和判定结果进行人工审核。
2.根据权利要求1所述的基于多识别参量的网上银行服务系统,其特征在于,所述存储模块中设有预设文字尺寸矩阵D0,所述分辨率调节模块中设有预设分辨率矩阵I0;对于预设文字尺寸矩阵D0,D0(D1,D2,D3,D4,D5),其中,D1为第一预设文字尺寸,D2为第二预设文字尺寸,D3为第三预设文字尺寸,D4为第四预设文字尺寸,D5为第五预设文字尺寸,各预设文字尺寸的尺寸值按照顺序逐渐减小;对于预设分辨率矩阵I0,I0(I1,I2,I3,I4,I5),其中,I1为第一预设分辨率,I2为第二预设分辨率,I3为第三预设分辨率,I4为第四预设分辨率,I5为第五预设分辨率,各预设分辨率的数值按照顺序逐渐增加;
当所述系统对待识别证件进行识别时,所述图像收集模块使用I1分辨率对待识别证件进行预扫描,并将预扫描完成的预扫描图像输送至所述分辨率调节模块,分辨率调节模块会识别预扫描图像,并从中提取出文字信息,提取完成后,分辨率调节模块依次测量各文字的尺寸并从中选取最小的文字尺寸D,将D与D0矩阵中的各项数值进行比对:
当D>D1时,分辨率调节模块将图像识别模块的扫描分辨率调节为I1;
当D1≥D>D2时,分辨率调节模块将图像识别模块的扫描分辨率调节为I2;
当D2≥D>D3时,分辨率调节模块将图像识别模块的扫描分辨率调节为I3;
当D3≥D>D4时,分辨率调节模块将图像识别模块的扫描分辨率调节为I4;
当D4≥D>D5时,分辨率调节模块将图像识别模块的扫描分辨率调节为I5;
当分辨率调节模块完成对图像识别模块的扫描分辨率的调节时,图像识别模块对待识别证件进行扫描,并在扫描完成时将扫描的图像文件输送至所述OCR识别模块。
3.根据权利要求2所述的基于多识别参量的网上银行服务系统,其特征在于,所述存储模块中还设有预设语种文本矩阵组L0,L0(L1,L2,L3,L4),其中,L1为第一预设语种文本矩阵,L2为第二预设语种文本矩阵,L3为第三预设语种文本矩阵,L4为第四预设语种文本矩阵;当所述文本识别模块对所述OCR识别模块输送的文本信息进行识别时,会提取文本信息中的文字,并将文字依次与各预设语种文本矩阵中的预设文字进行比对:
当文本信息中的文字与L1矩阵中的文字相似度大于等于80%,则所述文本识别模块将文本信息中文字的语种判定为第一语种;
当文本信息中的文字与L2矩阵中的文字相似度大于等于80%,则所述文本识别模块将文本信息中文字的语种判定为第二语种;
当文本信息中的文字与L3矩阵中的文字相似度大于等于80%,则所述文本识别模块将文本信息中文字的语种判定为第三语种;
当文本信息中的文字与L4矩阵中的文字相似度大于等于80%,则所述文本识别模块将文本信息中文字的语种判定为第四语种;
当文本信息中的文字与多个预设语种文本矩阵中的文字相似度均大于等于80%,则所述文本识别模块将与文本信息中文字相似度最高的预设语种文本矩阵所属语种判定为该文本信息文字所属语种;
判定完成后,文本识别模块将文本信息和判定结果一同输送至所述文本分析模块。
4.根据权利要求3所述的基于多识别参量的网上银行服务系统,其特征在于,所述存储模块中还设有预设判定特征矩阵组R0,R0(R1,R2,R3,R4),其中,R1为第一语种判定特征矩阵组,R2为第二语种判定特征矩阵组,R3为第三语种判定特征矩阵组,R4为第四语种判定特征矩阵组;
当所述文本识别模块完成对文本信息语种的判定时,证件分析模块会根据文本识别模块的判定结果从所述存储模块中预存的R0矩阵组中选取对应的语种判定特征矩阵Ri对文本信息所属证件的种类进行判断,i=1,2,3,4。
5.根据权利要求4所述的基于多识别参量的网上银行服务系统,其特征在于,对于第i语种判定特征矩阵组Ri,Ri(Ri1,Ri2,Ri3,Ri4),其中,Ri1为第i语种第一类证件判定特征矩阵,Ri2为第i语种第二类证件判定特征矩阵,Ri3为第i语种第三类证件判定特征矩阵,Ri4为第i语种第四类证件判定特征矩阵;对于第i语种第j类证件判定特征矩阵Rij,Rij(Rij1,Rij2,Rij3...Rijn)其中,Rij1为第i语种第j类证件第一判定特征,Rij2为第i语种第j类证件第二判定特征,Rij3为第i语种第j类证件第三判定特征,Rijn为第i语种第j类证件第n判定特征;
当所述证件分析模块对文本信息进行分析时,会对文本信息进行全文排查,在排查过程中,证件分析模块会建立特征统计矩阵N(N1,N2,N3,N4),其中N1为排查过程中第i语种第一类证件判定特征出现的次数,N2为排查过程中第i语种第二类证件判定特征出现的次数,N3为排查过程中第i语种第三类证件判定特征出现的次数,N4为排查过程中第i语种第四类证件判定特征出现的次数;在排查前,N1=N2=N3=N4=0;在排查过程中出现第一类证件判定特征时,则N1=0+1=1;在排查过程中出现第二类证件判定特征时,则N2=0+1=1;在排查过程中出现第三类证件判定特征时,则N3=0+1=1;在排查过程中出现第四类证件判定特征时,则N4=0+1=1;当排查结束时,证件分析模块依次统计N1,N2,N3,N4的数值:
当N1的数值最大时,证件分析模块判定文本信息所属证件属于第一类证件;
当N2的数值最大时,证件分析模块判定文本信息所属证件属于第二类证件;
当N3的数值最大时,证件分析模块判定文本信息所属证件属于第三类证件;
当N4的数值最大时,证件分析模块判定文本信息所属证件属于第四类证件;
判定完成后,证件分析模块将排查过程时检索到的特征标记在文本信息上并将判定结果和带有标记的文本信息输送至所述信息输出模块。
6.根据权利要求5所述的基于多识别参量的网上银行服务系统,其特征在于,各所述第i语种第j类证件第n判定特征Rijn包括单个文字特征、单个词语特征、单个句子特征和单个数字特征。
7.根据权利要求1所述的基于多识别参量的网上银行服务系统,其特征在于,所述OCR识别模块在识别所述图像文件中的文字时,包括以下步骤:
步骤1:OCR识别模块对接收到的图像文件进行预处理,提取图像文件中的文字信息;
步骤2:OCR识别模块根据初始图像文件中文字的位置对提取的文字信息进行分段和分行;
步骤3:OCR识别模块对字符进行切割以降低文字信息中字符粘连、断笔对文字信息识别精度造成的影响;
步骤4:OCR识别模块对提取出的文字信息进行识别;
步骤5:识别完成后,OCR识别模块依据原始的图像文件对识别完成的文字进行排版,排版完成后生成与初始图像文件相同布局的文本信息。
8.根据权利要求7所述的基于多识别参量的网上银行服务系统,其特征在于,所述OCR识别模块对接收到的图像文件进行预处理时,先通过使用二值化区分前景信息与背景信息,对前景信息进行噪声去除,再根据图像文件的倾斜角度对图像信息进行倾斜校正以完成对五项文件的预处理。
9.根据权利要求1所述的基于多识别参量的网上银行服务系统,其特征在于,所述图像收集模块收集待识别证件的方式包括扫描和摄像。
CN202010617361.6A 2020-06-30 2020-06-30 一种基于多识别参量的网上银行服务系统 Active CN111860481B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010617361.6A CN111860481B (zh) 2020-06-30 2020-06-30 一种基于多识别参量的网上银行服务系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010617361.6A CN111860481B (zh) 2020-06-30 2020-06-30 一种基于多识别参量的网上银行服务系统

Publications (2)

Publication Number Publication Date
CN111860481A true CN111860481A (zh) 2020-10-30
CN111860481B CN111860481B (zh) 2021-08-10

Family

ID=72989586

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010617361.6A Active CN111860481B (zh) 2020-06-30 2020-06-30 一种基于多识别参量的网上银行服务系统

Country Status (1)

Country Link
CN (1) CN111860481B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117934158A (zh) * 2024-03-13 2024-04-26 湖南三湘银行股份有限公司 一种基于rpa的信贷资料自动审查方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7362902B1 (en) * 2004-05-28 2008-04-22 Affiliated Computer Services, Inc. Resolving character data boundaries
US20150286888A1 (en) * 2014-04-02 2015-10-08 Benoit Maison Optical Character Recognition System Using Multiple Images and Method of Use
CN105138980A (zh) * 2015-08-20 2015-12-09 深圳云天励飞技术有限公司 基于身份证件信息和人脸识别的身份验证方法及系统
CN108805124A (zh) * 2018-04-18 2018-11-13 北京嘀嘀无限科技发展有限公司 图片处理方法及装置、计算机可读存储介质
CN109359647A (zh) * 2018-10-16 2019-02-19 翟红鹰 识别多种证件的方法、设备及计算机可读存储介质
CN109492643A (zh) * 2018-10-11 2019-03-19 平安科技(深圳)有限公司 基于ocr的证件识别方法、装置、计算机设备及存储介质
CN110210470A (zh) * 2019-06-05 2019-09-06 复旦大学 商品信息图像识别系统
CN110442744A (zh) * 2019-08-09 2019-11-12 泰康保险集团股份有限公司 提取图像中目标信息的方法、装置、电子设备及可读介质
CN110728272A (zh) * 2019-09-02 2020-01-24 平安普惠企业管理有限公司 基于ocr录入证件信息的方法及相关装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7362902B1 (en) * 2004-05-28 2008-04-22 Affiliated Computer Services, Inc. Resolving character data boundaries
US20150286888A1 (en) * 2014-04-02 2015-10-08 Benoit Maison Optical Character Recognition System Using Multiple Images and Method of Use
CN105138980A (zh) * 2015-08-20 2015-12-09 深圳云天励飞技术有限公司 基于身份证件信息和人脸识别的身份验证方法及系统
CN108805124A (zh) * 2018-04-18 2018-11-13 北京嘀嘀无限科技发展有限公司 图片处理方法及装置、计算机可读存储介质
CN109492643A (zh) * 2018-10-11 2019-03-19 平安科技(深圳)有限公司 基于ocr的证件识别方法、装置、计算机设备及存储介质
CN109359647A (zh) * 2018-10-16 2019-02-19 翟红鹰 识别多种证件的方法、设备及计算机可读存储介质
CN110210470A (zh) * 2019-06-05 2019-09-06 复旦大学 商品信息图像识别系统
CN110442744A (zh) * 2019-08-09 2019-11-12 泰康保险集团股份有限公司 提取图像中目标信息的方法、装置、电子设备及可读介质
CN110728272A (zh) * 2019-09-02 2020-01-24 平安普惠企业管理有限公司 基于ocr录入证件信息的方法及相关装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ANKIT LAT等: ""Enhancing OCR Accuracy with Super Resolution"", 《2018 24TH INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION (ICPR)》 *
刘春平等: ""复杂背景下多证件快速识别系统的研究与实现"", 《现代计算机》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117934158A (zh) * 2024-03-13 2024-04-26 湖南三湘银行股份有限公司 一种基于rpa的信贷资料自动审查方法

Also Published As

Publication number Publication date
CN111860481B (zh) 2021-08-10

Similar Documents

Publication Publication Date Title
US11922318B2 (en) System and method of character recognition using fully convolutional neural networks with attention
CN109657738B (zh) 字符识别方法、装置、设备及存储介质
US5764799A (en) OCR method and apparatus using image equivalents
US7171061B2 (en) Systems and methods for triage of passages of text output from an OCR system
US6243501B1 (en) Adaptive recognition of documents using layout attributes
JP3195038B2 (ja) 複数の文字認識プロセッサを備えた記号判定システムのための選択装置
US9152883B2 (en) System and method for increasing the accuracy of optical character recognition (OCR)
US10055801B2 (en) Systems and methods for generating structured data based on scanned documents
US10225431B2 (en) System and method for importing scanned construction project documents
US20150371100A1 (en) Character recognition method and system using digit segmentation and recombination
US5970171A (en) Apparatus and method of fusing the outputs of multiple intelligent character recognition (ICR) systems to reduce error rate
CN113592044B (zh) 一种笔迹特征分析方法及装置
CN109446345A (zh) 核电文件校验处理方法以及系统
US7769235B2 (en) Text recognition method using a trainable classifier
CN111860481B (zh) 一种基于多识别参量的网上银行服务系统
CN113221711A (zh) 一种信息提取方法及装置
CN116484052B (zh) 一种基于大数据的教育资源共享系统
CN112733828A (zh) 一种进行字符识别的方法及系统
JP6435934B2 (ja) 文書画像処理用のプログラムおよびこのプログラムを用いた画像処理装置ならびに文字認識装置
US9811726B2 (en) Chinese, Japanese, or Korean language detection
JPH06501801A (ja) 文書からの予め定められたデータを位置決定することおよび抽出することを含む文字認識方法および装置
CN111860480B (zh) 一种基于多识别参量的网上银行服务方法
CN117436815A (zh) 基于自然语言大模型的流程智能审批方法
CN105719217A (zh) 法医伤情鉴定管理方法和系统
CN110197140B (zh) 基于文字识别的材料审核方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant