CN109145819A - 基于ocr和可信结构化数据的信息鉴别方法 - Google Patents

基于ocr和可信结构化数据的信息鉴别方法 Download PDF

Info

Publication number
CN109145819A
CN109145819A CN201810958615.3A CN201810958615A CN109145819A CN 109145819 A CN109145819 A CN 109145819A CN 201810958615 A CN201810958615 A CN 201810958615A CN 109145819 A CN109145819 A CN 109145819A
Authority
CN
China
Prior art keywords
content
word
vector
standard words
xbi
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810958615.3A
Other languages
English (en)
Other versions
CN109145819B (zh
Inventor
王佩光
杨小蕾
罗奕
朱友卫
林雄建
肖郑海
陈龙
潘盛裕
孟浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Information and Telecommunication Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Information and Telecommunication Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Information and Telecommunication Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201810958615.3A priority Critical patent/CN109145819B/zh
Publication of CN109145819A publication Critical patent/CN109145819A/zh
Application granted granted Critical
Publication of CN109145819B publication Critical patent/CN109145819B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种一种基于OCR和可信结构化数据库的信息鉴别方法,包括:步骤S100,对信息载体(纸)的一个或多个影像进行OCR处理,获得信息载体的主索引内容CI、第一内容向量A=(a1,a2,...,am)和第二内容向量B=(b1,b2,...,bn),其中m和n分别为第一、二内容向量中元素的数量;步骤S200,在可信结构化数据库中使用主索引内容CI进行检索,并将检索获得结果记录中提取第一可信内容向量P=(p1,p2,...,pm)和第二可信内容向量Q=(q1,q2,...,qn);步骤S300,如果A=P,那么执行步骤S400;如果A≠P,那么向用户提示所述影像中呈现的内容为虚假内容;步骤S400,计算B和Q的相似度其中,bqi为bi和qi的相似度,如果SBQ≥D,那么判断所述影像中呈现的内容为真实内容;否则,向用户提示影像中呈现的内容为虚假内容。

Description

基于OCR和可信结构化数据的信息鉴别方法
技术领域
本发明涉及信息鉴别领域,尤其涉及一种基于OCR和可信结构化数据的信息鉴别方法。
背景技术
目前的很多情况下,需要对用户提供的纸件承载的信息中的内容进行鉴真,例如用户提供的身份证复印件、企业营业执照中的是否被篡改,以及用户提供的纸质招标文件中的企业资质信用是否准确、真实等。现有技术中,对于纸件承载的信息的鉴别主要通过人工比对完成,自动化程度较低、鉴别的效率也较低。OCR技术的发展为解决上述问题提供了契机。
发明内容
为解决上述技术问题,本发明涉及一种基于OCR和可信结构化数据库的信息鉴别方法,包括:步骤S100,对信息载体(纸)的一个或多个影像进行OCR处理,获得信息载体的主索引内容CI、第一内容向量A=(a1,a2,...,am)和第二内容向量B=(b1,b2,...,bn),其中m和n分别为第一、二内容向量中元素的数量;步骤S200,在可信结构化数据库中使用主索引内容CI进行检索,并将检索获得结果记录中提取第一可信内容向量P=(p1,p2,...,pm)和第二可信内容向量Q=(q1,q2,...,qn);步骤S300,如果A=P,那么执行步骤S400;如果A≠P,那么向用户提示所述影像中呈现的内容为虚假内容;步骤S400,计算B和Q的相似度其中,bqi为bi和qi的相似度,如果SBQ≥D,那么判断所述影像中呈现的内容为真实内容;否则,向用户提示影像中呈现的内容为虚假内容。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,将对本发明作进一步地详细描述。这种描述是通过示例而非限制的方式介绍了与本发明的原理相一致的具体实施方式,这些实施方式的描述是足够详细的,以使得本领域技术人员能够实践本发明,在不脱离本发明的范围和精神的情况下可以使用其他实施方式并且可以改变和/或替换各要素的结构。因此,不应当从限制性意义上来理解以下的详细描述。
根据本发明,提供了一种基于OCR和可信结构化数据库的信息鉴别方法,包括:
步骤S100,对信息载体的一个或多个影像进行OCR处理,获得信息载体的主索引内容CI、第一内容向量A=(a1,a2,...,am)和第二内容向量B=(b1,b2,...,bn),其中m和n分别为第一、二内容向量中元素的数量。
根据本发明,信息载体用于承载信息,信息通常为格式化信息或者结构化信息,载体物理实现为印刷材料,例如各种型号的纸张。进一步的,本发明中的格式化或结构化的信息即能够根据载体的区域位置、区域标识等进行大概率区分的信息,例如营业执照信息、身份证信息、名片信息等。根据本发明,影像一般实现为信息载体的复印件、影印件、扫描件、拍摄的照片、拍摄视频的截图等形式。对于不同的信息载体,影像可能具有一个或多个,例如对于营业执照,影像为一个;对于身份证,影像为两个(正反面);对于名片,影像可能为一个,也可能为两个;对于包含营业执照、纳税证明、开户证明、法人代表身份证等多种信息的标书,影像一般为多个。
根据本发明,对影像进行OCR处理,能够获得结构化信息,例如一条或多条记录信息。具体获得手段并非本发明意图保护的重点,本发明支持采用现有技术中的手段来获得结构化信息,这些手段例如但不限于“蒙恬科技”公司的产品“名片王”中的使用的技术,以及“梦婷科技”公司在CN103679117B号专利中公开的技术。
根据本发明,例如对标书中的营业执照副本扫描件(或者投标人提供的格式化法人信息)和法人代表身份证扫描件进行OCR处理后,能够获得以下结构化内容:
来源于营业执照副本的:
“组织机构代码:XXXXXX;
名称:XXXX有限责任公司;
法定代表人:王XX;
注册资本:XXXX万元;
成立日期:2000年XX月XX日
经营范围:XXXX,XXXX,XXXX……
……”
来源于身份证的:
“法定代表人:王XX;
法定代表人身份证号:XXXXXX19700101XXXX;
……”
根据本发明,将上述结构化内容分为三种:主索引内容、第一内容和第二内容。其中主索引内容CI只有一项,在上述标书示例中可以选择“组织结构代码”。第一内容为必须全部正确的内容,在上述标书示例中,例如可以选择“法定代表人”、“法定代表人身份证号”等,即第一内容向量A中包括法定代表人a1和法定代表人身份证号a2。第二内容为可以大部分正确的内容(即允许部分瑕疵),在上述标书示例中,例如可以选择“名称”、“经营范围”等,即第二内容向量B中包括名称b1和经营范围b2。显然,本领域技术人员理解,标书示例仅仅是为了清晰阐述本发明的技术方案而列举的一个例子,其不能代表本发明只能够处理标书、营业执照或身份证等信息载体。事实上,只要能够通过OCR处理获得结构化信息的载体,均落入本发明的保护范围。
步骤S200,在可信结构化数据库中使用主索引内容CI进行检索,并将检索获得结果记录中提取第一可信内容向量P=(p1,p2,...,pm)和第二可信内容向量Q=(q1,q2,...,qn)。其中,P的内容与A的内容相对应,Q的内容与B的内容相对应。
根据本发明,可信结构化数据库中存储有可信数据,一般为来源于具有公信力的机构所发布的数据,例如工商、税务、海关、质检、公检法等发布的数据。以前述标书为例,可信结构化数据库可以包括企业工商登记信息数据,例如“启信宝”、“天眼查”等产品所使用的可信数据库。显然,本领域技术人员理解,“启信宝”、“天眼查”示例仅仅是为了清晰阐述本发明的技术方案而列举的一个例子,其不能代表本发明中的可信结构化数据只能是工商登记数据。事实上,只要是对于用户而言可信的数据库,均可称之为可信数据库,也均落入本发明的保护范围。
仍以前述标书为例进行说明,在使用主索引内容CI(例如组织机构代码)在可信数据库中进行检索,能够获得对应组织机构代码的“法定代表人”、“法定代表人身份证号”、“名称”、“经营范围”。其中,“法定代表人”、“法定代表人身份证号”作为第一可信内容向量P=(p1,p2,...,pm)中的p1和p2;“名称”、“经营范围”作为第二可信内容向量Q=(q1,q2,...,qn)中的q1和q2。
步骤S300,如果A=P,那么执行步骤S400,继续进行判断;如果A≠P,说明OCR出现了错误或者标书中的材料不可信,不管哪种情况,均应当向用户提示影像中呈现的内容为虚假内容,以供用户分辨。
进一步的,步骤S300中,A=P的判断具体为:如果内容向量A和P的每组对应元素均相同,即ai=pi,i的取值为1…m,那么A=P,即前述例子中即“法定代表人”、“法定代表人身份证号”相同;如果内容向量A和P的存在任意一组对应元素不相同,那么A≠P,前述例子中即“法定代表人”或者“法定代表人身份证号”不相同。
步骤S400,计算第二内容向量B和第二可信内容向量Q的相似度其中,bqi为bi和qi的相似度,如果SBQ≥D(D为预设阈值,D的取值范围为0…1,优选的D的取值大于0.8),那么判断影像中呈现的内容为真实内容;否则,向用户提示影像中呈现的内容为虚假内容。根据本发明,第二内容向量B和第二可信内容向量Q中的元素均为文本类型,与第一内容不同,第二内容允许有一定的冗余度,从而兼容第二内容向量B中因为录入或OCR过程中出现的瑕疵。
具体的,步骤S400还包括:
步骤S410,如果bi=qi,那么bqi=1;否则执行步骤S420。根据本发明,由于bi=qi是概率非常大的情况,因此,步骤S410和S420的执行顺序不能颠倒,即要求先执行S410,后执行S420,从而提升运行效率较高的步骤S410的执行次数,减少执行效率较低的步骤S420及后续步骤的执行次数。
步骤S420,使用标准词语料库中的标准词对文本bi和qi进行分词,分别形成分词后的词语向量Xbi=(x1,x2,...,xr)和Yqi=(y1,y2,...,ys),其中r和s分别为分词后的词语向量中词语的数量。
根据本发明,标准词语料库可以为一个,也可以为多个(即对不同的内容分别设置标准词语料库)。每个标准词语料库中的标准词数量均远小于一般词典中的词语数量。标准词为第二内容中经常出现的常用术语。仍以前述标书为例,“名称”内容相关的标准词可以包括但不限于{“有限”、“责任”、“公司”、“科技”、“商贸”、“研究”、“器材”、“电力”、“水泥”、“玻璃”、“北京”、“福建”、“国网”、“国家电网”……}等。标准词的存在能够快速并准确的对文本bi和qi进行分词,例如qi为“国网信通亿力科技有限责任公司”,bi为“国网信通亿力有限公司”,通过分词成为Xbi=(国网、信通亿力、有限、公司)、Yqi=(国网、信通亿力、科技、有限、责任、公司)。
步骤S430,如果Xbi和Yqi中相同的k个词语均为语料库中的标准词,那么bqi=0;否则执行步骤S440。根据本发明,前述例子中,Xbi和Yqi中相同的4个词语为(国网、信通亿力、有限、公司),其中包括了非标准词“信通亿力”,因此继续执行步骤S440。假如Xbi中不包括“信通亿力”,即Xbi和Yqi中相同的词语为(国网、有限、公司),显然说明B中的公司名称与Q中的公司名称完全不一致,因此将bqi=0。
在本发明的另一个实施例中,当bqi=0,不再继续进行后续步骤,直接向用户提示影像中呈现的内容为虚假内容,以供用户分辨。
其中,标准词语料库中包括标准词及标准词权重w0。进一步的,标准词为第二内容中经常出现的术语,因此其权重的设置采用较小的权重,例如w0小于或等于0.05,例如0.03。
步骤S440,对于Xbi和Yqi中的与标准词相同的词语,将其权重设置为对应的标准词权重w0。例如,前述例子中,将Xbi和Yqi中的与标准词相同的词语,即“国网”、“有限”、“公司”的权重均设置为w0(例如0.05)。
步骤S450,对于Xbi中的与标准词不相同的词语,其权重设置为对于Yqi中的与标准词不相同的词语,其权重设置为其中,r1和s1分别为Xbi和Yqi中标准词的数量。例如,前述例子中,将Xbi中的“信通亿力”设置为0.85,将Yqi中的“信通亿力”设置为0.75。
步骤S460,计算其中k为Xbi=(x1,x2,...,xr)和Yqi=(y1,y2,...,ys)中相同词语数量,wbj为Xbi内k个相同的词语中的第j个权重,Yqi为文本qi内k个相同的词语中的第j个权重。
此外,根据公开的本发明的说明书,本发明的其他实现对于本领域的技术人员是明显的。实施方式和/或实施方式的各个方面可以单独或者以任何组合用于本发明的系统和方法中。说明书和其中的示例应该是仅仅看作示例性,本发明的实际范围和精神由所附权利要求书表示。

Claims (7)

1.一种基于OCR和可信结构化数据库的信息鉴别方法,其特征在于,包括:
步骤S100,对信息载体的一个或多个影像(电子复印件或纸件复印件的扫描件、照片等)进行OCR处理,获得信息载体的主索引内容CI、第一内容向量A=(a1,a2,...,am)和第二内容向量B=(b1,b2,...,bn),其中m和n分别为第一、二内容向量中元素的数量;
步骤S200,在可信结构化数据库中使用主索引内容CI进行检索,并将检索获得结果记录中提取第一可信内容向量P=(p1,p2,...,pm)和第二可信内容向量Q=(q1,q2,...,qn);
步骤S300,如果A=P,那么执行步骤S400;如果A≠P,那么向用户提示所述影像中呈现的内容为虚假内容;
步骤S400,计算第二内容向量B和第二可信内容向量Q的相似度其中,bqi为bi和qi的相似度,如果SBQ≥D(D为预设阈值),那么判断所述影像中呈现的内容为真实内容;否则,向用户提示影像中呈现的内容为虚假内容;
所述第二内容向量B和所述第二可信内容向量Q中的元素均为文本类型。
2.根据权利要求1所述的信息鉴别方法,其特征在于,所述步骤S300中,A=P的判断具体为:
如果内容向量A和P的每组对应元素均相同,即ai=pi,i的取值为1…m,那么A=P;
如果内容向量A和P的存在任意一组对应元素不相同,那么A≠P。
3.根据权利要求2所述的信息鉴别方法,其特征在于,所述步骤S400还包括:
步骤S410,如果bi=qi,那么bqi=1;否则执行步骤S420。
4.根据权利要求3所述的信息鉴别方法,其特征在于,在步骤S410之后还包括:
步骤S420,使用标准词语料库中的标准词对文本bi和qi进行分词,分别形成分词后的词语向量Xbi=(x1,x2,...,xr)和Yqi=(y1,y2,...,ys),其中r和s分别为分词后的词语向量中词语的数量;
步骤S430,如果Xbi和Yqi中相同的k个词语均为所述语料库中的标准词,那么bqi=0;否则执行步骤S440。
5.根据权利要求4所述的信息鉴别方法,其特征在于,所述标准词语料库中包括标准词及标准词权重w0,;在步骤S430之后还包括:
步骤S440,对于Xbi和Yqi中的与标准词相同的词语,将其权重设置为对应的标准词权重w0
步骤S450,对于Xbi中的与标准词不相同的词语,其权重设置为对于Yqi中的与标准词不相同的词语,其权重设置为其中,r1和s1分别为Xbi和Yqi中标准词的数量。
6.根据权利要求5所述的信息鉴别方法,其特征在于,所述标准词权重w0小于或等于0.05,例如0.03。
7.根据权利要求5所述的信息鉴别方法,其特征在于,所述步骤S400还包括:
步骤S460,计算其中k为Xbi=(x1,x2,...,xr)和Yqi=(y1,y2,...,ys)中相同词语数量,wbj为Xbi内k个相同的词语中的第j个权重,Yqi为文本qi内k个相同的词语中的第j个权重。
CN201810958615.3A 2018-08-22 2018-08-22 基于ocr和可信结构化数据的信息鉴别方法 Active CN109145819B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810958615.3A CN109145819B (zh) 2018-08-22 2018-08-22 基于ocr和可信结构化数据的信息鉴别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810958615.3A CN109145819B (zh) 2018-08-22 2018-08-22 基于ocr和可信结构化数据的信息鉴别方法

Publications (2)

Publication Number Publication Date
CN109145819A true CN109145819A (zh) 2019-01-04
CN109145819B CN109145819B (zh) 2022-02-11

Family

ID=64790636

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810958615.3A Active CN109145819B (zh) 2018-08-22 2018-08-22 基于ocr和可信结构化数据的信息鉴别方法

Country Status (1)

Country Link
CN (1) CN109145819B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130060786A1 (en) * 2011-09-02 2013-03-07 Xerox Corporation Text-based searching of image data
CN103425972A (zh) * 2013-09-02 2013-12-04 北方工业大学 身份证件持有人真伪自动识别方法和系统
CN105808738A (zh) * 2016-03-10 2016-07-27 哈尔滨工程大学 基于元搜索引擎搜索结果的去重方法
CN107122413A (zh) * 2017-03-31 2017-09-01 北京奇艺世纪科技有限公司 一种基于图模型的关键词提取方法及装置
CN108053545A (zh) * 2017-12-29 2018-05-18 百度在线网络技术(北京)有限公司 证件验真方法和装置、服务器、存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130060786A1 (en) * 2011-09-02 2013-03-07 Xerox Corporation Text-based searching of image data
CN103425972A (zh) * 2013-09-02 2013-12-04 北方工业大学 身份证件持有人真伪自动识别方法和系统
CN105808738A (zh) * 2016-03-10 2016-07-27 哈尔滨工程大学 基于元搜索引擎搜索结果的去重方法
CN107122413A (zh) * 2017-03-31 2017-09-01 北京奇艺世纪科技有限公司 一种基于图模型的关键词提取方法及装置
CN108053545A (zh) * 2017-12-29 2018-05-18 百度在线网络技术(北京)有限公司 证件验真方法和装置、服务器、存储介质

Also Published As

Publication number Publication date
CN109145819B (zh) 2022-02-11

Similar Documents

Publication Publication Date Title
US11816165B2 (en) Identification of fields in documents with neural networks without templates
US11455784B2 (en) System and method for classifying images of an evidence
CA3154393A1 (en) System and methods for authentication of documents
KR101122854B1 (ko) 스캔된 문서들로부터 전자 서식들을 채우기 위한 방법 및장치
US10482170B2 (en) User interface for contextual document recognition
Hakak et al. Digital Hadith authentication: Recent advances, open challenges, and future directions
US20210256097A1 (en) Determination of intermediate representations of discovered document structures
US20210097197A1 (en) Systems and methods for detecting personally identifiable information
CN113011144A (zh) 表单信息的获取方法、装置和服务器
US10699112B1 (en) Identification of key segments in document images
US20210390488A1 (en) Citation and policy based document classification
CN110197140A (zh) 基于文字识别的材料审核方法及设备
US11030450B2 (en) System and method for determining originality of computer-generated images
CN109145819A (zh) 基于ocr和可信结构化数据的信息鉴别方法
US20230162517A1 (en) Interactive visual representation of semantically related extracted data
CN115294594A (zh) 文档分析方法、装置、设备及存储介质
Tornés et al. Receipt Dataset for Document Forgery Detection
CN113361585A (zh) 一种基于有监督学习算法优化筛选线索的方法
JP7420578B2 (ja) 帳票仕分システム、帳票仕分方法、及びプログラム
US12013945B1 (en) Fraudulent overlay detection in electronic documents
Lu et al. Intelligent document‐filling system on mobile devices by document classification and electronization
Hong et al. Information Extraction and Analysis on Certificates and Medical Receipts
Kempf et al. KIETA: Key-insight extraction from scientific tables
US20230274011A1 (en) Automated fraudulent document detection
US20200118122A1 (en) Techniques for completing missing and obscured transaction data items

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant