CN109145819A

CN109145819A - 基于ocr和可信结构化数据的信息鉴别方法

Info

Publication number: CN109145819A
Application number: CN201810958615.3A
Authority: CN
Inventors: 王佩光; 杨小蕾; 罗奕; 朱友卫; 林雄建; 肖郑海; 陈龙; 潘盛裕; 孟浩
Original assignee: State Grid Corp of China SGCC; State Grid Information and Telecommunication Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Information and Telecommunication Co Ltd
Priority date: 2018-08-22
Filing date: 2018-08-22
Publication date: 2019-01-04
Anticipated expiration: 2038-08-22
Also published as: CN109145819B

Abstract

本发明涉及一种一种基于OCR和可信结构化数据库的信息鉴别方法，包括：步骤S100，对信息载体(纸)的一个或多个影像进行OCR处理，获得信息载体的主索引内容CI、第一内容向量A＝(a₁,a₂,...,a_m)和第二内容向量B＝(b₁,b₂,...,b_n)，其中m和n分别为第一、二内容向量中元素的数量；步骤S200，在可信结构化数据库中使用主索引内容CI进行检索，并将检索获得结果记录中提取第一可信内容向量P＝(p₁,p₂,...,p_m)和第二可信内容向量Q＝(q₁,q₂,...,q_n)；步骤S300，如果A＝P，那么执行步骤S400；如果A≠P，那么向用户提示所述影像中呈现的内容为虚假内容；步骤S400，计算B和Q的相似度其中，bq_i为b_i和q_i的相似度，如果S_BQ≥D，那么判断所述影像中呈现的内容为真实内容；否则，向用户提示影像中呈现的内容为虚假内容。

Description

基于OCR和可信结构化数据的信息鉴别方法

技术领域

本发明涉及信息鉴别领域，尤其涉及一种基于OCR和可信结构化数据的信息鉴别方法。

背景技术

目前的很多情况下，需要对用户提供的纸件承载的信息中的内容进行鉴真，例如用户提供的身份证复印件、企业营业执照中的是否被篡改，以及用户提供的纸质招标文件中的企业资质信用是否准确、真实等。现有技术中，对于纸件承载的信息的鉴别主要通过人工比对完成，自动化程度较低、鉴别的效率也较低。OCR技术的发展为解决上述问题提供了契机。

发明内容

为解决上述技术问题，本发明涉及一种基于OCR和可信结构化数据库的信息鉴别方法，包括：步骤S100，对信息载体(纸)的一个或多个影像进行OCR处理，获得信息载体的主索引内容CI、第一内容向量A＝(a₁,a₂,...,a_m)和第二内容向量B＝(b₁,b₂,...,b_n)，其中m和n分别为第一、二内容向量中元素的数量；步骤S200，在可信结构化数据库中使用主索引内容CI进行检索，并将检索获得结果记录中提取第一可信内容向量P＝(p₁,p₂,...,p_m)和第二可信内容向量Q＝(q₁,q₂,...,q_n)；步骤S300，如果A＝P，那么执行步骤S400；如果A≠P，那么向用户提示所述影像中呈现的内容为虚假内容；步骤S400，计算B和Q的相似度其中，bq_i为b_i和q_i的相似度，如果S_BQ≥D，那么判断所述影像中呈现的内容为真实内容；否则，向用户提示影像中呈现的内容为虚假内容。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，将对本发明作进一步地详细描述。这种描述是通过示例而非限制的方式介绍了与本发明的原理相一致的具体实施方式，这些实施方式的描述是足够详细的，以使得本领域技术人员能够实践本发明，在不脱离本发明的范围和精神的情况下可以使用其他实施方式并且可以改变和/或替换各要素的结构。因此，不应当从限制性意义上来理解以下的详细描述。

根据本发明，提供了一种基于OCR和可信结构化数据库的信息鉴别方法，包括：

步骤S100，对信息载体的一个或多个影像进行OCR处理，获得信息载体的主索引内容CI、第一内容向量A＝(a₁,a₂,...,a_m)和第二内容向量B＝(b₁,b₂,...,b_n)，其中m和n分别为第一、二内容向量中元素的数量。

根据本发明，信息载体用于承载信息，信息通常为格式化信息或者结构化信息，载体物理实现为印刷材料，例如各种型号的纸张。进一步的，本发明中的格式化或结构化的信息即能够根据载体的区域位置、区域标识等进行大概率区分的信息，例如营业执照信息、身份证信息、名片信息等。根据本发明，影像一般实现为信息载体的复印件、影印件、扫描件、拍摄的照片、拍摄视频的截图等形式。对于不同的信息载体，影像可能具有一个或多个，例如对于营业执照，影像为一个；对于身份证，影像为两个(正反面)；对于名片，影像可能为一个，也可能为两个；对于包含营业执照、纳税证明、开户证明、法人代表身份证等多种信息的标书，影像一般为多个。

根据本发明，对影像进行OCR处理，能够获得结构化信息，例如一条或多条记录信息。具体获得手段并非本发明意图保护的重点，本发明支持采用现有技术中的手段来获得结构化信息，这些手段例如但不限于“蒙恬科技”公司的产品“名片王”中的使用的技术，以及“梦婷科技”公司在CN103679117B号专利中公开的技术。

根据本发明，例如对标书中的营业执照副本扫描件(或者投标人提供的格式化法人信息)和法人代表身份证扫描件进行OCR处理后，能够获得以下结构化内容：

来源于营业执照副本的：

“组织机构代码：XXXXXX；

名称：XXXX有限责任公司；

法定代表人：王XX；

注册资本：XXXX万元；

成立日期：2000年XX月XX日

经营范围：XXXX，XXXX，XXXX……

……”

来源于身份证的：

“法定代表人：王XX；

法定代表人身份证号：XXXXXX19700101XXXX；

……”

根据本发明，将上述结构化内容分为三种：主索引内容、第一内容和第二内容。其中主索引内容CI只有一项，在上述标书示例中可以选择“组织结构代码”。第一内容为必须全部正确的内容，在上述标书示例中，例如可以选择“法定代表人”、“法定代表人身份证号”等，即第一内容向量A中包括法定代表人a1和法定代表人身份证号a2。第二内容为可以大部分正确的内容(即允许部分瑕疵)，在上述标书示例中，例如可以选择“名称”、“经营范围”等，即第二内容向量B中包括名称b1和经营范围b2。显然，本领域技术人员理解，标书示例仅仅是为了清晰阐述本发明的技术方案而列举的一个例子，其不能代表本发明只能够处理标书、营业执照或身份证等信息载体。事实上，只要能够通过OCR处理获得结构化信息的载体，均落入本发明的保护范围。

步骤S200，在可信结构化数据库中使用主索引内容CI进行检索，并将检索获得结果记录中提取第一可信内容向量P＝(p₁,p₂,...,p_m)和第二可信内容向量Q＝(q₁,q₂,...,q_n)。其中，P的内容与A的内容相对应，Q的内容与B的内容相对应。

根据本发明，可信结构化数据库中存储有可信数据，一般为来源于具有公信力的机构所发布的数据，例如工商、税务、海关、质检、公检法等发布的数据。以前述标书为例，可信结构化数据库可以包括企业工商登记信息数据，例如“启信宝”、“天眼查”等产品所使用的可信数据库。显然，本领域技术人员理解，“启信宝”、“天眼查”示例仅仅是为了清晰阐述本发明的技术方案而列举的一个例子，其不能代表本发明中的可信结构化数据只能是工商登记数据。事实上，只要是对于用户而言可信的数据库，均可称之为可信数据库，也均落入本发明的保护范围。

仍以前述标书为例进行说明，在使用主索引内容CI(例如组织机构代码)在可信数据库中进行检索，能够获得对应组织机构代码的“法定代表人”、“法定代表人身份证号”、“名称”、“经营范围”。其中，“法定代表人”、“法定代表人身份证号”作为第一可信内容向量P＝(p₁,p₂,...,p_m)中的p1和p2；“名称”、“经营范围”作为第二可信内容向量Q＝(q₁,q₂,...,q_n)中的q1和q2。

步骤S300，如果A＝P，那么执行步骤S400，继续进行判断；如果A≠P，说明OCR出现了错误或者标书中的材料不可信，不管哪种情况，均应当向用户提示影像中呈现的内容为虚假内容，以供用户分辨。

进一步的，步骤S300中，A＝P的判断具体为：如果内容向量A和P的每组对应元素均相同，即a_i＝p_i，i的取值为1…m，那么A＝P，即前述例子中即“法定代表人”、“法定代表人身份证号”相同；如果内容向量A和P的存在任意一组对应元素不相同，那么A≠P，前述例子中即“法定代表人”或者“法定代表人身份证号”不相同。

步骤S400，计算第二内容向量B和第二可信内容向量Q的相似度其中，bq_i为b_i和q_i的相似度，如果S_BQ≥D(D为预设阈值，D的取值范围为0…1，优选的D的取值大于0.8)，那么判断影像中呈现的内容为真实内容；否则，向用户提示影像中呈现的内容为虚假内容。根据本发明，第二内容向量B和第二可信内容向量Q中的元素均为文本类型，与第一内容不同，第二内容允许有一定的冗余度，从而兼容第二内容向量B中因为录入或OCR过程中出现的瑕疵。

具体的，步骤S400还包括：

步骤S410，如果b_i＝q_i，那么bq_i＝1；否则执行步骤S420。根据本发明，由于b_i＝q_i是概率非常大的情况，因此，步骤S410和S420的执行顺序不能颠倒，即要求先执行S410，后执行S420，从而提升运行效率较高的步骤S410的执行次数，减少执行效率较低的步骤S420及后续步骤的执行次数。

步骤S420，使用标准词语料库中的标准词对文本b_i和q_i进行分词，分别形成分词后的词语向量Xbi＝(x₁,x₂,...,x_r)和Yqi＝(y₁,y₂,...,y_s)，其中r和s分别为分词后的词语向量中词语的数量。

根据本发明，标准词语料库可以为一个，也可以为多个(即对不同的内容分别设置标准词语料库)。每个标准词语料库中的标准词数量均远小于一般词典中的词语数量。标准词为第二内容中经常出现的常用术语。仍以前述标书为例，“名称”内容相关的标准词可以包括但不限于{“有限”、“责任”、“公司”、“科技”、“商贸”、“研究”、“器材”、“电力”、“水泥”、“玻璃”、“北京”、“福建”、“国网”、“国家电网”……}等。标准词的存在能够快速并准确的对文本b_i和q_i进行分词，例如q_i为“国网信通亿力科技有限责任公司”，b_i为“国网信通亿力有限公司”，通过分词成为Xbi＝(国网、信通亿力、有限、公司)、Yqi＝(国网、信通亿力、科技、有限、责任、公司)。

步骤S430，如果Xbi和Yqi中相同的k个词语均为语料库中的标准词，那么bq_i＝0；否则执行步骤S440。根据本发明，前述例子中，Xbi和Yqi中相同的4个词语为(国网、信通亿力、有限、公司)，其中包括了非标准词“信通亿力”，因此继续执行步骤S440。假如Xbi中不包括“信通亿力”，即Xbi和Yqi中相同的词语为(国网、有限、公司)，显然说明B中的公司名称与Q中的公司名称完全不一致，因此将bq_i＝0。

在本发明的另一个实施例中，当bq_i＝0，不再继续进行后续步骤，直接向用户提示影像中呈现的内容为虚假内容，以供用户分辨。

其中，标准词语料库中包括标准词及标准词权重w₀。进一步的，标准词为第二内容中经常出现的术语，因此其权重的设置采用较小的权重，例如w₀小于或等于0.05，例如0.03。

步骤S440，对于Xbi和Yqi中的与标准词相同的词语，将其权重设置为对应的标准词权重w₀。例如，前述例子中，将Xbi和Yqi中的与标准词相同的词语，即“国网”、“有限”、“公司”的权重均设置为w₀(例如0.05)。

步骤S450，对于Xbi中的与标准词不相同的词语，其权重设置为对于Yqi中的与标准词不相同的词语，其权重设置为其中，r₁和s₁分别为Xbi和Yqi中标准词的数量。例如，前述例子中，将Xbi中的“信通亿力”设置为0.85，将Yqi中的“信通亿力”设置为0.75。

步骤S460，计算其中k为Xbi＝(x₁,x₂,...,x_r)和Yqi＝(y₁,y₂,...,y_s)中相同词语数量，wb_j为Xbi内k个相同的词语中的第j个权重，Yqi为文本q_i内k个相同的词语中的第j个权重。

此外，根据公开的本发明的说明书，本发明的其他实现对于本领域的技术人员是明显的。实施方式和/或实施方式的各个方面可以单独或者以任何组合用于本发明的系统和方法中。说明书和其中的示例应该是仅仅看作示例性，本发明的实际范围和精神由所附权利要求书表示。

Claims

1.一种基于OCR和可信结构化数据库的信息鉴别方法，其特征在于，包括：

步骤S100，对信息载体的一个或多个影像(电子复印件或纸件复印件的扫描件、照片等)进行OCR处理，获得信息载体的主索引内容CI、第一内容向量A＝(a₁,a₂,...,a_m)和第二内容向量B＝(b₁,b₂,...,b_n)，其中m和n分别为第一、二内容向量中元素的数量；

步骤S200，在可信结构化数据库中使用主索引内容CI进行检索，并将检索获得结果记录中提取第一可信内容向量P＝(p₁,p₂,...,p_m)和第二可信内容向量Q＝(q₁,q₂,...,q_n)；

步骤S300，如果A＝P，那么执行步骤S400；如果A≠P，那么向用户提示所述影像中呈现的内容为虚假内容；

步骤S400，计算第二内容向量B和第二可信内容向量Q的相似度其中，bq_i为b_i和q_i的相似度，如果S_BQ≥D(D为预设阈值)，那么判断所述影像中呈现的内容为真实内容；否则，向用户提示影像中呈现的内容为虚假内容；

所述第二内容向量B和所述第二可信内容向量Q中的元素均为文本类型。

2.根据权利要求1所述的信息鉴别方法，其特征在于，所述步骤S300中，A＝P的判断具体为：

如果内容向量A和P的每组对应元素均相同，即a_i＝p_i，i的取值为1…m，那么A＝P；

如果内容向量A和P的存在任意一组对应元素不相同，那么A≠P。

3.根据权利要求2所述的信息鉴别方法，其特征在于，所述步骤S400还包括：

步骤S410，如果b_i＝q_i，那么bq_i＝1；否则执行步骤S420。

4.根据权利要求3所述的信息鉴别方法，其特征在于，在步骤S410之后还包括：

步骤S420，使用标准词语料库中的标准词对文本b_i和q_i进行分词，分别形成分词后的词语向量Xbi＝(x₁,x₂,...,x_r)和Yqi＝(y₁,y₂,...,y_s)，其中r和s分别为分词后的词语向量中词语的数量；

步骤S430，如果Xbi和Yqi中相同的k个词语均为所述语料库中的标准词，那么bq_i＝0；否则执行步骤S440。

5.根据权利要求4所述的信息鉴别方法，其特征在于，所述标准词语料库中包括标准词及标准词权重w₀，；在步骤S430之后还包括：

步骤S440，对于Xbi和Yqi中的与标准词相同的词语，将其权重设置为对应的标准词权重w₀；

步骤S450，对于Xbi中的与标准词不相同的词语，其权重设置为对于Yqi中的与标准词不相同的词语，其权重设置为其中，r₁和s₁分别为Xbi和Yqi中标准词的数量。

6.根据权利要求5所述的信息鉴别方法，其特征在于，所述标准词权重w₀小于或等于0.05，例如0.03。

7.根据权利要求5所述的信息鉴别方法，其特征在于，所述步骤S400还包括：