CN112528882A - 基于ocr识别房产证信息确定方法、装置、设备及介质 - Google Patents
基于ocr识别房产证信息确定方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN112528882A CN112528882A CN202011482625.8A CN202011482625A CN112528882A CN 112528882 A CN112528882 A CN 112528882A CN 202011482625 A CN202011482625 A CN 202011482625A CN 112528882 A CN112528882 A CN 112528882A
- Authority
- CN
- China
- Prior art keywords
- word
- sample
- target
- data
- ocr
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012015 optical character recognition Methods 0.000 title claims abstract description 218
- 238000000034 method Methods 0.000 title claims abstract description 51
- 230000002159 abnormal effect Effects 0.000 claims abstract description 194
- 230000011218 segmentation Effects 0.000 claims abstract description 29
- 238000002372 labelling Methods 0.000 claims description 84
- 238000004590 computer program Methods 0.000 claims description 12
- 238000007781 pre-processing Methods 0.000 claims description 10
- 238000012937 correction Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 6
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/98—Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Quality & Reliability (AREA)
- Character Discrimination (AREA)
Abstract
本申请涉及人工智能技术领域,揭示了一种基于OCR识别房产证信息确定方法、装置、设备及介质,其中方法包括:采用OCR技术对待识别的证件图像进行文本识别得到待纠正的文本数据;根据待纠正的文本数据得到预处理后的文本数据;对预处理后的文本数据进行分词得到待纠错词语集;分别将待纠错词语集中每个待纠错词语在知识库词典中进行未成功匹配词语查找得到未成功匹配词语集;分别将未成功匹配词语集中每个未成功匹配词语在异常关系对应数据集中进行匹配得到目标异常关系对应数据集;采用目标异常关系对应数据集和未成功匹配词语集对预处理后的文本数据进行错误词替换得到目标房产证对应的目标文本数据。提高了识别房产证文本数据的准确性。
Description
技术领域
本申请涉及到人工智能技术领域,特别是涉及到一种基于OCR识别房产证信息确定方法、装置、设备及介质。
背景技术
房产证因地区、时间等存在差异,导致存在多种版本。目前,对图像进行文本识别一般采用OCR技术,但是OCR技术对多种版本的房产证的图像进行文本识别的识别准确度低,引起客户投诉较多。
发明内容
本申请的主要目的为提供一种基于OCR识别房产证信息确定方法、装置、设备及介质,旨在解决现有技术的OCR技术对房产证的识别准确度低,引起客户投诉较多的技术问题。
为了实现上述发明目的,本申请提出一种基于OCR识别房产证信息确定方法,所述方法包括:
获取目标房产证的待识别的证件图像,采用OCR技术对所述待识别的证件图像进行文本识别,得到待纠正的文本数据;
对所述待纠正的文本数据进行预处理,得到预处理后的文本数据;
对所述预处理后的文本数据进行分词,得到待纠错词语集;
获取知识库词典,分别将所述待纠错词语集中每个待纠错词语在所述知识库词典中进行未成功匹配词语查找,得到未成功匹配词语集;
获取异常关系对应数据集,分别将所述未成功匹配词语集中每个未成功匹配词语在所述异常关系对应数据集中进行匹配,得到目标异常关系对应数据集;
采用所述目标异常关系对应数据集和所述未成功匹配词语集对所述预处理后的文本数据进行错误词替换,得到所述目标房产证对应的目标文本数据。
进一步的,所述对所述预处理后的文本数据进行分词,得到待纠错词语集的步骤,包括:
分别对所述预处理后的文本数据中每项文本数据进行分词,得到多个待纠错词语和所述多个待纠错词语各自对应的位置数据;
根据所述多个待纠错词语和所述多个待纠错词语各自对应的所述位置数据,确定所述待纠错词语集。
进一步的,所述分别将所述待纠错词语集中每个待纠错词语在所述知识库词典中进行未成功匹配词语查找,得到未成功匹配词语集的步骤,包括:
分别将所述待纠错词语集中每个所述待纠错词语在所述知识库词典中进行匹配,得到多个知识库匹配结果;
当所述知识库匹配结果为失败时,根据失败的所述知识库匹配结果,确定所述未成功匹配词语集。
进一步的,所述获取异常关系对应数据集的步骤之前,还包括:
获取多个房产证样本图像,所述房产证样本图像携带有图像标识;
采用所述OCR技术分别对每个所述房产证样本图像进行文本识别,得到所述多个房产证样本图像各自对应的OCR识别样本数据;
将所述多个房产证样本图像和各自对应的OCR识别样本数据发送给标注端进行错误纠正;
获取所述标注端发送的所述多个房产证样本图像各自对应的标注样本数据;
根据所述多个房产证样本图像各自对应的所述图像标识、OCR识别样本数据及所述标注样本数据进行分词和异常关系对应判断,得到所述异常关系对应数据集;
将所述异常关系对应数据集存储在数据库中。
进一步的,所述根据所述多个房产证样本图像各自对应的所述图像标识、OCR识别样本数据及所述标注样本数据进行分词和异常关系对应判断,得到所述异常关系对应数据集的步骤,包括:
分别对所述多个房产证样本图像对应的每个所述OCR识别样本数据的每项文本数据进行分词,得到所述多个房产证样本图像各自对应的OCR识别样本词语集;
分别对所述多个房产证样本图像对应的每个所述标注样本数据的每项文本数据进行分词,得到所述多个房产证样本图像各自对应的标注样本词语集;
基于所述图像标识对所述多个房产证样本图像各自对应的所述OCR识别样本词语集和所述标注样本词语集进行异常关系查找,得到所述多个房产证样本图像对应的待统计异常关系数据集,所述待统计异常关系数据集包括:所述OCR识别样本词语、所述标注样本词语;
分别对所述待统计异常关系数据集进行每个所述OCR识别样本词语各自对应的每个所述标注样本词语的概率统计,得到所述待统计异常关系数据集的所有所述OCR识别样本词语各自对应的标注样本词语概率值集;
分别从所述待统计异常关系数据集的每个所述OCR识别样本词语对应的所述标注样本词语概率值集中获取最大的标注样本词语概率值,得到所述待统计异常关系数据集的所有所述OCR识别样本词语各自对应的目标标注样本词语概率值;
分别根据所述待统计异常关系数据集的每个所述OCR识别样本词语对应的所述目标标注样本词语概率值,确定所述待统计异常关系数据集的所有所述OCR识别样本词语各自对应的目标标注样本词语;
根据所述待统计异常关系数据集的所有所述OCR识别样本词语和各自对应的所述目标标注样本词语,得到所述异常关系对应数据集。
进一步的,所述分别对所述待统计异常关系数据集进行每个所述OCR识别样本词语各自对应的每个所述标注样本词语的概率统计,得到所述待统计异常关系数据集的所有所述OCR识别样本词语各自对应的标注样本词语概率值集的步骤,包括:
从所述待统计异常关系数据集中获取出所有所述OCR识别样本词语,得到待去重的OCR识别样本词语集;
对所述待去重的OCR识别样本词语集中的所述OCR识别样本词语进行去重处理,得到多个目标OCR识别样本词语;
分别计算每个所述目标OCR识别样本词语在所述待统计异常关系数据集中出现的次数,得到多个所述目标OCR识别样本词语各自对应的对应关系总数;
分别计算每个所述目标OCR识别样本词语在所述待统计异常关系数据集中对应的各个所述标注样本词语各自的出现次数,得到多个所述目标OCR识别样本词语各自对应的各个所述标注样本词语各自对应的目标出现次数;
将同一所述目标OCR识别样本词语对应的各个所述标注样本词语各自对应的所述目标出现次数和所述对应关系总数进行相除,得到所述待统计异常关系数据集的所有所述OCR识别样本词语各自对应的所述标注样本词语概率值集。
进一步的,所述采用所述目标异常关系对应数据集和所述未成功匹配词语集对所述预处理后的文本数据进行错误词替换,得到所述目标房产证对应的目标文本数据的步骤,包括:
根据所述目标异常关系对应数据集和所述未成功匹配词语集,确定错误词替换数据集,所述错误词替换数据集包括:目标位置数据、正确词;
根据所述错误词替换数据集的所述目标位置数据和所述正确词对所述预处理后的文本数据进行错误词替换,得到所述目标房产证对应的所述目标文本数据。
本申请还提出了一种基于OCR识别房产证信息确定装置,所述装置包括:
OCR文本识别模块,用于获取目标房产证的待识别的证件图像,采用OCR技术对所述待识别的证件图像进行文本识别,得到待纠正的文本数据;
预处理模块,用于对所述待纠正的文本数据进行预处理,得到预处理后的文本数据;
分词模块,用于对所述预处理后的文本数据进行分词,得到待纠错词语集;
未成功匹配词语查找模块,用于获取知识库词典,分别将所述待纠错词语集中每个待纠错词语在所述知识库词典中进行未成功匹配词语查找,得到未成功匹配词语集;
异常关系匹配模块,用于获取异常关系对应数据集,分别将所述未成功匹配词语集中每个未成功匹配词语在所述异常关系对应数据集中进行匹配,得到目标异常关系对应数据集;
错误词替换模块,用于采用所述目标异常关系对应数据集和所述未成功匹配词语集对所述预处理后的文本数据进行错误词替换,得到所述目标房产证对应的目标文本数据。
本申请还提出了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请还提出了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请的基于OCR识别房产证信息确定方法、装置、设备及介质,通过采用OCR技术对待识别的证件图像进行文本识别,得到待纠正的文本数据,对待纠正的文本数据进行预处理,得到预处理后的文本数据,通过对预处理后的文本数据进行分词,得到待纠错词语集,分别将待纠错词语集中每个待纠错词语在知识库词典中进行未成功匹配词语查找,得到未成功匹配词语集,分别将未成功匹配词语集中每个未成功匹配词语在异常关系对应数据集中进行匹配,得到目标异常关系对应数据集,采用目标异常关系对应数据集和未成功匹配词语集对预处理后的文本数据进行错误词替换,得到目标房产证对应的目标文本数据,从而实现了对OCR的识别结果自动进行纠正,提高了识别房产证文本数据的准确性,提高了用户的满意度。
附图说明
图1为本申请一实施例的基于OCR识别房产证信息确定方法的流程示意图;
图2为本申请一实施例的基于OCR识别房产证信息确定装置的结构示意框图;
图3为本申请一实施例的计算机设备的结构示意框图。
本申请目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
为了解决现有技术的OCR技术对房产证的识别准确度低,引起客户投诉较多的技术问题,本申请提出了一种基于OCR识别房产证信息确定方法,所述方法应用于人工智能技术领域。所述基于OCR识别房产证信息确定方法通过先采用OCR技术对房产证的图像进行识别,然后采用知识库词典和异常关系对应数据集进行纠正,从而实现了对OCR的识别结果自动进行纠正,提高了识别房产证文本数据的准确性,提高了用户的满意度。
参照图1,本申请实施例中提供一种基于OCR识别房产证信息确定方法,所述方法包括:
S1:获取目标房产证的待识别的证件图像,采用OCR技术对所述待识别的证件图像进行文本识别,得到待纠正的文本数据;
S2:对所述待纠正的文本数据进行预处理,得到预处理后的文本数据;
S3:对所述预处理后的文本数据进行分词,得到待纠错词语集;
S4:获取知识库词典,分别将所述待纠错词语集中每个待纠错词语在所述知识库词典中进行未成功匹配词语查找,得到未成功匹配词语集;
S5:获取异常关系对应数据集,分别将所述未成功匹配词语集中每个未成功匹配词语在所述异常关系对应数据集中进行匹配,得到目标异常关系对应数据集;
S6:采用所述目标异常关系对应数据集和所述未成功匹配词语集对所述预处理后的文本数据进行错误词替换,得到所述目标房产证对应的目标文本数据。
本实施例通过对预处理后的文本数据进行分词,得到待纠错词语集,分别将待纠错词语集中每个待纠错词语在知识库词典中进行未成功匹配词语查找,得到未成功匹配词语集,分别将未成功匹配词语集中每个未成功匹配词语在异常关系对应数据集中进行匹配,得到目标异常关系对应数据集,采用目标异常关系对应数据集和未成功匹配词语集对预处理后的文本数据进行错误词替换,得到目标房产证对应的目标文本数据,从而实现了对OCR的识别结果自动进行纠正,提高了识别房产证文本数据的准确性,提高了用户的满意度。
对于S1,可以获取用户输入的目标房产证的待识别的证件图像,也可以获取电子设备(比如扫描仪或数码相机)直接扫描或拍摄目标房产证得到的待识别的证件图像,还可以是第三方应用系统发送的目标房产证的待识别的证件图像。
待识别的证件图像,是需要进行文字识别的目标房产证的数字图像。
采用OCR技术对所述待识别的证件图像中的每个文字区域进行文本识别,得到至少一项文本数据,其中,每个文字区域对应一项文本数据。
OCR技术,是指光学字符识别技术。
目标房产证,可以是任意房产类型、任意年代、任意地区的房产证。
待纠正的文本数据,是采用OCR技术识别待识别的证件图像得到的文本数据。
对于S2,将所述待纠正的文本数据输入特殊字符处理模型进行特殊字符识别及删除处理,将删除特殊字符后的所述待纠正的文本数据作为预处理后的文本数据。
特殊字符处理模型是基于神经网络训练得到的模型。
特殊字符,是指房产证上的文本信息不可能出现的字符。特殊字符是指字母、数字、中文、横杠、空格以外的字符。
对于S3,分别对所述预处理后的文本数据中每项文本数据进行分词,将分词得到的词语作为待纠错词语,将所有待纠错词语作为待纠错词语集。也就是说,每项文本数据独立进行分词。
对于S4,可以从数据库中获取知识库词典。从所述待纠错词语集中提出出一个待纠错词语作为目标待纠错词语;将待纠错词语在所述知识库词典中进行查找,当在所述知识库词典中查找到词语时确定目标待纠错词语为成功匹配词语,否则确定目标待纠错词语为未成功匹配词语;重复执行所述从所述待纠错词语集中提出出一个待纠错词语作为目标待纠错词语的步骤,直至确定所述待纠错词语集中所有待纠错词语为未成功匹配词语或成功匹配词语;将所有所述未成功匹配词语作为未成功匹配词语集。
知识库词典包括但不限于:房产类型子词典、行政区域子词典、楼盘子词典、姓氏子词典。知识库词典基于房产证的常用信息构建,从而使知识库词典适用于房产证领域的错误纠正,有利于提高房产证信息纠正的准确性。
房产类型子词典包括:房产类型名称。房产类型名称包括但不限于:自有、商品房、住宅、公寓。
行政区域子词典包括但不限于:省名、市名、区名、街道名。
楼盘子词典包括但不限于:楼盘名称。
姓氏子词典包括但不限于:姓氏。
未成功匹配词语集包括:未成功匹配词语、位置数据,每个未成功匹配词语对应一个位置数据。
未成功匹配词语集中的多个未成功匹配词语之间可以相同,也可以不同,在此不做具体限定。
对于S5,可以从数据库中获取异常关系对应数据集;分别将所述未成功匹配词语集中的每个未成功匹配词语在所述异常关系对应数据集中的异常关系对应数据的错误词进行匹配,将在所述异常关系对应数据集中的异常关系对应数据的错误词中匹配到的错误词作为目标错误词;将所有目标错误词各自对应的异常关系对应数据作为目标异常关系对应数据集。
异常关系对应数据集包括:异常关系对应数据。异常关系对应数据包括:错误词、正确词,每个错误词对应一个正确词。
对于S6,采用所述目标异常关系对应数据集对所述未成功匹配词语集在所述预处理后的文本数据的对应位置的词语进行替换处理,将替换后的所述预处理后的文本数据作为所述目标房产证对应的目标文本数据。
在一个实施例中,上述对所述预处理后的文本数据进行分词,得到待纠错词语集的步骤,包括:
S31:分别对所述预处理后的文本数据中每项文本数据进行分词,得到多个待纠错词语和所述多个待纠错词语各自对应的位置数据;
S32:根据所述多个待纠错词语和所述多个待纠错词语各自对应的所述位置数据,确定所述待纠错词语集。
本实施例实现了对预处理后的文本数据进行分词,为后续采用知识库词典和异常关系对应数据集进行纠正提供了基础。
对于S31,从所述预处理后的文本数据中获取出一项文本数据,得到目标文本数据项;对所述目标文本数据项进行分词,将分词得到的词语作为待纠错词语,将待纠错词语在所述预处理后的文本数据中的位置数据作为待纠错词语对应的位置数据;重复执行所述从所述预处理后的文本数据中获取出一项文本数据,得到目标文本数据项的步骤,直至确定多个待纠错词语和所述多个待纠错词语各自对应的位置数据。
位置数据,是指待纠错词语在所述预处理后的文本数据中的位置数据。
对于S32,将所述多个待纠错词语和所述多个待纠错词语各自对应的所述位置数据作为确定所述待纠错词语集。
也就是说,所述待纠错词语集包括:待纠错词语、位置数据,每个待纠错词语对应一个位置数据。
在一个实施例中,上述分别将所述待纠错词语集中每个待纠错词语在所述知识库词典中进行未成功匹配词语查找,得到未成功匹配词语集的步骤,包括:
S41:分别将所述待纠错词语集中每个所述待纠错词语在所述知识库词典中进行匹配,得到多个知识库匹配结果;
S42:当所述知识库匹配结果为失败时,根据失败的所述知识库匹配结果,确定所述未成功匹配词语集。
本实施例实现了根据所述知识库词典进行正确的待纠错词语剔除,减少了采用异常关系对应数据集进行纠正的数据量,也避免了被错误纠正。
对于S41,从所述待纠错词语集获取一个待纠错词语作为目标待纠错词语;将目标待纠错词语在所述知识库词典中进行匹配,当在所述知识库词典中找到词语时,确定目标待纠错词语对应的知识库匹配结果为成功,否则确定目标待纠错词语对应的知识库匹配结果为失败;重复执行所述从所述待纠错词语集获取一个待纠错词语作为目标待纠错词语的步骤,直至确定所述待纠错词语集中所有所述待纠错词语各自对应的知识库匹配结果时。
对于S42,当所述知识库匹配结果为失败时,意味着待纠错词语没有在知识库匹配结果中,此时可以将待纠错词语作为未成功匹配词语;将所有未成功匹配词语作为所述未成功匹配词语集。
在一个实施例中,上述获取异常关系对应数据集的步骤之前,还包括:
S51:获取多个房产证样本图像,所述房产证样本图像携带有图像标识;
S52:采用所述OCR技术分别对每个所述房产证样本图像进行文本识别,得到所述多个房产证样本图像各自对应的OCR识别样本数据;
S53:将所述多个房产证样本图像和各自对应的OCR识别样本数据发送给标注端进行错误纠正;
S54:获取所述标注端发送的所述多个房产证样本图像各自对应的标注样本数据;
S55:根据所述多个房产证样本图像各自对应的所述图像标识、OCR识别样本数据及所述标注样本数据进行分词和异常关系对应判断,得到所述异常关系对应数据集;
S56:将所述异常关系对应数据集存储在数据库中。
本实施例根据人工标注和OCR识别样本数据建立异常关系对应数据集,提高了对应关系的准确性,为后续采用异常关系对应数据集进行纠正提供了基础;而且基于房产证样本图像确定异常关系对应数据集,从而使异常关系对应数据集适用于房产证领域的错误纠正,有利于提高房产证信息纠正的准确性。
对于S51,可以获取用户输入的多个房产证样本图像,也可以是第三方应用系统发送的多个房产证样本图像。
房产证样本图像,是指房产证的数字图像。
图像标识,可以是图像名称、图像ID等唯一标识一个房产证样本图像的标识。
对于S52,从多个房产证样本图像中获取一个房产证样本图像,得到目标房产证样本图像;采用所述OCR技术对目标房产证样本图像进行文本识别,将文本识别得到的文本数据作为目标房产证样本图像对应的OCR识别样本数据;重复所述从多个房产证样本图像中获取一个房产证样本图像,得到目标房产证样本图像的步骤,直至确定所述多个房产证样本图像各自对应的OCR识别样本数据。
对于S53,将所述多个房产证样本图像和所述多个房产证样本图像各自对应的OCR识别样本数据发送给标注端进行错误纠正;
对于S54,标注人员根据所述多个房产证样本图像和所述多个房产证样本图像各自对应的OCR识别样本数据进行错误纠正后通过标注端发送所述多个房产证样本图像各自对应的标注样本数据。
对于S55,对所述多个房产证样本图像各自对应的OCR识别样本数据及所述标注样本数据进行分词,采用所述图像标识根据分词结果进行异常关系对应判断,得到所述异常关系对应数据集。
在一个实施例中,上述根据所述多个房产证样本图像各自对应的所述图像标识、OCR识别样本数据及所述标注样本数据进行分词和异常关系对应判断,得到所述异常关系对应数据集的步骤,包括:
S551:分别对所述多个房产证样本图像对应的每个所述OCR识别样本数据的每项文本数据进行分词,得到所述多个房产证样本图像各自对应的OCR识别样本词语集;
S552:分别对所述多个房产证样本图像对应的每个所述标注样本数据的每项文本数据进行分词,得到所述多个房产证样本图像各自对应的标注样本词语集;
S553:基于所述图像标识对所述多个房产证样本图像各自对应的所述OCR识别样本词语集和所述标注样本词语集进行异常关系查找,得到所述多个房产证样本图像对应的待统计异常关系数据集,所述待统计异常关系数据集包括:所述OCR识别样本词语、所述标注样本词语;
S554:分别对所述待统计异常关系数据集进行每个所述OCR识别样本词语各自对应的每个所述标注样本词语的概率统计,得到所述待统计异常关系数据集的所有所述OCR识别样本词语各自对应的标注样本词语概率值集;
S555:分别从所述待统计异常关系数据集的每个所述OCR识别样本词语对应的所述标注样本词语概率值集中获取最大的标注样本词语概率值,得到所述待统计异常关系数据集的所有所述OCR识别样本词语各自对应的目标标注样本词语概率值;
S556:分别根据所述待统计异常关系数据集的每个所述OCR识别样本词语对应的所述目标标注样本词语概率值,确定所述待统计异常关系数据集的所有所述OCR识别样本词语各自对应的目标标注样本词语;
S557:根据所述待统计异常关系数据集的所有所述OCR识别样本词语和各自对应的所述目标标注样本词语,得到所述异常关系对应数据集。
本实施例实现了根据多个房产证样本图像各自对应的所述图像标识、OCR识别样本数据及所述标注样本数据进行分词和异常关系对应判断,为后续采用异常关系对应数据集进行纠正提供了基础。
对于S551,从所述多个房产证样本图像各自对应的OCR识别样本数据中获取出一个OCR识别样本数据,得到待分词的OCR识别样本数据;分别对所述待分词的OCR识别样本数据的每项文本数据项进行分词,将分词得到的词语作为所述待分词的OCR识别样本数据对应的房产证样本图像对应的OCR识别样本词语集;重复执行所述从所述多个房产证样本图像各自对应的OCR识别样本数据中获取出一个OCR识别样本数据,得到待分词的OCR识别样本数据的步骤,直至确定所述多个房产证样本图像各自对应的OCR识别样本词语集。
对于S552,从所述多个房产证样本图像各自对应的标注样本数据中获取出一个标注样本数据,得到待分词的标注样本数据;分别对所述待分词的标注样本数据的每项文本数据项进行分词,将分词得到的词语作为所述待分词的标注样本数据对应的房产证样本图像对应的标注样本词语集;重复执行所述从所述多个房产证样本图像各自对应的标注样本数据中获取出一个标注样本数据,得到待分词的标注样本数据的步骤,直至确定所述多个房产证样本图像各自对应的标注样本词语集。
对于S553,根据同一所述图像标识对应的所述OCR识别样本词语集和所述标注样本词语集进行异常关系查找,根据查找到的异常关系确定所述多个房产证样本图像对应的待统计异常关系数据集。
在所述待统计异常关系数据集,一个所述OCR识别样本词语与一个所述标注样本词语组成一个异常关系。
比如,所述图像标识T1的所述OCR识别样本词语集对应位置数据W1的OCR识别样本词语是:税有产权,所述图像标识T1的所述标注样本词语集对应位置数据W1的标注样本词语是:私有产权,税有产权与私有产权不同则确定所述图像标识T1对应的位置数据W1存在异常关系,将税有产权(也就是OCR识别样本词语)和私有产权(也就是标注样本词语)作为所述图像标识T1对应的房产证样本图像的待统计异常关系数据,在此举例不过具体限定。
对于S554,比如,所述OCR识别样本词语P1,在所述待统计异常关系数据集中对应有标注样本词语B1、B2、B3、B4,其中,P1-B1出现3次,P1-B2出现4次,P1-B3出现3次,P1-B4出现5次,P1的对应关系总数15次,P1-B1出现的概率是3除以15,P1-B2出现的概率是4除以15,P1-B3出现的概率是3除以15,P1-B4出现的概率是5除以15,将P1-B1出现的概率(也就是标注样本词语B1概率值)、P1-B2出现的概率(也就是标注样本词语B2概率值)、P1-B3出现的概率(也就是标注样本词语B3概率值)、P1-B4出现的概率(也就是标注样本词语B4概率值)作为所述OCR识别样本词语P1对应的标注样本词语概率值集,在此举例不做具体限定。
对于S555,从所述待统计异常关系数据集的所有所述OCR识别样本词语各自对应的标注样本词语概率值集中获取出一个所述OCR识别样本词语对应的标注样本词语概率值集,得到待分析的标注样本词语概率值集;从待分析的标注样本词语概率值集中找出最大的标注样本词语概率值,将找到的标注样本词语概率值作为待分析的标注样本词语概率值集对应的所述OCR识别样本词语对应的目标标注样本词语概率值;重复执行所述从所述待统计异常关系数据集的所有所述OCR识别样本词语各自对应的标注样本词语概率值集中获取出一个标注样本词语概率值集,得到待分析的标注样本词语概率值集的步骤,直至确定所述待统计异常关系数据集的所有所述OCR识别样本词语各自对应的目标标注样本词语概率值。
对于S556,从所述待统计异常关系数据集的所有所述OCR识别样本词语各自对应的目标标注样本词语概率值中获取出一个所述OCR识别样本词语对应的目标标注样本词语概率值作为待分析的目标标注样本词语概率值;将待分析的目标标注样本词语概率值对于的标注样本词语作为待分析的目标标注样本词语概率值对应的所述OCR识别样本词语对应的目标标注样本词语;重复执行所述从所述待统计异常关系数据集的所有所述OCR识别样本词语各自对应的目标标注样本词语概率值中获取出一个所述OCR识别样本词语对应的目标标注样本词语概率值作为待分析的目标标注样本词语概率值的步骤,直至确定所述待统计异常关系数据集的所有所述OCR识别样本词语各自对应的目标标注样本词语。
对于S557,将根据所述待统计异常关系数据集的所有所述OCR识别样本词语和所述待统计异常关系数据集的所有所述OCR识别样本词语各自对应的所述目标标注样本词语,得到所述异常关系对应数据集。
将所述待统计异常关系数据集的所有所述OCR识别样本词语作为述异常关系对应数据集的所述异常关系对应数据的错误词,将所述待统计异常关系数据集的所有所述OCR识别样本词语各自对应的所述目标标注样本词语作为述异常关系对应数据集的所述异常关系对应数据的正确词。
比如,所述待统计异常关系数据集的所述OCR识别样本词语P1对应的目标标注样本词语为B4,则将所述OCR识别样本词语P1作为异常关系对应数据集的异常关系对应数据的错误词,将目标标注样本词语为B4作为异常关系对应数据集的异常关系对应数据的正确词,在此举例不做具体限定。
在一个实施例中,上述分别对所述待统计异常关系数据集进行每个所述OCR识别样本词语各自对应的每个所述标注样本词语的概率统计,得到所述待统计异常关系数据集的所有所述OCR识别样本词语各自对应的标注样本词语概率值集的步骤,包括:
S5541:从所述待统计异常关系数据集中获取出所有所述OCR识别样本词语,得到待去重的OCR识别样本词语集;
S5542:对所述待去重的OCR识别样本词语集中的所述OCR识别样本词语进行去重处理,得到多个目标OCR识别样本词语;
S5543:分别计算每个所述目标OCR识别样本词语在所述待统计异常关系数据集中出现的次数,得到多个所述目标OCR识别样本词语各自对应的对应关系总数;
S5544:分别计算每个所述目标OCR识别样本词语在所述待统计异常关系数据集中对应的各个所述标注样本词语各自的出现次数,得到多个所述目标OCR识别样本词语各自对应的各个所述标注样本词语各自对应的目标出现次数;
S5545:将同一所述目标OCR识别样本词语对应的各个所述标注样本词语各自对应的所述目标出现次数和所述对应关系总数进行相除,得到所述待统计异常关系数据集的所有所述OCR识别样本词语各自对应的所述标注样本词语概率值集。
本实施例实现了对每个所述OCR识别样本词语各自对应的每个所述标注样本词语的概率统计,为确定所述OCR识别样本词语对应的目标标注样本词语提供了数据基础。
对于S5541,获取出所述待统计异常关系数据集中每个异常关系的OCR识别样本词语,将获取得到的所有OCR识别样本词语作为待去重的OCR识别样本词语集。
对于S5542,所述多个目标OCR识别样本词语中的目标OCR识别样本词语具有唯一性。
对于S5543,比如,所述目标OCR识别样本词语P1在所述待统计异常关系数据集中出现的次数中出现的次数为4,则所述目标OCR识别样本词语P1对应的对应关系总数为4,在此举例不做具体限定。
对于S5544,比如,所述目标OCR识别样本词语P1在所述待统计异常关系数据集中对应有B1、B2、B3、B4,其中,P1-B1出现3次,P1-B2出现4次,P1-B3出现3次,P1-B4出现5次,P1总共出现15次,所述目标OCR识别样本词语P1对应的B1的目标出现次数是3次,所述目标OCR识别样本词语P1对应的B2的目标出现次数是4次,所述目标OCR识别样本词语P1对应的B3的目标出现次数是3次,所述目标OCR识别样本词语P1对应的B4的目标出现次数是5次,在此举例不做具体限定。
对于S5545,比如,所述目标OCR识别样本词语P1在所述待统计异常关系数据集中对应有B1、B2、B3、B4,其中,P1-B1出现3次,P1-B2出现4次,P1-B3出现3次,P1-B4出现5次,P1的对应关系总数15次,所述目标OCR识别样本词语P1对应的B1的目标出现次数是3次,所述目标OCR识别样本词语P1对应的B2的目标出现次数是4次,所述目标OCR识别样本词语P1对应的B3的目标出现次数是3次,所述目标OCR识别样本词语P1对应的B4的目标出现次数是5次,将所述目标OCR识别样本词语P1对应的B1的目标出现次数是3次除以P1对应关系总数15次得到标注样本词语B1的标注样本词语概率值,将所述目标OCR识别样本词语P1对应的B2的目标出现次数是4次除以P1对应关系总数15次得到标注样本词语B2的标注样本词语概率值,将所述目标OCR识别样本词语P1对应的B3的目标出现次数是3次除以P1对应关系总数15次得到标注样本词语B3的标注样本词语概率值,将所述目标OCR识别样本词语P1对应的B4的目标出现次数是5次除以P1对应关系总数15次得到标注样本词语B4的标注样本词语概率值,在此举例不做具体限定。
在一个实施例中,上述采用所述目标异常关系对应数据集和所述未成功匹配词语集对所述预处理后的文本数据进行错误词替换,得到所述目标房产证对应的目标文本数据的步骤,包括:
S61:根据所述目标异常关系对应数据集和所述未成功匹配词语集,确定错误词替换数据集,所述错误词替换数据集包括:目标位置数据、正确词;
S62:根据所述错误词替换数据集的所述目标位置数据和所述正确词对所述预处理后的文本数据进行错误词替换,得到所述目标房产证对应的所述目标文本数据。
本实施例实现了对预处理后的文本数据进行错误词替换,从而提升了得到的目标房产证对应的目标文本数据的准确性,提高了用户的满意度。
对于S61,从所述目标异常关系对应数据集中提取出一个异常关系对应数据,得到待确定位置的异常关系对应数据;将所述待确定位置的异常关系对应数据的错误词在所述未成功匹配词语集中进行匹配,将在所述未成功匹配词语集中匹配到的未成功匹配对应的位置数据作为所述待确定位置的异常关系对应数据对应的错误词替换数据的目标位置数据;将所述待确定位置的异常关系对应数据的正确词作为待确定位置的异常关系对应数据对应的错误词替换数据的正确词;重复执行所述从所述目标异常关系对应数据集中提取出一个异常关系对应数据,得到待确定位置的异常关系对应数据的步骤,直至确定所述目标异常关系对应数据集中所有异常关系对应数据对应的错误词替换数据;将所有错误词替换数据作为错误词替换数据集。
错误词替换数据中每个目标位置数据对应一个正确词。
对于S62,从所述错误词替换数据集提取出一个目标位置数据,得到待替换的目标位置数据;将待替换的目标位置数据在所述预处理后的文本数据对应的词语,用所述待替换的目标位置数据对应的正确词进行替换;重复执行所述从所述错误词替换数据集提取出一个目标位置数据,得到待替换的目标位置数据的步骤,直至完成所述错误词替换数据集中所有目标位置数据的错误词替换,将替换结束的所述预处理后的文本数据作为所述目标房产证对应的所述目标文本数据。
参照图2,本申请还提出了一种基于OCR识别房产证信息确定装置,所述装置包括:
OCR文本识别模块100,用于获取目标房产证的待识别的证件图像,采用OCR技术对所述待识别的证件图像进行文本识别,得到待纠正的文本数据;
预处理模块200,用于对所述待纠正的文本数据进行预处理,得到预处理后的文本数据;
分词模块300,用于对所述预处理后的文本数据进行分词,得到待纠错词语集;
未成功匹配词语查找模块400,用于获取知识库词典,分别将所述待纠错词语集中每个待纠错词语在所述知识库词典中进行未成功匹配词语查找,得到未成功匹配词语集;
异常关系匹配模块500,用于获取异常关系对应数据集,分别将所述未成功匹配词语集中每个未成功匹配词语在所述异常关系对应数据集中进行匹配,得到目标异常关系对应数据集;
错误词替换模块600,用于采用所述目标异常关系对应数据集和所述未成功匹配词语集对所述预处理后的文本数据进行错误词替换,得到所述目标房产证对应的目标文本数据。
本实施例通过对预处理后的文本数据进行分词,得到待纠错词语集,分别将待纠错词语集中每个待纠错词语在知识库词典中进行未成功匹配词语查找,得到未成功匹配词语集,分别将未成功匹配词语集中每个未成功匹配词语在异常关系对应数据集中进行匹配,得到目标异常关系对应数据集,采用目标异常关系对应数据集和未成功匹配词语集对预处理后的文本数据进行错误词替换,得到目标房产证对应的目标文本数据,从而实现了对OCR的识别结果自动进行纠正,提高了识别房产证文本数据的准确性,提高了用户的满意度。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于储存基于OCR识别房产证信息确定方法等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于OCR识别房产证信息确定方法。所述基于OCR识别房产证信息确定方法,包括:获取目标房产证的待识别的证件图像,采用OCR技术对所述待识别的证件图像进行文本识别,得到待纠正的文本数据;对所述待纠正的文本数据进行预处理,得到预处理后的文本数据;对所述预处理后的文本数据进行分词,得到待纠错词语集;获取知识库词典,分别将所述待纠错词语集中每个待纠错词语在所述知识库词典中进行未成功匹配词语查找,得到未成功匹配词语集;获取异常关系对应数据集,分别将所述未成功匹配词语集中每个未成功匹配词语在所述异常关系对应数据集中进行匹配,得到目标异常关系对应数据集;采用所述目标异常关系对应数据集和所述未成功匹配词语集对所述预处理后的文本数据进行错误词替换,得到所述目标房产证对应的目标文本数据。
本实施例通过对预处理后的文本数据进行分词,得到待纠错词语集,分别将待纠错词语集中每个待纠错词语在知识库词典中进行未成功匹配词语查找,得到未成功匹配词语集,分别将未成功匹配词语集中每个未成功匹配词语在异常关系对应数据集中进行匹配,得到目标异常关系对应数据集,采用目标异常关系对应数据集和未成功匹配词语集对预处理后的文本数据进行错误词替换,得到目标房产证对应的目标文本数据,从而实现了对OCR的识别结果自动进行纠正,提高了识别房产证文本数据的准确性,提高了用户的满意度。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种基于OCR识别房产证信息确定方法,包括步骤:获取目标房产证的待识别的证件图像,采用OCR技术对所述待识别的证件图像进行文本识别,得到待纠正的文本数据;对所述待纠正的文本数据进行预处理,得到预处理后的文本数据;对所述预处理后的文本数据进行分词,得到待纠错词语集;获取知识库词典,分别将所述待纠错词语集中每个待纠错词语在所述知识库词典中进行未成功匹配词语查找,得到未成功匹配词语集;获取异常关系对应数据集,分别将所述未成功匹配词语集中每个未成功匹配词语在所述异常关系对应数据集中进行匹配,得到目标异常关系对应数据集;采用所述目标异常关系对应数据集和所述未成功匹配词语集对所述预处理后的文本数据进行错误词替换,得到所述目标房产证对应的目标文本数据。
上述执行的基于OCR识别房产证信息确定方法,通过对预处理后的文本数据进行分词,得到待纠错词语集,分别将待纠错词语集中每个待纠错词语在知识库词典中进行未成功匹配词语查找,得到未成功匹配词语集,分别将未成功匹配词语集中每个未成功匹配词语在异常关系对应数据集中进行匹配,得到目标异常关系对应数据集,采用目标异常关系对应数据集和未成功匹配词语集对预处理后的文本数据进行错误词替换,得到目标房产证对应的目标文本数据,从而实现了对OCR的识别结果自动进行纠正,提高了识别房产证文本数据的准确性,提高了用户的满意度。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种基于OCR识别房产证信息确定方法,其特征在于,所述方法包括:
获取目标房产证的待识别的证件图像,采用OCR技术对所述待识别的证件图像进行文本识别,得到待纠正的文本数据;
对所述待纠正的文本数据进行预处理,得到预处理后的文本数据;
对所述预处理后的文本数据进行分词,得到待纠错词语集;
获取知识库词典,分别将所述待纠错词语集中每个待纠错词语在所述知识库词典中进行未成功匹配词语查找,得到未成功匹配词语集;
获取异常关系对应数据集,分别将所述未成功匹配词语集中每个未成功匹配词语在所述异常关系对应数据集中进行匹配,得到目标异常关系对应数据集;
采用所述目标异常关系对应数据集和所述未成功匹配词语集对所述预处理后的文本数据进行错误词替换,得到所述目标房产证对应的目标文本数据。
2.根据权利要求1所述的基于OCR识别房产证信息确定方法,其特征在于,所述对所述预处理后的文本数据进行分词,得到待纠错词语集的步骤,包括:
分别对所述预处理后的文本数据中每项文本数据进行分词,得到多个待纠错词语和所述多个待纠错词语各自对应的位置数据;
根据所述多个待纠错词语和所述多个待纠错词语各自对应的所述位置数据,确定所述待纠错词语集。
3.根据权利要求1所述的基于OCR识别房产证信息确定方法,其特征在于,所述分别将所述待纠错词语集中每个待纠错词语在所述知识库词典中进行未成功匹配词语查找,得到未成功匹配词语集的步骤,包括:
分别将所述待纠错词语集中每个所述待纠错词语在所述知识库词典中进行匹配,得到多个知识库匹配结果;
当所述知识库匹配结果为失败时,根据失败的所述知识库匹配结果,确定所述未成功匹配词语集。
4.根据权利要求1所述的基于OCR识别房产证信息确定方法,其特征在于,所述获取异常关系对应数据集的步骤之前,还包括:
获取多个房产证样本图像,所述房产证样本图像携带有图像标识;
采用所述OCR技术分别对每个所述房产证样本图像进行文本识别,得到所述多个房产证样本图像各自对应的OCR识别样本数据;
将所述多个房产证样本图像和各自对应的OCR识别样本数据发送给标注端进行错误纠正;
获取所述标注端发送的所述多个房产证样本图像各自对应的标注样本数据;
根据所述多个房产证样本图像各自对应的所述图像标识、OCR识别样本数据及所述标注样本数据进行分词和异常关系对应判断,得到所述异常关系对应数据集;
将所述异常关系对应数据集存储在数据库中。
5.根据权利要求4所述的基于OCR识别房产证信息确定方法,其特征在于,所述根据所述多个房产证样本图像各自对应的所述图像标识、OCR识别样本数据及所述标注样本数据进行分词和异常关系对应判断,得到所述异常关系对应数据集的步骤,包括:
分别对所述多个房产证样本图像对应的每个所述OCR识别样本数据的每项文本数据进行分词,得到所述多个房产证样本图像各自对应的OCR识别样本词语集;
分别对所述多个房产证样本图像对应的每个所述标注样本数据的每项文本数据进行分词,得到所述多个房产证样本图像各自对应的标注样本词语集;
基于所述图像标识对所述多个房产证样本图像各自对应的所述OCR识别样本词语集和所述标注样本词语集进行异常关系查找,得到所述多个房产证样本图像对应的待统计异常关系数据集,所述待统计异常关系数据集包括:所述OCR识别样本词语、所述标注样本词语;
分别对所述待统计异常关系数据集进行每个所述OCR识别样本词语各自对应的每个所述标注样本词语的概率统计,得到所述待统计异常关系数据集的所有所述OCR识别样本词语各自对应的标注样本词语概率值集;
分别从所述待统计异常关系数据集的每个所述OCR识别样本词语对应的所述标注样本词语概率值集中获取最大的标注样本词语概率值,得到所述待统计异常关系数据集的所有所述OCR识别样本词语各自对应的目标标注样本词语概率值;
分别根据所述待统计异常关系数据集的每个所述OCR识别样本词语对应的所述目标标注样本词语概率值,确定所述待统计异常关系数据集的所有所述OCR识别样本词语各自对应的目标标注样本词语;
根据所述待统计异常关系数据集的所有所述OCR识别样本词语和各自对应的所述目标标注样本词语,得到所述异常关系对应数据集。
6.根据权利要求5所述的基于OCR识别房产证信息确定方法,其特征在于,所述分别对所述待统计异常关系数据集进行每个所述OCR识别样本词语各自对应的每个所述标注样本词语的概率统计,得到所述待统计异常关系数据集的所有所述OCR识别样本词语各自对应的标注样本词语概率值集的步骤,包括:
从所述待统计异常关系数据集中获取出所有所述OCR识别样本词语,得到待去重的OCR识别样本词语集;
对所述待去重的OCR识别样本词语集中的所述OCR识别样本词语进行去重处理,得到多个目标OCR识别样本词语;
分别计算每个所述目标OCR识别样本词语在所述待统计异常关系数据集中出现的次数,得到多个所述目标OCR识别样本词语各自对应的对应关系总数;
分别计算每个所述目标OCR识别样本词语在所述待统计异常关系数据集中对应的各个所述标注样本词语各自的出现次数,得到多个所述目标OCR识别样本词语各自对应的各个所述标注样本词语各自对应的目标出现次数;
将同一所述目标OCR识别样本词语对应的各个所述标注样本词语各自对应的所述目标出现次数和所述对应关系总数进行相除,得到所述待统计异常关系数据集的所有所述OCR识别样本词语各自对应的所述标注样本词语概率值集。
7.根据权利要求1所述的基于OCR识别房产证信息确定方法,其特征在于,所述采用所述目标异常关系对应数据集和所述未成功匹配词语集对所述预处理后的文本数据进行错误词替换,得到所述目标房产证对应的目标文本数据的步骤,包括:
根据所述目标异常关系对应数据集和所述未成功匹配词语集,确定错误词替换数据集,所述错误词替换数据集包括:目标位置数据、正确词;
根据所述错误词替换数据集的所述目标位置数据和所述正确词对所述预处理后的文本数据进行错误词替换,得到所述目标房产证对应的所述目标文本数据。
8.一种基于OCR识别房产证信息确定装置,其特征在于,所述装置包括:
OCR文本识别模块,用于获取目标房产证的待识别的证件图像,采用OCR技术对所述待识别的证件图像进行文本识别,得到待纠正的文本数据;
预处理模块,用于对所述待纠正的文本数据进行预处理,得到预处理后的文本数据;
分词模块,用于对所述预处理后的文本数据进行分词,得到待纠错词语集;
未成功匹配词语查找模块,用于获取知识库词典,分别将所述待纠错词语集中每个待纠错词语在所述知识库词典中进行未成功匹配词语查找,得到未成功匹配词语集;
异常关系匹配模块,用于获取异常关系对应数据集,分别将所述未成功匹配词语集中每个未成功匹配词语在所述异常关系对应数据集中进行匹配,得到目标异常关系对应数据集;
错误词替换模块,用于采用所述目标异常关系对应数据集和所述未成功匹配词语集对所述预处理后的文本数据进行错误词替换,得到所述目标房产证对应的目标文本数据。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011482625.8A CN112528882B (zh) | 2020-12-15 | 2020-12-15 | 基于ocr识别房产证信息确定方法、装置、设备及介质 |
PCT/CN2021/091716 WO2022126986A1 (zh) | 2020-12-15 | 2021-04-30 | 基于ocr识别房产证信息确定方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011482625.8A CN112528882B (zh) | 2020-12-15 | 2020-12-15 | 基于ocr识别房产证信息确定方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112528882A true CN112528882A (zh) | 2021-03-19 |
CN112528882B CN112528882B (zh) | 2024-05-10 |
Family
ID=75000367
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011482625.8A Active CN112528882B (zh) | 2020-12-15 | 2020-12-15 | 基于ocr识别房产证信息确定方法、装置、设备及介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112528882B (zh) |
WO (1) | WO2022126986A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113837118A (zh) * | 2021-09-28 | 2021-12-24 | 支付宝(杭州)信息技术有限公司 | 文本变异关系的获取方法和装置 |
WO2022126986A1 (zh) * | 2020-12-15 | 2022-06-23 | 平安科技(深圳)有限公司 | 基于ocr识别房产证信息确定方法、装置、设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017148265A1 (zh) * | 2016-02-29 | 2017-09-08 | 阿里巴巴集团控股有限公司 | 一种单词的分割方法和装置 |
US20190325211A1 (en) * | 2018-04-18 | 2019-10-24 | Google Llc | Systems and methods for assigning word fragments to text lines in optical character recognition-extracted data |
CN110765996A (zh) * | 2019-10-21 | 2020-02-07 | 北京百度网讯科技有限公司 | 文本信息处理方法及装置 |
CN111753531A (zh) * | 2020-06-28 | 2020-10-09 | 平安科技(深圳)有限公司 | 一种基于人工智能的文本纠错方法、装置、计算机设备及存储介质 |
CN112016304A (zh) * | 2020-09-03 | 2020-12-01 | 平安科技(深圳)有限公司 | 文本纠错方法、装置、电子设备及存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9292737B2 (en) * | 2008-01-18 | 2016-03-22 | Mitek Systems, Inc. | Systems and methods for classifying payment documents during mobile image processing |
CN108376129B (zh) * | 2018-01-24 | 2022-04-22 | 北京奇艺世纪科技有限公司 | 一种纠错方法及装置 |
CN110909725B (zh) * | 2019-10-18 | 2023-09-19 | 平安科技(深圳)有限公司 | 识别文本的方法、装置、设备及存储介质 |
CN112528882B (zh) * | 2020-12-15 | 2024-05-10 | 平安科技(深圳)有限公司 | 基于ocr识别房产证信息确定方法、装置、设备及介质 |
-
2020
- 2020-12-15 CN CN202011482625.8A patent/CN112528882B/zh active Active
-
2021
- 2021-04-30 WO PCT/CN2021/091716 patent/WO2022126986A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017148265A1 (zh) * | 2016-02-29 | 2017-09-08 | 阿里巴巴集团控股有限公司 | 一种单词的分割方法和装置 |
US20190325211A1 (en) * | 2018-04-18 | 2019-10-24 | Google Llc | Systems and methods for assigning word fragments to text lines in optical character recognition-extracted data |
CN110765996A (zh) * | 2019-10-21 | 2020-02-07 | 北京百度网讯科技有限公司 | 文本信息处理方法及装置 |
CN111753531A (zh) * | 2020-06-28 | 2020-10-09 | 平安科技(深圳)有限公司 | 一种基于人工智能的文本纠错方法、装置、计算机设备及存储介质 |
CN112016304A (zh) * | 2020-09-03 | 2020-12-01 | 平安科技(深圳)有限公司 | 文本纠错方法、装置、电子设备及存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022126986A1 (zh) * | 2020-12-15 | 2022-06-23 | 平安科技(深圳)有限公司 | 基于ocr识别房产证信息确定方法、装置、设备及介质 |
CN113837118A (zh) * | 2021-09-28 | 2021-12-24 | 支付宝(杭州)信息技术有限公司 | 文本变异关系的获取方法和装置 |
CN113837118B (zh) * | 2021-09-28 | 2024-04-26 | 支付宝(杭州)信息技术有限公司 | 文本变异关系的获取方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2022126986A1 (zh) | 2022-06-23 |
CN112528882B (zh) | 2024-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20100150453A1 (en) | Determining near duplicate "noisy" data objects | |
JP6590355B1 (ja) | 学習モデル生成装置、文字認識装置、学習モデル生成方法、文字認識方法、及びプログラム | |
CN112528882B (zh) | 基于ocr识别房产证信息确定方法、装置、设备及介质 | |
US20030028522A1 (en) | System and method for improved string matching under noisy channel conditions | |
CN110569341A (zh) | 配置聊天机器人的方法、装置、计算机设备和存储介质 | |
CN112613312B (zh) | 实体命名识别模型的训练方法、装置、设备及存储介质 | |
CN111275102A (zh) | 多证件类型同步检测方法、装置、计算机设备及存储介质 | |
CN109325042B (zh) | 处理模版获取方法、表格处理方法、装置、设备及介质 | |
CN113255583B (zh) | 数据标注方法、装置、计算机设备和存储介质 | |
CN111782595A (zh) | 海量文件管理方法、装置、计算机设备和可读存储介质 | |
CN112580108A (zh) | 签名和印章完整性验证方法及计算机设备 | |
CN111858977A (zh) | 票据信息采集方法、装置、计算机设备和存储介质 | |
CN116541228B (zh) | 显示器的触控响应检测方法、装置以及计算机设备 | |
CN111314109A (zh) | 一种基于弱密钥的大规模物联网设备固件识别方法 | |
CN115759758A (zh) | 风险评估方法、装置、设备及存储介质 | |
CN110569401A (zh) | 阅卷方法、装置、计算机设备和存储介质 | |
CN115527195A (zh) | 一种医疗设备铭牌信息识别抽取算法 | |
CN113705560A (zh) | 基于图像识别的数据提取方法、装置、设备及存储介质 | |
CN114579712B (zh) | 基于动态模型的文本属性提取匹配方法 | |
CN113837169B (zh) | 文本数据处理方法、装置、计算机设备及存储介质 | |
CN113626600B (zh) | 文本处理方法、装置、计算机设备和存储介质 | |
CN113239128B (zh) | 基于隐式特征的数据对分类方法、装置、设备和存储介质 | |
CN116756535B (zh) | Fpc的缺陷检测方法、装置以及检测设备 | |
CN115982830B (zh) | 室内设计节点的适配方法、装置、计算机设备和存储介质 | |
CN114897429B (zh) | 适用于客服沟通的任务分配方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |