证件信息的提取方法、装置和文本信息的提取方法
技术领域
本说明书所涉及的技术领域属于互联网技术领域,尤其涉及一种证件信息的提取方法、装置和文本信息的提取方法。
背景技术
在办理业务(例如网络贷款业务等)时,常常会需要用户先通过用户端(例如手机等)上传相关的证件(例如房产证等)照片。后台服务器在收到用户上传的证件照片后,会从证件照片中提取相关的证件信息(例如房屋产权人、房屋坐落位置、产证编号等信息),进而根据所提取得到的证件信息进行相应的业务处理。
目前,为了能够提取得到证件照片中的证件信息,通常会预先根据证件的内容页面具体的排版格式,设计对应的格式模板。其中,该格式模板可以用于指示该证件中的各种证件信息记载在证件的内容页面上的具体位置(例如通过格式模板可以确定出房屋产权人信息位于证件的内容页面上的第三行第四列至第六列的位置处),因此在提取证件信息时,可以基于上述格式模板,搜索到证件照片中对应的位置处以进行证件信息的提取。
但是,对同一种类的证件而言,通常会包含有多种不同的版本。同种类不同版本的证件所记载的证件信息大多相近,但排版格式却可能会存在差异。例如,不同区域的房产证都记载有房屋产权人、房屋坐落位置、产证编号等证件信息,但不同区域的房产证的版本不同,房产证的内容页面的排版格式也不相同。例如,A市的房产证中房屋产权人信息是记载在内容页面中的第三行第四列至第六列的位置处,而B市的房产证中房屋产权人信息则是记载在内容页面中的第二行第一列至第三列的位置处。因此,基于现有方法提取证件信息时,需要预先根据不同排版格式的证件分别设计对应的格式模板。此外,对任意一个格式模板而言,一旦该格式模板所对应的证件更新了版本(例如C市的房产证发生了改版),则需要根据更新后的证件的排版格式,重新设计确定新的格式模板以替换原来的格式模板,因此导致后期维护的成本相对较高。
由上可见,现有的证件信息提取方法在实现时往往会受到证件的排版格式的影响,在实施和维护的过程中常常需要多次建立或更新证件的格式模板,导致处理过程较为繁琐,处理成本也相对较高。因此,亟需一种证件信息的提取方法能够不受证件的排版格式的制约和影响,以较低的实施成本实现证件信息的提取。
发明内容
本说明书的目的在于提供一种证件信息的提取方法、装置和文本信息的提取方法,使得证件信息的提取过程不再受证件的排版格式的制约和影响,降低了实施成本,以高效、准确地进行证件信息的提取。
本说明书提供的一种证件信息的提取方法、装置和文本信息的提取方法是这样实现的:
一种证件信息的提取方法,包括:获取包含有目标证件的内容页面的目标图片;从所述目标图片中提取出多个字符段;通过预设的字符段分类模型,从所述多个字符段中识别出有效字符段;根据所述有效字符段,获取目标证件的证件信息。
一种证件信息的提取方法,包括:获取包含有目标证件的内容页面的目标图片;从所述目标图片中提取出多个字符段;通过预设的文本分类模型,从所述多个字符段中识别出与所述目标证件的信息项匹配的字符段作为所述目标证件的证件信息。
一种文本信息的提取方法,包括:获取包含有目标文本的目标图片;从所述目标图片中提取出多个字符段;通过预设的文本分类模型,从所述多个字符段中识别出与所述目标文本的信息项匹配的字符段作为所述目标文本的文本信息。
一种文本分类模型的建立方法,包括:获取与证件上的信息项对应的文本数据作为样本数据;标注所述样本数据的信息项,得到标注后的样本数据;根据所述标注后的样本数据,建立文本分类模型中的字符库和规则集,其中,所述字符库包括多个与文本类型对应的字符库,所述规则集包括多个与文本类型对应的字符段中的字符的构成规则。
一种服务器,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现获取包含有目标证件的内容页面的目标图片;从所述目标图片中提取出多个字符段;通过预设的文本分类模型,从所述多个字符段中识别出与所述目标证件的信息项匹配的字符段作为所述目标证件的证件信息。
一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现获取包含有目标证件的内容页面的目标图片;从所述目标图片中提取出多个字符段;通过预设的文本分类模型,从所述多个字符段中识别出与所述目标证件的信息项匹配的字符段作为所述目标证件的证件信息。
本说明书提供的一种证件信息的提取方法、装置和文本信息的提取方法,通过对包含有目标证件的内容页面的目标图片整体进行字符段的提取,得到多个字符段,再利用预设的文本分类模型直接对多个字符段进行识别,以确定出多个字符段中与目标证件的信息项所匹配的字符段作为证件信息,从而使得证件信息的提取过程不再受证件的排版格式的制约和影响,降低了实施成本,并高效、准确地进行证件信息的提取。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是在一个场景示例中,应用本说明书实施例提供的证件信息的提取方法的一种实施例的示意图;
图2是在一个场景示例中,应用本说明书实施例提供的证件信息的提取方法对目标图片进行区块划分的示意图;
图3是在一个场景示例中,应用本说明书实施例提供的证件信息的提取方法检测目标图片中不同类型的间隔标识的示意图;
图4是在一个场景示例中,应用本说明书实施例提供的证件信息的提取方法通过预设的文本分类模型对字符段的信息项进行识别确定的示意图;
图5是本说明书实施例提供的证件信息的提取方法的一种流程示意图;
图6是在一个场景示例中,应用本说明书实施例提供的证件信息的提取方法获得的多个字符段的示意图;
图7是本说明书实施例提供的证件信息的提取方法的另一种流程示意图;
图8是本说明书实施例提供的文本信息的提取方法的一种流程示意图;
图9是本说明书实施例提供的文本分类模型的建立方法的一种流程示意图;
图10是本说明书实施例提供的服务器的结构的一种实施例的示意图;
图11是本说明书实施例提供的证件信息的提取装置的结构的一种实施例的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
考虑到现有的证件信息提取方法大多需要先根据证件的内容页面的排版格式设计生成对应的固定的格式模板,再机械地按照上述格式模板寻找并提取目标图片中相应位置处的信息作为证件信息。上述方法在实施过程中受到证件的排版格式的影响相对较大。具体的,记载有相同的证件信息的同一种类的证件可能会同时存在多种不同的版本,不同版本的排版格式往往也不相同。这时基于现有方法需要为同一种类不同版本的证件分别设计对应的格式模板,实现起来较为繁琐,处理成本也相对较高。
针对产生上述问题的根本原因,考虑是否可以提供一种不受版本格式影响的证件信息的提取方法,具体的,可以通过对包含有目标证件的内容页面的目标图片整体进行识别,以提取得到目标图片中的多个字符段,再通过训练好的预设的文本分类模型对多个字符段分别进行识别确定,以从多个字符段中识别出与目标证件的信息项匹配的字符段作为该证件的证件信息进行提取,从而使得证件信息的提取过程不再受证件的排版格式的制约和影响,降低了实施成本,达到高效、准确地进行证件信息的提取的效果。
基于上述考虑,本说明书实施方式提供了一种基于证件信息的提取方法的证件信息的提取系统用以识别并提取包含有目标证件的内容页面的目标图片中的证件信息。
其中,上述系统具体可以包括用户端和服务器,用户端和服务器相互耦合,可以进行数据交互。具体实施时,上述用户端用于采集包含有目标证件的页面内容的目标图片,并将上述目标图片发送至服务器。上述服务器用于接收用户端采集的包含有目标证件的页面内容的目标图片,并从所述目标图片中提取出多个字符段;通过预设的文本分类模型,从所述多个字符段中识别出与所述目标证件的信息项匹配的字符段作为所述目标证件的证件信息;进而可以根据所提取得到的证件信息进行相应的数据处理。
在本实施方式中,所述用户端可以是一种应用于用户一侧,具有图片采集、交互通信等功能的电子设备。具体地,所述用户端例如可以是台式电脑、平板电脑、笔记本电脑、智能手机、数字助理、智能可穿戴设备、导购终端、具有网络访问功能的电视机等。或者,所述用户端也可以为能够运行于上述电子设备中的软件。具体的,所述客户端可以为电子设备中的app应用。
在本实施方式中,所述服务器可以是一种应用于数据处理后台一侧,具有数据处理、字符识别提取等功能的后台业务服务器。所述服务器可以为一个具有数据运算、存储功能以及网络交互功能的电子设备;也可以为运行于该电子设备中,为数据处理、存储和网络交互提供支持的软件。在本实施方式中并不具体限定所述服务器的数量。所述服务器可以为一个服务器,还可以为几个服务器,或者,若干服务器形成的服务器集群。
在一个场景示例中,可以参阅图1所示,可以应用本说明书实施例提供的证件信息的提取方法从用户上传的房产证照片中提取相应的房产证信息。
在本场景示例中,用户想要在XX网贷平台申请网络贷款,可以将手机作为用户端,通过XX网贷平台的手机app向XX网贷平台的后台服务器发送相应的贷款申请。XX网贷平台的服务器在接收到用户的贷款申请后,会向用户发出分别上传身份证、房产证等证件照片的指示,以便提示用户按照要求,分别向服务器上述证明照片。进而服务器可以根据所接收到的证明照片,提取照片中相关的证件信息,并根据上述证件信息评估、确定该用户的可贷额度,再为该用户提供相应额度的贷款。
在本场景示例中,用户可以通过XX网贷平台的手机app向服务器发送了贷款申请,并按照提示填写、上传了相应的身份数据后,用户手机会接收到来自服务器的要求上传包含有房产证的内容页面的照片的指示数据。用户手机响应上述指示数据,在手机屏幕所展示的数据输入界面上显示出上传包含有房产证的内容页面的照片的提示信息,以提示用户拍摄、并上传房产证的内容页面的照片。
服务器在接收到用户手机发送的目标图片后,可以先对该目标图片上的所有位置的内容信息进行字符识别,以提取得到该目标图片中房产证的内容页面上的多个字符段,以便后续的分析、处理。
具体实施时,例如,可以参阅图2所示,服务器可以先检测出目标图片中的间隔标识;再根据上述间隔标识作为划分依据,将目标图片划分为多个不同的区块,其中,每一区块中包含有一个字符段;进而可以对多个区块中各个区块分别进行识别,以提取得到各个区块中字符段。
其中,上述间隔标识具体可以理解为目标图片中的房产证的内容页面上用于分隔不同的信息内容的标记。具体的,可以参阅图3所示,上述间隔标识可以是内容页面上的分割线(例如间隔标识1);也可以是所选定的预设的标点符号(例如间隔标识2),例如,逗号、句号、冒号等;还可以面积大于阈值面积的空白区域(例如间隔标识3)等。其中,上述预设的标点符号、分割线的形状、空白区域的阈值面积等可以根据待处理的证件的具体类型、排版等灵活设置。例如,对于A校的学位证而言,表征所在学校的字符段通常会与前后其他字符段的间隔较大,这时,可以将学位证中的空白区域的阈值面积设置得相对较大一些,例如,可以将学位证中空白区域的阈值面积设置为3个字符面积。对于B校的学位证而言,表征所在学校的字符段通常会与前后其他字符段的间隔较小,这时,可以将学位证中的空白区域的阈值面积设置得相对较小一些,例如,可以将学位证中空白区域的阈值面积设置为1.5个字符面积。当然,需要说明的是,上述所列举的间隔标识只是为了更好地说明本说明书实施方式。具体实施时,还可以根据具体的证件情况,将其他的因素特征作为间隔标识,例如还可以将证件的内容页面中某些花纹图案作为一种间隔标识。对此,本说明书不作限定。
其中,上述字符段具体可以理解为用于表征证件上的某一信息内容的字符串。该字符串具体可以是由文字字符组成的字符串,也可以是由数字字符组成的字符串,还可以是由文字字符和数字字符共同组成的字符串等。例如,图2中区块内的“房屋产权人”、“王小明”、“联系电话”都可以理解为是一种字符段。当然,上述所列举的字符段的形式只是一种示意性说明。具体实施时,根据具体的应用场景,上述字符段还可以是包括字母字符、标点符号等其他类型字符的字符串。对于字符串的具体组成形式,本说明书不作限定。
在本场景示例中,具体实施时,服务器具体可以通过OCR(Optical CharacterRecognition,光学字符识别)对目标图片进行具体的处理,完成对目标图片的区块划分,以及对各个区块中的字符段的识别提取。当然,需要说明的是,上述所列举的通过OCR提取目标图片中的字符段只是一种示意性说明。具体实施时,根据具体的情况和应用场景,还可以采用其他合适的实现方式提取得到目标图片中的多个字符段。对此,本说明书不作限定。
服务器在提取得到目标图片中的字符段后,考虑到所提取得到的字符段中通常存在部分是用于表征证件上的模板信息的字符段(即模板字符段)。例如,参阅图3所示,房产证的内容页面上的字符段“房屋产权人”、“登记时间”、“房屋坐落位置”等都是一种模板字符段。对于同一种类不同用户的证件而言,这类字符段往往都是相同、没有差别的,不能用于表征用户区别于他人的信息特征,信息价值相对较低。因此,后续大多也不会利用到这类证件信息进行相应的数据处理。因此,为了提高提取的证件信息的有效度,提高证件信息的提取效率,可以先对字符段中的模板字符段进行检测、确定,将字符段中的模板字符段过滤掉后,再对过滤后的字符段进行具体的识别,以后续能够更加高效地获取价值相对较高的房产证的证件信息。
具体的,服务器可以按照以下方式检测并确定出字符段中用于表征目标证件的模板信息的模板字符段:提取所述多个字符段中各个字符段的关键词;检索预设的模板词库,以确定所述预设的模板词库中是否存在模板词与字符段的关键词匹配;在确定所述预设的模板词库中存在模板词与字符段的关键词匹配的情况下,将所述字符段确定为模板字符段。
其中,上述预设的模板词库具体可以是包括多个与目标证件中的信息项相关的提示词(即模板词)的词库。对于同一种类型的目标证件而言,即使版本不同,排版格式存在差异,但所要表征的信息项通常是一样的。具体实施时,可以根据不同类型的目标证件所要表征的信息项预先设置对应类型的预设的模板词库。
例如,不同版本的房产证中都会包含“房屋产权人”、“房屋坐落”、“登记时间”等字符段,用以提示相应位置处填写有与用户相关的具体的房屋产权人的姓名信息、房屋坐落的位置信息、登记时间的日期信息等。因此,可以根据房产证中通常设置的信息项,将上述“房屋产权人”、“房屋坐落”、“登记时间”等字符段作为房产证的模板词,进而建立针对房产证的预设的模板词库。
其中,上述关键词具体可以理解为字符段中用于表征该字符段的主要语义的字符组合。例如,对于字符段“房屋产权人的姓名”,对应的关键词可以是“房屋产权人”。
在本场景示例中,具体的,可以在确定字符段的关键词与预设的模板词库中的某一个模板词的语义一致,或者语义的差异程度小于阈值程度的情况下,判定为所述预设的模板词库中存在模板词与字符段的关键词匹配,进而可以将含有该关键词的字符段确定为模板字符段。例如,字符段“房屋产权人的姓名”的关键词为“房屋产权人”,检索与房产证对应的预设的模板词库,发现预设的模板词库中存在“房屋产权人”与字符段的关键词所表征的语义一致,因此,可以将字符段“房屋产权人的姓名”确定为模板字符段。
服务器在过滤掉多个字符段中的模板字符段后,进一步可以对过滤后的字符段所表征的信息内容进行具体识别,以从过滤后的字符段中识别确定出与房产证的信息项匹配的字符段作为该用户的房产证的证件信息。
其中,上述信息项具体可以理解为与所要提取的目标证件的证件信息对应的信息名称。具体的,上述信息项具体可以根据目标证件的类型,以及具体的应用场景设定。例如,在本场景示例中,待分析的目标证件为房产证,待进行的应用是获取并结合用户的房产证的证件信息确定提供给该用户的贷款额度。基于上应用场景,对应的信息项可以包括:房屋产权人信息、房产证的编号信息、房屋坐落位置信息、房屋面积信息等等。当然,上述所列举的信息项只是一种示意性说明。具体实施时,还可以根据具体情况,引用其他类别的信息作为上述信息项。对此,本说明书不作限定。
在本场景示例中,具体实施时,服务器可以通过预设的文本分类模型对过滤后的字符段的文本类型分别进行识别确定,进而可以根据各个字符段的文本类型,筛选出与房产证的信息项匹配的文本类型的字符段作为与房产证的信息项匹配的字符段进行提取,以获取得到该用户的房产证的证件信息。当然,具体实施时,也可以直接利用预设的文本分类模型对所获取的没有过滤的字符段进行识别确定;再从预设的文本分类模型能够识别确定出文本类型的字符段中,筛选出与房产证的信息项匹配的文本类型的字符段,进行证件信息的提取,从而得到该用户的房产证的证件信息。
其中,上述字符段的文本类型具体可以理解为字符段所表征的信息内容的类型。例如,字符段“王小明”的文本类型可以为姓名,字符段“杭州市西溪园123号”的文本类型可以为地址,字符段“15050321579”的文本类型可以为手机号码等等。当然,需要说明的是上述所列举的文本类型只是为了更好地说明本说明书实施方式。具体实施时,根据具体的应用场景,还可以引入其他信息的类型作为文本类型,例如时间、面积、关系等等。对此,本说明书不作限定。
在本场景示例中,上述预设的文本分类模型具体可以是由服务器基于目标证件上所记载的信息内容,以及具体的应用场景,预先通过对样本数据的学习、训练,得到的够识别确定字符段的文本类型,并基于字符段的文本类型,确定出与字符段的文本类型匹配或对应的信息项的分类模型。
具体的,例如,上述预设的文本分类模型中还可以包含有通过基于样本数据的学习、训练所建立得到的字符库和规则集。其中,上述字符库中具体可以包括多个与文本类型关联的字符库。例如,字符库中可以包含有与姓名关联的字符库、与地址关联的字符库、与手机号码关联的字符库等。上述规则集具体可以包括多个与文本类型关联的字符段的字符的构成规则。例如,规则集可以包含有与姓名关联的字符段的字符的构成规则、与地址关联的字符段的字符的构成规则、与手机号码关联的字符段的字符的构成规则等等。当然需要说明的是,上述所列举的字符库和规则集只是为了更好地说明本说明书实施方式。对于字符库、规则集的具体内容本说明书不作限定。
在本场景示例中,具体实施时,服务器可以通过预设的文本分类模型将字符段中的字符与预设的文本分类模型中的字符库进行比对,得到字符段的字符比对结果(例如可以将字符段中的字符分别与多个与文本类型关联的字符库进行比对,得到各个字符的比对结果;再根据各个字符的比对结果,按照预设的权重计算出字符段的字符整体属于各个文本类型的概率值,将概率值最高的文本类型确定为所述字符段的字符比对结果)。根据预设的文本分类模型中的规则集,确定字符段的构成规则的匹配结果(例如可以分析字符段中字符的组成特点,根据字符段中的字符的组成特点,检测所述规则集中的多个与文本类型关联的字符段中的字符的构成规则,筛选出与字符段中的字符的组成特点一致或者差异程度较小的文本类型的字符段中的字符的构成规则作为字符段的构成规则的匹配结果)。进而可以综合所述字符段的字符比对结果、所述字符段的构成规则的匹配结果两种不同角度的评价参数,确定所述字符段所对应的文本类型,以及该文本类型所对应的文本类型标识。进而,可以根据字符段的文本类型标识,从所述多个字符段中确定出文本类型标识与所述目标证件的信息项匹配的字符段作为所述目标证件的证件信息。
其中,上述文本类型标识与文本类型对应,可以理解为是一种数据标签,用于表征对应的文本类型。具体的,上述文本类型标识可以是按照一定规则构成的字符串。例如,文本类型“姓名”所对应的文本类型标签可以表示为以下形式“XM”。这样具体实施时,可以通过“XM”来标识出文本类型为姓名的字符段。相应的,通过识别字符段的文本类型标识为“XM”,可以确定该字符段对应的文本类型是姓名。当然,上述所列举的文本类型标识只是一种示意性说明。对于文本类型标识的具体形式,本说明书不作限定。
在本场景示例中,服务器通过预设的文本分类模型可以分别得到字符段的字符比对结果、字符段的构成规则的匹配结果,进而可以根据上述两种评价参数的重要性程度,对上述两种评价参数进行加权求和,得到综合评价结果,再根据上述综合评价结果确定出概率值最高的文本类型作为该字符段所表征的信息内容所对应的文本类型,即确定出了该字符段的文本类型标识。在确定了字符段的文本类型标识后,可以检索多个字符段的文本类型标识中是否存在与目标证件的信息项匹配(即确定是否存在字符段的文本类型与目标证件的信息项所对应的信息内容的文本类型一致或者差异程度小于阈值程度)的字符段,将与目标证件的信息相匹配的字符段所表征的信息内容确定为目标证件的证件信息。
具体的,可以参阅图4所示。服务器通过预设的文本分类模型确定出字符段“王小明”的文本类型为姓名,对应的类型标识为“XM”;字符段“杭州市西溪园123号”的文本类型为地址,对应的类型标识为“DZ”;字符段“118平方米”的文本类型为面积,对应的类型标识为“MJ”;字符段“15050321579”的文本类型为手机号码,对应的类型标识为“SJ”等。进一步,可以对上述字符段的类型标识进行检索,以确定是否存在与目标证件的信息项匹配的字符段。例如,通过检索,发现类型标识“XM”所表征的文本类型姓名与信息项“房屋产权人”所表征的信息内容是一致的,则可以将类型标识为“XM”的字符段“王小明”确定为与信息项“房屋产权人”匹配的字符段,进而服务器可以提取该字符段,获取或者确定出该用户的房产证的证件信息中房屋产权人为王小明。按照上述方式,还可以将类型标识为“DZ”的字符段“杭州市西溪园123号”确定为与信息项“房屋坐落位置”匹配的字符段,确定出该用户的房产证的证件信息中房屋坐落位置为杭州市西溪园123号。将类型标识为“MJ”的字符段“118平方米”确定为与信息项“房屋面积”匹配的字符段,确定出该用户的房产证的证件信息中房屋面积为118平方米等等。对于字符段“15050321579”,由于没有信息项与该字符段的类型标识“SJ”匹配,因此,可以判断该字符段所表征的信息内容不是需要提取的证件信。因此,对该字符段不作提取。
通过上述方式完成了对包含有房产证的内容页面的照片的识别和信息提取,得到了需要提取的证件信息,例如房屋产权人信息、房屋坐落位置信息、房屋面积信息等等。进而可以根据所提取得到的证件信息完成后续的业务数据处理。具体的,可以先对所提取的证件信息进行验证,再根据上述证件信息对用户的偿款能力进行评估,根据评估结果确定该用户的贷款额度,进而根据所确定的该用户的贷款额度,处理该用户的贷款申请。
由上述场景示例可见,本说明书提供的证件信息的提取方法,由于通过对包含有目标证件的内容页面的目标图片整体进行字符段的提取,得到多个字符段,再利用预设的文本分类模型直接对多个字符段进行识别,以确定出多个字符段中与目标证件的信息项所匹配的字符段作为证件信息,从而使得证件信息的提取过程不再受证件的排版格式的制约和影响,降低了实施成本,并高效、准确地进行证件信息的提取。
在另一个场景示例中,服务器为可以预先建立针对用户房产证进行证件信息提取,以评估用户的贷款额度这种应用场景的预设的文本分类模型。具体实施时,可以先根据房产证的内容页面上所记载的信息内容,以及评估贷款额度所要使用的信息内容,确定想要提取的房产证的证件信息所对应的信息项为:房屋产权人信息、房屋坐落位置信息、房屋面积信息等。进而可以根据上述信息项,获取与信息项对应的文本数据作为样本数据。
具体的,可以获取与房屋产权人信息对应的多个姓名文本(例如,王小明、李晓华、张三、李四等)作为针对信息项为房屋产权人信息的样本数据。类似的,可以获取与房屋的坐落位置信息对应的多个地址文本(例如,苏州工业园唯亭路森林湖5栋105号等)作为针对信息项为房屋坐落位置信息的样本数据。获取与房屋的面积信息对应的多个面积文本(例如,112平方米等)作为针对信息项为房屋面积信息的样本数据等。
在获取了上述样本数据后,可以分别对上述样本数据进行标注,具体标注出各个样本数据所对应的信息项。例如,可以在样本数据“李晓华”上标注出该样本数据对应的信息项为“房屋产权人信息”。在样本数据“苏州工业园唯亭路森林湖5栋105号”上标注出该样本数据对应的信息项为“房屋坐落位置信息”。在样本数据“112平方米”上标注出该样本数据对应的信息项为“房屋面积信息”等。
进一步,可以利用上述标注后的样本数据对神经网络模型进行学习、训练,以得到预设的文本分类模型。
具体的,例如,可以将上述标注后的样本数据分为训练集和测试集,通过上述训练集和测试集分别对神经网络模型进行训练和测试,以生成精确度较高的字符库和规则集,进而可以获取得到训练好的预设的文本分类模型。
其中,上述字符库具体可以包括有多个与文类型关联的字符库。例如,字符库具体可以包括有与姓名关联的字符库、与地址关联的字符库、与面积关联的字符库等。其中,每一种文本类型的字符库中存储有多个通过学习、训练得到的用于表征该文本类型的常用字符。
以与姓名关联的字符库为例,该字符库中存储有多个通过学习、训练得到的用于表征姓名的字符。具体的,姓名字符库中又进一步细分为姓氏字符库和名字字符库,其中,姓氏字符库可以结合百家姓的数据,存储有常见的表征姓氏的字符,例如“王”、“张”、“童”等。名字字符库可以存储有训练学习得到常见的表征名字的字符组合,例如“建国”、“子轶”、“磊”等。在确定字符段的文本类型时,可以将字符段中的字符分别与上述字符库中的字符进行比对,确定出字符段中的各个字符对应的字符库作为比对结果,进而可以根据比对结果,判断字符段整体较大概率所对应的字符库,即确定出字符段较大概率所对应的文本类型。
其中,上述规则集具体可以包括有多个与文本类型关联的字符段中的字符的构成规则。其中,上述字符的构成规则具体可以包括字符段的字符数、字符段中字符的组合方式、字符段的特征字符等。
在本场景示例中,需要说明的是,对于表征不同文本类型的字符段,对应的字符段中的字符的构成规则是不相同。例如,对于文本类型为姓名的字符段而言,字符段中字符的组合方式为:在表征姓氏的字符部分后连接有表征名字的字符部分。并且,对于表征姓氏的字符部分对应的字符数通常限制为1至2个,对于表征名字的字符部分对应的字符数通常限制为1至3个。此外,表征姓氏的字符部分中字符常常是能够与百家姓等中的字符匹配的特征字符。在检测到一个字符段中起始的字符部分中字符是与百家姓等匹配的特征字符,且字符数小于等于2个,则可以判断该字符部分具有较大概率是表征姓氏的字符部分;进一步可以对该字符部分后面所连接的字符部分进行检测,在检测到该字符部分的字符数在1到3的范围之间,可以判断该字符段具有较大概率是表征名字的字符部分,进而可以判断该字符段的文本类型具有较大概率为姓名,即确定出了该字符段的构成规则的匹配结果。
再例如,对于文本类型为面积的字符段而言,字符段中字符的组合方式为:在表征数字的字符部分后连接有表征面积单位的字符部分。并且,在表征面积单位的字符部分中通常会存在有特征字符“平方米”。当检测到一个字符段中存在有“平方米”这个特征字符时,可以判断该特征字符所在的字符部分有较大概率是表征面积单位的字符部分;进而可以对该字符部分前面连接的字符部分进行检测,确定该字符部分是否是表征数字的字符部分,如果确定出该字符部分表征的语义是数字,则可以判断该字符段的文本类型具有较大概率为面积,即确定出了该字符段的构成规则的匹配结果。
在本场景示例中,在生成得到了准确度较高的字符库和规则集后,进一步还可以根据训练测试结果,确定基于上述字符库得到的比对结果、和基于规则集得到的匹配结果分别在判断字符段的文本类型的重要性程度;进而可以不同的重要性程度,确定出针对基于字符库得到的比对结果的权重值,以及针对基于规则集得到的匹配结果的权重值,从而预设的文本分类模型可以通过不同的权重值将基于字符库得到的比对结果和基于规则集得到的匹配结果综合起来,以更加准确地确定出字符段的文本类型。
此外,上述文本分类模型中还包括有文本类型与证件信息项的匹配规则,其中,上述文本类型与证件信息项的匹配规则可以是服务器基于对样本数据的学习训练所建立的,用于表征文本类型与目标证件的信息项的对应关系。文本分类模型在确定出字符段的文本类型后,可以确定对该匹配规则进行检索,以确定出与该文本类型对应的信息项作为该字符段信息项。例如,字符段“王小明”的文本类型为姓名,通过检索文本类型与房产证的证件信息项的匹配规则,确定与姓名对应的信息项为“房屋产权人信息”,因此可以判断出与字符段“王小明”匹配的信息项为“房屋产权人信息”。
由上述场景示例可见,本说明书提供的文本分类模型的建立方法,通过获取与证件的信息项对应的文本数据作为样本数据;并标注样本数据对应的证件信息项,再对标注后的样本数据进行学习训练,以得到能够高效地识别确定各个字符段的文本类型,以及与文本类型对应的信息的项的文本分类模型。
参阅图5所示,本说明书实施例提供了一种证件信息的提取方法,其中,该方法具体应用于服务器一侧。具体实施时,该方法可以包括以下内容。
S51:获取包含有目标证件的内容页面的目标图片。
在本实施方式中,上述目标证件具体可以包括学位证、学生证、房产证、驾驶证等类型证件的一个或多个版本的证件。例如,可以是不同区域的不同版本的房产证。当然,需要说明的是,上述所列举的目标证件只是为了更好地说明本说明书实施方式。对于目标证件的具体类型,本说明书不作限定。
在本实施方式中,所述目标证件的内容页面具体可以是指目标证件中记载有主要证件信息或者与业务处理相关的证件信息的页面。例如,对于房产证,内容页面可以是房产证的第二页和第三页。对于身份证,内容页面可以是身份证的正面。当然,上述所列举的目标证件的内容页面只是为了更好地说明说明书实施方式。具体实施时,可以根据具体的目标证件,以及具体的应用场景,选择目标证件的某一具体页面作为上述目标证件的内容页面。对此,本说明书不作限定。
在本实施方式中,获取包含有目标证件的内容页面的目标图片,具体可以包括:拍摄包含有目标证件的内容页面的照片作为上述目标图片;或者,从视频影像数据中截取包含有目标证件的内容页面的截图作为上述目标图片。当然,需要说明的是上述所列举的获取目标图片的方式只是一种示意性说明。本说明书对如何获取包含有目标证件的内容页面的目标图片不作限定。
S52:从所述目标图片中提取出多个字符段。
在本实施方式中,所述字符段具体可以理解为目标图片中目标证件的内容页面上的用于表征证件上的某一信息内容的字符串。其中,该字符串具体可以是由文字字符组成的字符串,也可以是由数字字符组成的字符串,还可以是由文字字符和数字字符共同组成的字符串等。例如,“房屋产权人”、“王小明”、“桃小红”、“15028864321”、“118平方米”等都可以理解为是房产证的内容页面上的字符段。当然,上述所列举的字符段的形式只是一种示意性说明。具体实施时,根据具体的应用场景,上述字符段还可以是包括字母字符、标点符号等其他类型字符的字符串。对于字符串的具体组成形式,本说明书不作限定。
在本实施方式中,从所述目标图片中提取出多个字符段,具体可以理解为:对目标图片中目标证件的内容页面上的字符段进行字符识别,以提取得到内容页面上的多个字符段。
在一个实施方式中,具体实施时,可以对目标图片进行OCR(Optical CharacterRecognition,光学字符识别),以准确、完整地提取得到目标图片中目标证件的内容页面上的各个字符段。
在一个实施方式中,具体实施时,可以按照以下步骤,提取得到目标图片中目标证件的内容页面上的多个字符段:
S1:检测所述目标图片中的间隔标识;
S2:根据所述间隔标识,将所述目标图片划分为多个区块;
S3:识别所述多个区块中的各个区块内的字符段,作为所述多个字符段。
在本实施方式中,上述间隔标识具体可以理解为目标证件的内容页面上用于分隔不同的信息内容的标记。
具体的,上述间隔标识可以是内容页面上的分割线;也可以是选定的预设的标点符号,例如,逗号、句号、冒号等;也可以面积大于阈值面积的空白区域,例如,面积大于4个字符的空白区域等。当然,需要说明的是上述所列举的间隔标识只是为了更好地说明本说明书实施方式。具体实施时,根据目标证件的类型、内容页面的排版格式,还可以引入其他的图像或字符作为上述间隔标识,例如,还可以将内容页面中的列表的矩形框作为一种间隔标识。对于间隔标识的具体形式,本说明书不作限定。
在本实施方式中,上述区块可以理解为是目标图片的组成区域(例如多个矩形区域),即多个区块组合可以得到完整的目标图片。此外,上述区块也是后续进行具体字符识别的基本单位。需要补充的是,目标图片中不同区块相互之间可以是形状、大小相同的区域(例如形状、大小相同的矩形区域),也可以是形状、大小不同的区域。并且,上述区块中可能有的区块内包含有表征信息内容的字符段,而有的区块则不包含有字符段。对于上述区块的具体形状、大小、是否包含的字符段本说明书不作限定。
在本实施方式中,具体实施时,可以先对目标图片中的间隔标识进行检测识别,确定出目标图片中的间隔标识,以及间隔标识在目标图片中的位置;进而可以根据间隔标识,将间隔标识作为划分依据,将目标图片划分为多个区块;再对上述多个区块中的各个区块分别进行字符识别,在区块存在字符段的情况下,提取出区块中的字符段,得到所述多个字符段。
S53:通过预设的文本分类模型,从所述多个字符段中识别出与所述目标证件的信息项匹配的字符段作为所述目标证件的证件信息。
在本实施方式中,上述预设的文本分类模型具体可以理解为基于证件的内容页面所记载的信息内容,以及具体的应用场景(例如后续业务处理所涉及到的相关数据),预先通过对样本数据进行学习训练得到的能够识别确定字符段的文本类型,并基于字符段的文本类型,确定出与信息项匹配或对应的字符段的分类模型。
其中,上述文本类型具体可以理解为字符段所表征的信息的内容类型。其中,上述字符段的文本类型可以包括以下至少之一:姓名、地址、手机号码、婚姻等等。例如,字符段“王小明”的文本类型可以为姓名,字符段“杭州市西溪园123号”的文本类型可以为地址,字符段“15050321579”的文本类型可以为手机号码等等。当然,需要说明的是上述所列举的文本类型只是为了更好地说明本说明书实施方式。具体实施时,还可以根据具体的应用场景,引入其他的信息类型作为文本类型,例如时间、面积、证件编号等。对此,本说明书不作限定。
上述信息项具体可以理解为与所要提取的目标证件的证件信息对应的信息名称。其中,信息项具体可以根据目标证件的类型,以及后续业务处理所要使用到的证件信息确定。例如,目标证件为学位证,相关的业务处理需要使用到学位、学校、学位证号等证件信息。对应的,信息项可以包括:学位类型、毕业院校、学位证编号等。当然,需要说明的是,上述所列举的信息项只是一种示意性说明。具体实施时,可以根据具体情况,选择相应的证件信息对应的信息名称作为信息项。对此,本说明书不作限定。
在本实施方式中,具体实施时,通过预设的文本分类模型,从所述多个字符段中识别出与所述目标证件的信息项匹配的字符段作为所述目标证件的证件信息可以包括:通过所述预设的文本分类模型确定所述多个字符段中各个字符段的文本类型标识;从所述多个字符段中提取出文本类型标识与目标证件的信息项匹配的字符段作为目标证件的证件信息。
例如,通过预设的文本分类模型可以识别确定出字符段“陶小红”的文本类型为姓名,字符段“XX科技大学”的文本类型为学校,字符段“NO.3103352”的文本类型为学位证号,字符段“学士学位”的文本类型为学位类型等;再通过预设的文本分类模型根据上述各个字符段的文本类型,确定出与信息项“学生姓名”匹配的字符段为文本类型为姓名的字符段“陶小红”,确定出与信息项“毕业院校”匹配的字符段为文本类型为学校的字符段“XX科技大学”,确定出与信息项“学位”匹配的字符段为文本类型为学位类型的字符段“学士学位”等。进而可以提取上述字符段作为相应的证件信息。
在提取得到了上述证件信息后,可以根据上述证件信息进行相关的业务数据处理。例如,提取得到了上述证件信息后,可以确定学位证上记载的学生姓名为陶小红,毕业院校为XX科技大学,学位为学士学位等,进而可以完成针对陶小红的学历信息的录入,并基于所录入的学历信息,为陶小红匹配合适的工作岗位进行推荐。
由上可见,本说明书实施例提供的证件信息的提取方法,通过对包含有目标证件的内容页面的目标图片整体进行字符段的提取,得到多个字符段,再利用预设的文本分类模型直接对多个字符段进行识别,以确定出多个字符段中与目标证件的信息项所匹配的字符段作为证件信息,从而使得证件信息的提取过程不再受证件的排版格式的制约和影响,降低了实施成本,并高效、准确地进行证件信息的提取。
在一个实施方式中,上述从所述目标图片中提取多个字符段,具体实施时,可以包括以下内容:检测并确定所述目标图片中的间隔标识检测所述目标图片中的间隔标识;根据所述间隔标识,将所述目标图片划分为多个区块;识别所述多个区块中的各个区块内的字符段,作为所述多个字符段。
在本实施方式中,上述间隔标识具体可以理解为目标证件的内容页面上用于分隔不同的信息内容的标记。
在本实施方式中,上述间隔标识具体可以包括以下至少之一:分隔线、预设标点符号、大于阈值面积的空白区域等。当然,需要说明的是,上述所列举的间隔标识的形式只是为了更好地说明本说明书实施方式。具体实施时,根据具体情况,也可以选择设置其他形式的标记作为上述间隔标识。对此,本说明书不作限定。具体实施时,可以根据目标证件具体的证件类型、目标证件的内容页面的排版格式,以及基于提取得到的目标证件的证件信息所进行的业务处理等,调整、设置上述间隔标识的具体形式。例如,对于房产证,房产证的内容页面大多是以列表表格的形式排版呈现的,这时可以将列表中的矩形框作为一种间隔标识,进而可以通过识别并根据目标图片中的矩形框对目标图片进行区块的划分,即将每一个矩形框所框出的图片作为一个区块,从而得到目标图片的多个区块。
在本实施方式中,上述字符段具体可以理解为目标图片中目标证件的内容页面上的用于表征证件上的某一信息内容的字符串。其中,该字符串具体可以是由文字字符组成的字符串,也可以是由数字字符组成的字符串,还可以是由文字字符和数字字符共同组成的字符串等。
在本实施方式中,上述区块可以理解为是目标图片的组成区域(例如多个矩形区域),即多个区块组合可以得到完整的目标图片。此外,上述区块可以认为是后续进行具体字符识别的基本单位,即后续可以是以单个区块作为处理单位,逐个区块进行字符段的提取。
在本实施方式中,具体实施时,可以通过OCR检测确定出目标图片中的间隔标识;再以间隔标识作为划分依据,将目标区域划分为多个区块;再分别对多个区块中的各个区块进行字符识别,以确定并提取得到各个区块中的字符段,完成目标图片中字符段的提取。
在一个实施方式中,在从所述目标图片中提取出多个字符段后,考虑到后续的业务处理所要使用的证件信息往往是与用户个人相关的,区别于他人的特征信息,可以理解为是一种提取价值较高的信息,是真正需要提取的证件信息。进一步又考虑到,通常证件的内容页面存在许多字符段所表征的信息只是用以起衔接上下文或者用以指示信息名称的作用,这类字符段所表征的信息往往是一种模板化的信息,即在不同用户的证件上都有的相同的信息,且后续的业务处理往往不需要使用到的信息,在此将这类提取价值较低的信息称为模板信息。具体实施时,为了便于后续能够更加准确、高效地从繁多的字符段中提取得到提取价值较高的证件信息,可以先对字符段进行过滤,以过滤掉表征模板信息的字符段(即模板字符段);再对过滤后的字符段进行具体的证件信息的识别提取。从而可以减少模板字符段对后续证件信息的识别提取的干扰,同时由于预先过滤掉了模板字符段,只需要对过滤后的字符段进行具体的识别,达达降低了后续进行识别的工作量,达到提高处理效率的效果。
在一个实施方式中,为了能够有效地过滤掉字符段中的模板字符段,具体实施时,可以按照以下方式执行:确定所述多个字符段中用于表征目标证件的模板信息的模板字符段;过滤所述多个字符段中的模板字符段。相应的,通过预设的文本分类模型,从所述多个字符段中识别出与所述目标证件的信息项匹配的字符段作为所述目标证件的证件信息,包括:通过预设的文本分类模型,从过滤后的字符段中识别出与所述目标证件的信息项匹配的字符段作为所述目标证件的证件信息。
具体的,例如,可以参阅图6所示。图中是包含有学位证的内容页面的照片。通过该照片可以读取到以下的信息内容:“李勇,男,1991年4月12日生,已完成电气工程学士学位培养计划。经XX科技大学学位评定委员会审议,授予工学学士学位”。通过区块划分可以得到以下多个包含有字符段的区块:区块1、区块2、区块3、区块4、区块5、区块6、区块7、区块8、区块9、区块10、区块11、区块12、区块13、区块14。再对上述多个区块分别进行字符段的识别提取,得到以下多个字符段:字符段1“李勇”、字符段2“男”、字符段3“1991年4月12日”、字符段4“生”、字符段5“已完成”、字符段6“电气工程”、字符段7“学士学位”、字符段8“培养计划”、字符段9“经”、字符段10“XX科技大学”、字符段11“学位评定委员会审议”、字符段12“授予”、字符段13“工学学士”、字符段14“学位”。进一步,对字符段进行检测,发现字符段1、字符段2、字符段3、字符段6、字符段7、字符段10、字符段13所表征的信息内容是与用户本身相关的,能够反映出用户区别于他人的特征信息,即具有较高的提取价值,后续的业务处理可能会使用的,需要提取的证件信息。而字符段4、字符段5、字符段8、字符段9、字符段11、字符段12、字符段14所表征的信息内容是不能反映用户本身的区别于他人的特征信息,是大部分学位证上都具有的相同的信息内容,即是提取价值较低的表征模板信息的模板字符段。进而可以对上述14个字符段中的模板字符段进行过滤处理,剩下字符段1、字符段2、字符段3、字符段6、字符段7、字符段10、字符段13作为过滤后的字符段,进行后续具体的证件信息的识别提取。
在一个实施方式中,为了能够准确地从多个字符段中确定出表征模板信息的模板字符段,具体实施时,可以包括以下内容:提取所述多个字符段中各个字符段的关键词;检索预设的模板词库,以确定所述预设的模板词库中是否存在模板词与字符段的关键词匹配;在确定所述预设的模板词库中存在模板词与字符段的关键词匹配的情况下,将所述字符段确定为模板字符段。
在本实施方式中,上述关键词具体可以理解为字符段中用于表征该字符段的主要语义的字符组合。例如,字符段“房屋产权人的姓名”中的关键词可以是“房屋产权人”。具体实施时,可以根据目标证件的具体类型,以及相应的业务处理需要设置相应规则以提取字符段中的字符组合作为上述关键词。
在本实施方式中,上述预设的模板词库具体可以理解为预先根据目标证件的类型,从同类型的证件的内容页面中提取出用于表征模板信息的字符段,并利用上述表征模板信息的字符段作为模板词,所建立的词汇库。
在本实施方式中,在确定字符段是否为模板字符段时,可以对预设的模板词库进行检索,以确定在预设的模板词库中是否存在模板词所表征的语义与字符段的关键词所表征的语义一致或者两者的差异程度小于阈值。如果确定在预设的模板词库中是存在模板词所表征的语义与字符段的关键词所表征的语义一致或者两者的差异程度小于阈值,则可以判断该字符段为模板字符段。如果确定在预设的模板词库中不存在模板词所表征的语义与字符段的关键词所表征的语义一致或者两者的差异程度小于阈值,则可以判断该字符不是模板字符段。
在一个实施方式中,为了进一步能够提高确定模板字符段的准确度,避免将不是模板字符段的,具有较高提取价值的字符段误判为模板字符段过滤掉,可以在确定所述预设的模板词库中存在模板词与字符段的关键词匹配的情况下,再根据其他的特征信息(例如字符段的字符数量)对该字符段进行进一步的识别、判断,以便更加准确地确定该字符段是否是模板字符段。
在一个实施方式中,在确定所述预设的模板词库中存在模板词与字符段的关键词匹配的情况下,所述方法具体还可以包括以下内容:统计所述字符段的字符数;检测所述字符段的字符数是否位于与所述模板词对应的字符数的阈值范围内;在确定所述字符段的字符数位于与所述模板词对应的字符数的阈值范围内的情况下,将所述字符段确定为模板字符段。
在本实施方式中,考虑到通常模板字符段所表征信息大多是固定的内容,因此模板字符段的字符数往往会满足一定的数值范围的。例如与模板词“房屋产权人”匹配的模板字符段可以是“产权人”、“产权人姓名”、“房屋产权人”、“房屋产权人姓名”等,虽然上述所列举的4个模板字符段并不完全相同,但表征的都是同一个固定内容,都是模板出“房屋产权人”匹配,并且通过比较发现:上述模板字符段的字符数满足大于等于3且小于等于7的数值范围。因此,可以将上述数值范围作为与模板词“房屋产权人”对应的字符数的阈值范围,作为一种判断依据,以更加准确地判断字符段是否是与模板词“房屋产权人”匹配的模板字符段。
具体的,例如,字符段“产权人大厦11层501室”提取得到的关键词为“产权人”与预设的模板词库中存在的模板词“房屋产权人”语义相近,这时如果仅基于预设的模板词库的匹配结果进行判断,很有可能会将该字符段误判为模板字符段。然而实际上这个字符段是用于表征地址信息的,具有提取价值的字符段,并不是模板字符段。按照上述方式,在确定该字符段与预设的模板词库中的模板词“房屋产权人”的情况下,进一步可以继续检测该字符段的字符是否位于“房屋产权人”这个模板词所对应的字符数的阈值范围内。统计该字符段的字符数为9,而与“房屋产权人”对应的字符数的阈值范围为大于等于3,且小于等于7,因此,可以确定该字符段的字符数不在上述阈值范围内,进而可以判断该字符段不是模板字符段。
在一个实施方式中,考虑到提取字符段的过程中可能存在将不是字符的图案花纹误判为了字符进行了提取,因此,在提取了多个字符段后,所述方法还包括:检测所述字符段中是否存在噪声字符段,删除所述字符段中的噪声字符段。
其中,上述噪声字符段具体可以理解为在字符段提取过程中将内容页面上的花纹、图案等非字符内容错误地判断为了字符提取得到的字符段。这类噪声字符段往往不能表征出信息内容。因此,可以按照以下方式检测出字符段中的噪声字符段:通过语义识别,将没有信息内容,即无意义的字符段确定为噪声字符段。
在一个实施方式中,上述通过预设的文本分类模型,从所述多个字符段中识别出与所述目标证件的信息项匹配的字符段作为所述目标证件的证件信息。具体实施时,例如,可以包括以下内容:将字符段中的字符与预设的文本分类模型中的字符库进行比对,得到字符段的字符比对结果,其中,所述字符库包括多个与文本类型关联的字符库;根据预设的文本分类模型中的规则集,确定字符段的构成规则的匹配结果,其中,所述规则集包括多个与文本类型关联的字符段中的字符的构成规则;根据所述字符段的字符比对结果、所述字符段的构成规则的匹配结果,确定所述字符段的文本类型标识;从所述多个字符段中确定出文本类型标识与所述目标证件的信息项匹配的字符段作为所述目标证件的证件信息。
在本实施方式中,上述预设的文本分类模型具体可以理解为基于证件的内容页面所记载的信息内容,以及具体的应用场景(例如后续业务处理所涉及到的相关数据),预先通过对样本数据进行学习训练得到的能够识别确定字符段的文本类型,并基于字符段的文本类型,确定出与信息项匹配或对应的字符段的分类模型。
在本实施方式中,上述文本类型具体可以理解为字符段所表征的信息的内容类型。其中,上述字符段的文本类型可以包括以下至少之一:姓名、地址、手机号码、婚姻等等。例如,字符段“王小明”的文本类型可以为姓名等。当然,需要说明的是上述所列举的文本类型只是为了更好地说明本说明书实施方式。具体实施时,还可以根据具体的应用场景,引入其他的信息类型作为文本类型,例如时间、面积、证件编号等。对此,本说明书不作限定。
在本实施方式中,上述文本类型标识具体可以理解为一种与文本类型对应的数据标签,通过该数据标签可以表征出对应的文本类型。具体的,上述文本类型标识可以是按照一定规则构成的字符串。例如,文本类型“姓名”所对应的文本类型标签可以表示为以下形式“XM”。当然,上述所列举的文本类型标识只是一种示意性说明。对于文本类型标识的具体形式,本说明书不作限定。
在本实施方式中,上述信息项具体可以理解为与所要提取的目标证件的证件信息对应的信息名称。其中,信息项具体可以根据目标证件的类型,以及后续业务处理所要使用到的证件信息确定。例如,目标证件为学位证,相关的业务处理需要使用到学位、学校、学位证号等证件信息。对应的,信息项可以包括:学位类型、毕业院校、学位证编号等。当然,需要说明的是,上述所列举的信息项只是一种示意性说明。具体实施时,可以根据具体情况,选择相应的证件信息对应的信息名称作为信息项。对此,本说明书不作限定。
具体的,例如,上述预设的文本分类模型具体还可以包含有通过学习、训练生成的字符库和规则集。
其中,上述字符库具体可以包括多个与文本类型关联的字符库,不同类型的字符库存储有与不同文本类型相关的字符。例如,上述字符库中可以包含有与姓名关联的字符库、与地址关联的字符库、与手机号码关联的字符库等。
上述规则集具体可以包括多个与文本类型关联的字符段的字符的构成规则。其中,上述字符的构成规则具体可以包括字符段的字符数特征、字符段中字符的组合方式、字符段的特征字符等。对于不同的文本类型,所关联的字符的构成规则往往是不相同的。当然需要说明的是,上述所列举的字符库和规则集只是为了更好地说明本说明书实施方式。对于字符库、规则集的具体内容本说明书不作限定。
例如,对于文本类型为姓名的字符段的字符构成规则包括:字符组合方式为在表征姓氏的字符部分后连接有表征名字的字符部分;字符数的特征为对于表征姓氏的字符部分对应的字符数通常限制为1至2个,对于表征名字的字符部分对应的字符数通常限制为1至3个;特征字符包括能够与百家姓等中的字符匹配表征姓氏的字符。因此,具体确定字符段的构成规则的匹配结果时,可以在检测到一个字符段中起始的字符部分中字符是与百家姓等匹配的特征字符,且字符数小于等于2个的情况下,判断该字符部分具有较大概率是表征姓氏的字符部分;进一步可以对该字符部分后面所连接的字符部分进行检测,在检测到该字符部分的字符数在1到3的范围之间,可以判断该字符段具有较大概率是表征名字的字符部分,进而可以判断该字符段的文本类型具有较大概率为姓名,即确定出了该字符段的构成规则的匹配结果。
又例如,对于文本类型为面积的字符段的字符构成规则包括:字符段中字符的组合方式为在表征数字的字符部分后连接有表征面积单位的字符部分;特征字符包括在表征面积单位的字符部分中的面积单位“平方米”。因此,具体确定字符段的构成规则的匹配结果时,当检测到一个字符段中存在有“平方米”这个特征字符时,可以判断该特征字符所在的字符部分有较大概率是表征面积单位的字符部分;进而可以对该字符部分前面连接的字符部分进行检测,确定该字符部分是否是表征数字的字符部分,如果确定出该字符部分表征的语义是数字,则可以判断该字符段的文本类型具有较大概率为面积,即确定出了该字符段的构成规则的匹配结果。
在本实施方式中,上述将字符段中的字符与预设的文本分类模型中的字符库进行比对,得到字符段的字符比对结果,具体可以包括:将字符段中各个字符分别与预设的文本分类模型中的多个与文本类型关联的字符库进行检索比对,以得到各个字符的比对结果(即确定各个字符分别与哪种文本类型的字符库匹配);再根据字符段中各个字符的比对结果,确定出字符段整体属于各个文本类型的概率值,并将概率值最高的文本类型确定为上述字符段的字符比对结果。
在本实施方式中,上述根据预设的文本分类模型中的规则集,确定字符段的构成规则的匹配结果,具体可以包括:确定字符段中字符的组合特点,并根据字符段中字符的组合特点,从规则集中筛选出与字符段中字符的组合特点一致或差异程度小于阈值程度的字符段中的字符的构成规则所对应的文本类型作为该字符段的文本类型,即得到了字符段的构成规则的匹配结果。
在本实施方式中,上述根据所述字符段的字符比对结果、所述字符段的构成规则的匹配结果,确定所述字符段的文本类型标识,具体实施时,可以包括:按照预设的权重值综合上述字符段的字符比对结果、字符段的构成规则的匹配结果这两种评价参数进行加权求和,得到综合评价结果,其中,所述综合评价结果用于指示字符段基于所述字符段的字符比对结果、所述字符段的构成规则的匹配结果属于某一种文本类型的概率值;再根据上述综合评价结果,确定出概率值最高的文本类型为该字符段的文本类型,将该文本类型所对应的文本类型标识确定为该字符段的文本类型标识。其中,上述预设的权重值具体可以根据所述字符段的字符比对结果、所述字符段的构成规则的匹配结果两者之间的相对重要程度来确定。
在本实施方式中,上述从所述多个字符段中确定出文本类型标识与所述目标证件的信息项匹配的字符段作为所述目标证件的证件信息,具体可以包括:对字符段的文本类型标识进行检索,以选择出文本类型标识与信息项匹配(即文本类型标识所指示的文本类型与信息项一致或者文本类型与信息项的差异程度小于阈值程度)的字符段作为表征证件信息的字符段进行提取,以获得相应的证件信息。例如,可以获取如下证件信息:房屋产权人为王小明,房屋面积为118平方米等。
在本实施方式中,在获取了目标证件的证件信息后,进一步可以根据目标证件的证件信息,进行相关的业务处理。例如,根据证件信息对用户的身份进行验证核实,或者根据证件信息开展针对该用户的服务等。对于后续的业务处理,本说明书不作限定。
在一个实施方式中,所述目标证件具体可以包括以下至少之一:学位证、学生证、房产证、驾驶证等。当然,需要说明的是,上述所列举的目标证件的证件类型只是为了更好地说明本说明书实施方式。对于目标证件的具体类型本说明书不作限定。
在本实施方式中,需要补充的是,基于本说明书实施例提供的证件信息的提取方法可以对同一证件类型的不同版本或者使用不同排版格式的内容页面的图片进行证件信息的提取。即,对于同一证件类型的不同版本或者使用不同排版格式的内容页面,即使后续该类型的内容页面发生了变化(例如改版更新),上述证件信息的提取方法都能够适用,具有较好的适用性,避免了类似现有方法,需要分别为每一个版本或者每一种排版格式的内容页面设置对应的格式模板,降低了提取成本。
在一个实施方式中,所述预设的文本分类模型具体可以按照以下方式建立:
S1:获取与目标证件的信息项对应的文本数据作为样本数据;
S2:标注所述样本数据的信息项,得到标注后的样本数据;
S3:利用所述标注后的样本数据进行训练,建立所述预设的文本分类模型。
在本实施方式中,所获取的样本数据具体可以是与信息项对应的文本数据。例如,与房屋产权人信息对应的多个姓名文本(例如,王小明、李晓华、张三、李四等)可以作为针对信息项为房屋产权人信息的样本数据。与房屋的坐落位置信息对应的多个地址文本(例如,苏州工业园唯亭路森林湖5栋105号等)作为针对信息项为房屋坐落位置信息的样本数据。
在本实施方式中,上述标注所述样本数据的信息项,具体可以包括:分别标注出各个样本数据的信息项。例如,可以在样本数据“李晓华”上标注出该样本数据对应的信息项为“房屋产权人信息”。在样本数据“苏州工业园唯亭路森林湖5栋105号”上标注出该样本数据对应的信息项为“房屋坐落位置信息”等。
在本实施方式中,例如,上述利用所述标注后的样本数据进行训练,建立所述预设的文本分类模型,可以是根据所述标注后的样本数据,建立所述预设的文本分类模型中的字符库和规则集。具体实施时,可以包括:利用上述标注后的样本数据对神经网络模型进行学习、训练。具体的,可以将上述标注后的样本数据分为训练集和测试集,通过上述训练集和测试集分别对神经网络模型进行训练和测试,以生成相应的字符库和规则集,从而获得训练好的预设的文本分类模型。
由上可见,本说明书实施例提供的证件信息的提取方法,通过对包含有目标证件的内容页面的目标图片整体进行字符段的提取,得到多个字符段,再利用预设的文本分类模型直接对多个字符段进行识别,以确定出多个字符段中与目标证件的信息项所匹配的字符段作为证件信息,从而使得证件信息的提取过程不再受证件的排版格式的制约和影响,降低了实施成本,并高效、准确地进行证件信息的提取;还通过先对字符段进行模板字符段的检测识别,并过滤掉字符段的模板字符段,从过滤后的字符段中进行证件信息的提取,避免了模板字符段的干扰,提高了提取精度,也降低了工作量,提高了处理效率。
参阅图7所示,本说明书实施例还提供了另一种证件信息的提取方法,具体实施时,该方法可以包括以下内容。
S71:获取包含有目标证件的内容页面的目标图片;
S72:从所述目标图片中提取出多个字符段;
S73:通过预设的字符段分类模型,从所述多个字符段中识别出有效字符段;
S74:根据所述有效字符段,获取目标证件的证件信息。
在本实施方式中,具体实施时,可以通过对目标图片进行光学字符识别,以从目标图片中提取得到多个字符段。
在本实施方式中,从目标图片中提取得到的多个字符段通常会包含有多种不同类型的字符段。例如,上述多个字符段可以包括:模板字符段、噪声字符段和有效字符段等。
其中,上述模板字符段具体可以是指用于表征证件的模板信息的字符段。例如,图3中的字符段“房屋产权人”。上述有效字符段具体可以是指包含有待提取的证件信息,即包含区别于模板字符段,能够表征用户的特征信息的字符段。例如,图3中的字符段“王小明”。上述噪声字符段具体可以是字符段识别过程中被误识别为字符段的非字符段内容。这类噪声字符段通常可能是目标证件的内容页面中的花纹、图案、表格边框等,由于识别错误,被误识别为了某些形状相似的字符段。例如,图3中的噪声字符段就是一种将表格中的边框线错误地识别为了字符段“1”。
在本实施方式中,所述有效字符段具体可以包括:表征姓名信息的字符段(例如图3中的字符段“王小明”)、表征地址信息的字符段(例如图3中的字符段“杭州西溪园123号”)、表征证件编号的字符段(例如图3中的字符段“20180921214X”)等。当然,需要说明的是,上述所列举的有效字符段只是为了更好地说明本说明书实施方式。具体实施时,根据具体情况和对所提取的证件信息的使用要求,上述有效字符还可以是表征登记时间的字符段,或者表征地号的字符段等。对此,本说明书不作限定。
在本实施方式中,上述有效字符段由于携带有待提取的证件信息,因此,可以理解为是一种有提取价值、有效的字符段。相对的,上述模板字符段、噪声字符段所包含的信息不是所需要提取的信息,因此可以理解为是一种没有提取价值、无效的字符段。
在本实施方式中,上述预设的字符段分类模型具体可以理解为预先通过对样本数据的训练学习,建立得到的能够识别出有效字符段的分类模型。具体的,可以将字符段作为输入,输入至上述预设的字符段分类模型,以确定该字符段是否为有效字符段。
在本实施方式中,具体实施时,可以利用上述预设的字符段分类模型直接从多个字符段中识别、筛选出有效字符段,进而根据上述有效字符段确定出待提取的目标证件的证件信息。
在一个实施方式中,所述预设的字符段分类模型还可以用于识别所述字符段中的模板字符段和噪声字符段。
在本实施方式中,上述预设的字符段分类模型具体可以理解为预先通过对样本数据的训练学习,建立得到能够准确地区分字符段类型的分类模型。具体的,可以将字符段作为输入,输入至上述预设的字符段分类模型,以确定该字符的类型是模板字符段、噪声字符段,还是有效字符段。
在一个实施方式中,所述预设的字符段分类模型具体可以是按照以下方式建立得到的:
S1:获取与目标证件的证件信息相关的字符段数据,以及目标证件中的非字符段数据,作为样本数据;
S2:将所述字符段数据中用于表征目标证件的模板信息的字符段数据标注为模板字符段;将所述字符段数据中非模板字符的字符段数据标注为有效字符段;将所述非字符段数据标注为噪声字符段;得到标注后的样本数据;
S3:利用所述标注后的样本数据进行训练,得到所述预设的字符段分类模型。
在本实施方式中,获取与目标证件的证件信息相关的字符段数据,具体可以包括:获取多个目标证件,将目标证件上的字符段数据提取出来,作为上述与目标证件的证件信息相关的字符段数据。
在本实施方式中,所获取的与目标证件的证件信息相关字符段数据中具体可以包括有表征目标证件的模板信息的字符段数据,例如,图3中的字符段“登记时间”。可以将上述表征模板信息的字符段数据先检索出来,并将上述字符段标注为模板字符段。在标注完模板字符段后,剩下的字符数据则是表征用户的特征信息的字符段数据,例如,图3中的字符段“2018年09月21日”。将上述剩下的字符段数据标注为有效字符段。
在本实施方式中,获取目标证件中的非字符段数据,具体可以包括:获取多个目标证件,截取目标证件上的图形、花纹、表格方框等图像(例如证件上的logo或者表格上的分隔线等)作为上述非字符段数据。在获取得到了上述非字符段数据后,可以将上述非字符段数据标注为噪声字符段。
在本实施方式中,可以将标注后的与目标证件的证件信息相关的字符段数据,以及目标证件中的非字符段数据作为标注后的样本数据,利用上述样本数据对神经网络进行训练、学习,以建立得到能够识别出字符段的类型的预设的字符段分类模型。
在一个实施方式中,上述根据所述有效字符段,获取目标图片中的目标证件的证件信息,具体实施时,可以包括以下内容:确定所述有效字符段中各个字符段的文本类型标识;从所述有效字符段中提取出文本类型标识与目标证件的信息项匹配的字符段作为目标证件的证件信息。
具体的,按照上述方式,可以字符段中有效字符段的文本类型标识进行进一步的确定。例如,分别确定出以下的有效字符段的类型标识分别为:字符段“王小明”的文本类型标识为姓名,字符段“2018年09月21日”的文本类型标识为时间,字符段“杭州西溪园123号”的文本类型标识为地址。
进而可以根据字符段的文本类型标识与待提取的目标证件的证件信息的信息项,从多个有效字符段中精确地提取得到所要提取的证件信息。例如,想要提取的证件信息是房屋产权人的名字,即对应的是目标证件中的信息项“房屋产权人”。检索上述多个有效字符段的文本类型标识,发现与信息项“房屋产权人”匹配的文本类型标识是“姓名”。因此,可以将文本类型标识为“姓名的”字符段“王小明”从多个有效字符段中提取出来,从而得到想要提取的证件信息,即房屋产权人的名字是王小明。
当然,需要说明的是,上述所列举的先确定有效字符段中各个字符段的文本类型标识;再从有效字符段中提取出文本类型标识与目标证件的信息项匹配的字符段作为目标证件的证件信息的实现方式只是为了更好地说明本说明书实施方式。具体实施时,也可以根据具体的应用场景,采用其他合适的方式来根据所述有效字符段获取目标证件的证件信息。例如,如果所有的有效字符段所表征的信息都是需要提取的证件信息,则可以直接将所获取的有效字符段作为目标证件的证件信息。对此,本说明书不作限定。
在一个实施方式中,具体实施时,可以通过预设的文本分类模型确定所述有效字符段中各个字符段的文本类型标识;从所述有效字符段中提取出文本类型标识与目标证件的信息项匹配的字符段作为目标证件的证件信息。
在本实施方式中,上述预设的文本分类模型具体可以理解为基于目标证件的内容页面所记载的信息内容,以及具体的应用场景(例如后续业务处理所涉及到的相关数据),预先通过对样本数据进行学习训练得到的能够识别确定字符段的文本类型,并基于字符段的文本类型,确定出与信息项匹配或对应的字符段的分类模型。
在本实施方式中,具体实施时,可以将上述有效字符段作为模型输入,输入至上述预设的文本分类模型中。预设的文本分类模型可以识别出各个有效字符段的文本类型标识,并将文本类型标识与待提取的目标证件的信息项匹配的有效字符段所表征的信息作为输出,从而得到了想要提取的目标证件的证件信息。
在一个实施方式中,所述预设的文本分类模型具体可以是按照以下方式训练得到的:获取与目标证件的信息项对应的文本数据作为样本数据;标注所述样本数据的信息项,得到标注后的样本数据;利用所述标注后的样本数据进行训练,以建立所述预设的文本分类模型。
参阅图8所示,本说明书实施例还提供了一种文本信息的提取方法,具体实施时,可以包括以下内容。
S81:获取包含有目标文本的目标图片;
S82:从所述目标图片中提取出多个字符段;
S83:通过预设的文本分类模型,从所述多个字符段中识别出与所述目标文本的信息项匹配的字符段作为所述目标文本的文本信息。
在本实施方式中,上述目标文本具体可以是记载有文本信息的数据文件。具体的,上述目标文本可以是相关证件,例如,学位证、驾驶证、房产证等;也可以是证明文书,例如,获奖证明、户籍证明等;还可以是通知书,例如放假通知、录取通知等。对于上述目标文本的具体内容和形式本说明书不作限定。
在一个实施方式中,在从所述目标图片中提取出多个字符段后,为了避免模板字符段的干扰,提高后续提取文本信息的效率,具体实施时,所述方法还可以包括以下内容:检测并确定所述多个字符段中用于表征目标文本的模板信息的模板字符段;过滤所述多个字符段中的模板字符段;相应的,通过预设的文本分类模型,从所述多个字符段中识别出与所述目标文本的信息项匹配的字符段作为所述目标文本的文本信息,可以包括:通过预设的文本分类模型,从过滤后的字符段中识别出与所述目标文本的信息项匹配的字符段作为所述目标文本的文本信息。
在一个实施方式中,上述确定所述多个字符段中用于表征目标文本的模板信息的模板字符段,具体实施时,可以包括以下内容:提取所述多个字符段中各个字符段的关键词;检索预设的模板词库,以确定所述预设的模板词库中是否存在模板词与字符段的关键词匹配;在确定所述预设的模板词库中存在模板词与字符段的关键词匹配的情况下,将所述字符段确定为模板字符段。
在一个实施方式中,上述通过预设的文本分类模型,从所述多个字符段中识别出与所述目标文本的信息项匹配的字符段作为所述目标文本的文本信息,具体实施时,可以包括以下内容:通过所述预设的文本分类模型确定所述多个字符段中各个字符段的文本类型标识;从所述多个字符段中提取出文本类型标识与目标文本的信息项匹配的字符段作为目标文本的文本信息。
由上可见,本说明书实施例提供的文本信息的提取方法,通过对包含有目标文本的内容页面的目标图片整体进行字符段的提取,得到多个字符段,再利用预设的文本分类模型直接对多个字符段进行识别,以确定出多个字符段中与目标文本的信息项所匹配的字符段作为文本信息,从而使得文本信息的提取过程不再受文本的排版格式的制约和影响,降低了实施成本,并高效、准确地进行文本信息的提取。
参阅图9所示,本说明书实施例还提供了一种文本分类模型的建立方法,具体实施时,可以包括以下内容。
S91:获取与证件的信息项对应的文本数据作为样本数据;
S92:标注所述样本数据的信息项,得到标注后的样本数据;
S93:根据所述标注后的样本数据,建立所述文本分类模型。
具体的,例如,可以根据所述标注后的样本数据,建立文本分类模型中的字符库和规则集,其中,所述字符库包括多个与文本类型关联的字符库,所述规则集包括多个与文本类型关联的字符段中的字符的构成规则。
在本实施方式中,上述文本分类模型具体可以理解为基于目标文本的内容页面所记载的信息内容,以及具体的应用场景(例如后续业务处理所涉及到的相关数据),预先通过对样本数据进行学习训练得到的能够识别确定字符段的文本类型,并基于字符段的文本类型,确定出与信息项匹配或对应的字符段的分类模型。
在本实施方式中,所建立的上述文本分类模型具体还包含有通过学习、训练生成的字符库和规则集。
其中,上述字符库具体可以包括多个与文本类型关联的字符库,不同类型的字符库存储有与不同文本类型相关的字符。上述规则集具体可以包括多个与文本类型关联的字符段的字符的构成规则。上述字符的构成规则具体可以包括字符段的字符数特征、字符段中字符的组合方式、字符段的特征字符等。
在本实施方式中,具体实施时,可以利用上述标注后的样本数据对神经网络模型进行学习、训练,具体的,可以将上述标注后的样本数据分为训练集和测试集,通过上述训练集和测试集分别对神经网络模型进行训练和测试,以生成相应的字符库和规则集,从而获得训练好的预设的文本分类模型。
由上可见,本说明书提供的文本分类模型的建立方法,通过获取与证件的信息项对应的文本数据作为样本数据;并标注样本数据对应的证件信息项,再对标注后的样本数据进行学习训练,以得到能够高效地识别确定各个字符段的文本类型,以及与文本类型对应的信息的项的文本分类模型。
本说明书实施例还提供了一种服务器,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器具体实施时可以根据指令执行以下步骤:获取包含有目标证件的内容页面的目标图片;从所述目标图片中提取出多个字符段;通过预设的文本分类模型,从所述多个字符段中识别出与所述目标证件的信息项匹配的字符段作为所述目标证件的证件信息。
为了能够更加准确地完成上述指令,参阅图10,本说明书还提供了另一种具体的服务器设备,其中,所述服务器包括网络通信端口1001、处理器1002以及存储器1003,上述结构通过内部线缆相连,以便各个结构可以进行具体的数据交互。
其中,所述网络通信端口1001,具体可以用于获取包含有目标证件的内容页面的目标图片。
所述处理器1002,具体可以用于从所述目标图片中提取出多个字符段;通过预设的文本分类模型,从所述多个字符段中识别出与所述目标证件的信息项匹配的字符段作为所述目标证件的证件信息。
所述存储器1003,具体可以用于存储井网络通信端口1001获取的目标图片、处理器902生成的中间数据,以及相应的指令程序。
在本实施方式中,所述网络通信端口1001可以是与不同的通信协议进行绑定,从而可以发送或接收不同数据的虚拟端口。例如,所述网络通信端口可以是负责进行web数据通信的80号端口,也可以是负责进行FTP数据通信的21号端口,还可以是负责进行邮件数据通信的25号端口。此外,所述网络通信端口还可以是实体的通信接口或者通信芯片。例如,其可以为无线移动网络通信芯片,如GSM、CDMA等;其还可以为Wifi芯片;其还可以为蓝牙芯片。
在本实施方式中,所述处理器1002可以按任何适当的方式实现。例如,处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。本说明书并不作限定。
在本实施方式中,所述存储器1003可以包括多个层次,在数字系统中,只要能保存二进制数据的都可以是存储器;在集成电路中,一个没有实物形式的具有存储功能的电路也叫存储器,如RAM、FIFO等;在系统中,具有实物形式的存储设备也叫存储器,如内存条、TF卡等。
本说明书实施例还提供了一种基于上述证件信息的提取方法的计算机存储介质,所述计算机存储介质存储有计算机程序指令,在所述计算机程序指令被执行时实现:获取包含有目标证件的内容页面的目标图片;从所述目标图片中提取出多个字符段;通过预设的文本分类模型,从所述多个字符段中识别出与所述目标证件的信息项匹配的字符段作为所述目标证件的证件信息。
在本实施方式中,上述存储介质包括但不限于随机存取存储器(Random AccessMemory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(Hard DiskDrive,HDD)或者存储卡(Memory Card)。所述存储器可以用于存储计算机程序指令。网络通信单元可以是依照通信协议规定的标准设置的,用于进行网络连接通信的接口。
在本实施方式中,该计算机存储介质存储的程序指令具体实现的功能和效果,可以与其它实施方式对照解释,在此不再赘述。
参阅图11所示,在软件层面上,本说明书实施例还提供了一种证件信息的提取装置,该装置具体可以包括以下的结构模块:
获取模块1101,具体可以用于获取包含有目标证件的内容页面的目标图片;
提取模块1102,具体可以用于从所述目标图片中提取出多个字符段;
识别模块1103,具体可以用于通过预设的文本分类模型,从所述多个字符段中识别出与所述目标证件的信息项匹配的字符段作为所述目标证件的证件信息。
在一个实施方式中,上述提取模块1102具体可以包括以下结构单元:
第一检测单元,具体可以用于检测所述目标图片中的间隔标识;
划分单元,具体可以用于根据所述间隔标识,将所述目标图片划分为多个区块;
识别单元,具体可以用于识别所述多个区块中的各个区块内的字符段,作为所述多个字符段。
在一个实施方式中,所述间隔标识具体可以包括以下至少之一:分隔线、预设标点符号、大于阈值面积的空白区域等。当然,需要说明的是,上述所列举的间隔标识只是一种示意性说明,不应构成对本说明书的不当限定。
在一个实施方式中,所述装置还包括过滤模块,用于过滤掉所述多个字符段中的模板字符段。其中,所述过滤模块具体可以包括以下结构单元:
第二检测单元,具体可以用于确定所述多个字符段中用于表征目标证件的模板信息的模板字符段;
过滤单元,具体可以用于过滤所述多个字符段中的模板字符段。
相应的,上述识别模块1103具体实施时,可以通过预设的文本分类模型,从过滤后的字符段中识别出与所述目标证件的信息项匹配的字符段作为所述目标证件的证件信息。
在一个实施方式中,上述第二检测单元具体可以包括以下结构子单元:
提取子单元,具体可以用于提取所述多个字符段中各个字符段的关键词;
检索子单元,具体可以用于检索预设的模板词库,以确定所述预设的模板词库中是否存在模板词与字符段的关键词匹配;
确定子单元,具体可以用于在确定所述预设的模板词库中存在模板词与字符段的关键词匹配的情况下,将所述字符段确定为模板字符段。
在一个实施方式中,上述第二检测单元具体还可以包括:校验子单元,具体可以用于在确定所述预设的模板词库中存在模板词与字符段的关键词匹配的情况下,统计所述字符段的字符数;检测所述字符段的字符数是否位于与所述模板词对应的字符数的阈值范围内;在确定所述字符段的字符数位于与所述模板词对应的字符数的阈值范围内的情况下,将所述字符段确定为模板字符段。
在一个实施方式中,所述目标证件具体可以包括以下至少之一:学位证、学生证、房产证、驾驶证等。当然,需要说明的是,上述所列举的证件只是一种示意性说明,不应构成对本说明书的不当限定。
在一个实施方式中,所述装置还可以包括建立模块,用于建立预设的文本分类模型。其中,所述建立模块具体可以包括以下结构单元:
获取单元,具体可以用于获取与目标证件的信息项对应的文本数据作为样本数据;
标注单元,具体可以用于标注所述样本数据的信息项,得到标注后的样本数据;
建立单元,具体可以用于根据所述标注后的样本数据,建立所述预设的文本分类模型。
需要说明的是,上述实施例阐明的单元、装置或模块等,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书时可以把各模块的功能在同一个或多个软件和/或硬件中实现,也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
由上可见,本说明书实施例提供的证件信息的提取装置,通过提取模块对包含有目标证件的内容页面的目标图片整体进行字符段的提取,得到多个字符段,再通过识别模块利用预设的文本分类模型直接对多个字符段进行识别,以确定出多个字符段中与目标证件的信息项所匹配的字符段作为证件信息,从而使得证件信息的提取过程不再受证件的排版格式的制约和影响,降低了实施成本,并高效、准确地进行证件信息的提取;还通过过滤模块先对字符段进行模板字符段的检测识别,并过滤掉字符段的模板字符段,从过滤后的字符段中进行证件信息的提取,避免了模板字符段的干扰,提高了提取精度,也降低了工作量,提高了处理效率。
虽然本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或客户端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下,并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本说明书可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本说明书的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,移动终端,服务器,或者网络设备等)执行本说明书各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。本说明书可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
虽然通过实施例描绘了本说明书,本领域普通技术人员知道,本说明书有许多变形和变化而不脱离本说明书的精神,希望所附的权利要求包括这些变形和变化而不脱离本说明书的精神。