CN113837169B

CN113837169B - 文本数据处理方法、装置、计算机设备及存储介质

Info

Publication number: CN113837169B
Application number: CN202111149225.XA
Authority: CN
Inventors: 周忠梅
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-09-29
Filing date: 2021-09-29
Publication date: 2023-12-19
Anticipated expiration: 2041-09-29
Also published as: CN113837169A

Abstract

本发明涉及人工智能技术领域，揭露了一种文本数据处理方法、装置、计算机设备及存储介质，该方法通过获取目标文本图像，对目标文本图像进行文本识别得到目标识别文本；对目标识别文本进行实体识别得到目标特征信息；自目标文本图像中提取与特征实体标签对应的证明文本图像，并自预设凭证数据库中获取与特征实体标签对应的需求凭证图像；将证明文本图像与需求凭证图像进行比较，并在证明文本图像与需求凭证图像相同时，将目标特征信息输入至预设文本校验模型中，得到与目标纸质文本对应的文本校验结果。本发明提高了文本数据处理的准确率，还提高了文本校验的准确性以及效率。

Description

文本数据处理方法、装置、计算机设备及存储介质

技术领域

本发明涉及检测模型技术领域，尤其涉及一种文本数据处理方法、装置、计算机设备及存储介质。

背景技术

随着科学技术的发展，人工智能技术也逐渐在各个不同的领域中进行使用，例如广告领域、机器人领域、医疗领域等。人工智能技术中的文本识别技术应用非常广泛，例如文本识别、文本校验等。

在文本校验领域中，现有技术往往是通过人工审核的方式对文本进行校验，并且需要专业人士才知道相关的校验规则，因此人工审核的方式局限性较大；并且人工审核的方式容易出现审核错误的情况，进而导致文本校验的准确率较低且效率较低。

发明内容

本发明实施例提供一种文本数据处理方法、装置、计算机设备及存储介质，以解决文本校验的准确率以及效率较低的问题。

一种文本数据处理方法，包括：

获取目标文本图像，并对所述目标文本图像进行文本识别，得到目标识别文本；所述目标文本图像是高拍仪拍摄所述目标纸质文本所得到；

对所述目标识别文本进行实体识别，以提取所述目标识别文本中的目标特征信息；所述目标特征信息关联特征实体标签；

自所述目标文本图像中提取与所述特征实体标签对应的证明文本图像，并自预设凭证数据库中获取与所述特征实体标签对应的需求凭证图像；

将所述证明文本图像与所述需求凭证图像进行比较，并在所述证明文本图像与所述需求凭证图像相同时，将所述目标特征信息输入至预设文本校验模型中，得到与所述目标纸质文本对应的文本校验结果。

一种文本数据处理装置，包括：

文本识别模块，用于获取目标文本图像，并对所述目标文本图像进行文本识别，得到目标识别文本；所述目标文本图像是高拍仪拍摄所述目标纸质文本所得到；

实体识别模块，用于对所述目标识别文本进行实体识别，以提取所述目标识别文本中的目标特征信息；所述目标特征信息关联特征实体标签；

图像获取模块，用于自所述目标文本图像中提取与所述特征实体标签对应的证明文本图像，并自预设凭证数据库中获取与所述特征实体标签对应的需求凭证图像；

文本校验模块，用于将所述证明文本图像与所述需求凭证图像进行比较，并在所述证明文本图像与所述需求凭证图像相同时，将所述目标特征信息输入至预设文本校验模型中，得到与所述目标纸质文本对应的文本校验结果。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述文本数据处理方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述文本数据处理方法。

上述文本数据处理方法、装置、计算机设备及存储介质，该方法通过获取目标文本图像，并对所述目标文本图像进行文本识别，得到目标识别文本；对所述目标识别文本进行实体识别，以提取所述目标识别文本中的目标特征信息；所述目标特征信息关联特征实体标签；自所述目标文本图像中提取与所述特征实体标签对应的证明文本图像，并自预设凭证数据库中获取与所述特征实体标签对应的需求凭证图像；将所述证明文本图像与所述需求凭证图像进行比较，并在所述证明文本图像与所述需求凭证图像相同时，将所述目标特征信息输入至预设文本校验模型中，得到与所述目标纸质文本对应的文本校验结果。

本发明中的目标文本图像是通过高拍仪对目标纸质文本进行拍摄得到的，通过高拍仪拍摄可以避免出现如图像模糊、褶皱、倾斜等问题，提高了文本数据处理的准确率。进一步地，本实施例中通过对目标纸质文本进行凭证校验（如上述的证明文本图像）以及预设文本校验模型的双重校验，可以提高文本校验的准确性以及效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中文本数据处理方法的一应用环境示意图；

图2是本发明一实施例中文本数据处理方法的一流程图；

图3是本发明一实施例中文本数据处理方法中步骤S10的一流程图；

图4是本发明一实施例中文本数据处理装置的一原理框图；

图5是本发明一实施例中文本数据处理装置中文本识别模块的一原理框图；

图6是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的文本数据处理方法，该文本数据处理方法可应用如图1所示的应用环境中。具体地，该文本数据处理方法应用在文本数据处理系统中，该文本数据处理系统包括如图1所示的客户端和服务器，客户端与服务器通过网络进行通信，用于解决文本校验的准确率以及效率较低的问题。其中，客户端又称为用户端，是指与服务器相对应,为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

在一实施例中，如图2所示，提供一种文本数据处理方法，以该方法应用在图1中的服务器为例进行说明，包括如下步骤：

S10：获取目标文本图像，并对所述目标文本图像进行文本识别，得到目标识别文本；所述目标文本图像是高拍仪拍摄所述目标纸质文本所得到；

可以理解地，高拍仪即为图像拍摄仪器，该高拍仪像素较高（像素可高达2499p），进而使得最终得到的目标文本图像高度清晰，即使缩放也不会过多丢失目标文本图像的像素。如此，通过高拍仪进行图像拍摄，可以解决与目标纸质文本对应的目标文本图像会出现如褶皱、倾斜、模糊等问题，进而提高了后续步骤进行文本处理和文本校验的准确性。

目标纸质文本可以为如包含体检报告的投保申请文档、包含房屋建筑报告的建筑申请文档等，该目标纸质文本中包含多个连续且关联的纸质文本，也即多页关联性的纸质文本即为目标纸质文本。目标文本图像即为与目标纸质文本各页纸质文本对应的图像。在本实施中，文本识别可以采用OCR（OpticalCharacter Recognition，光学字符识别）文本识别方法。目标识别文本即为目标文本图像中的文本内容。

S20：对所述目标识别文本进行实体识别，以提取所述目标识别文本中的目标特征信息；所述目标特征信息关联特征实体标签；

可以理解地，实体识别即为确定目标识别文本所包含的实体类别的过程，进而可以确定目标识别文本中的各类实体，从而从目标识别文本的所有实体类别中过滤出目标特征实体，如此可以从目标识别文本中提取与目标特征实体对应的目标特征信息。示例性地，假设目标纸质文本为包含体检报告的投保申请文档，则对应的目标特征实体则可以为体检项目类别，进而可以提取用户在各体检项目类别下的数据，即为目标特征信息，亦或者目标特征实体可以为医生在体检报告中的决策判定实体，例如感冒这一结果为该病征判定实体，进而目标特征信息即为感冒。进而在确定目标特征信息之后，即可确定与目标特征信息关联的特征实体标签，例如感冒对应的特征实体标签可以为上呼吸道感染标签等，该特征实体标签可以是预先通过人工标注得到的。

又示例性地，假设目标纸质文本为包含房屋建筑报告的建筑申请文档时，则对应的目标特征实体则可以为建筑类别，进而可以提取在建筑类别下的数据，即为目标特征信息，进而在确定目标特征信息之后，即可确定与目标特征信息关联的特征实体标签，例如2层三室两厅等目标特征信息对应的特征实体标签公寓标签。

S30：自所述目标文本图像中提取与所述特征实体标签对应的证明文本图像，并自预设凭证数据库中获取与所述特征实体标签对应的需求凭证图像；

可以理解地，证明文本图像是指用户针对特征实体标签上传的证明文件的图像，示例性地，假设目标纸质文本为包含体检报告的投保申请文档，特征实体标签为上呼吸道感染时，则对应的证明文本图像可以为如CT图像等。需求凭证图像用于表征特征实体标签对应的需求证明文件的图像，该需求凭证图像可以为通过专业人员（如医生，核保人员等）确定的。进一步地，只有在用户提供的证明文本图像与需求凭证图像相同时（可以理解地，此处的相同不是指证明文本图像与需求凭证图像的图像内容完全一致，而是证明文本图像的图像类别，与需求凭证图像的图像类别一致），进而可以认为用户提供的目标纸质文本对应的凭证完整，在凭证完整的基础上再对目标纸质文本进行校验。

又一示例性地，假设目标纸质文本为包含房屋建筑报告的建筑申请文档，特征实体标签为公寓特征标签时，则对应的证明文本图像可以为公寓建筑授权书等。

S40：将所述证明文本图像与所述需求凭证图像进行比较，并在所述证明文本图像与所述需求凭证图像相同时，将所述目标特征信息输入至预设文本校验模型中，得到与所述目标纸质文本对应的文本校验结果。

具体地，在自所述目标文本图像中提取与所述特征实体标签对应的证明文本图像，并自预设凭证数据库中获取与所述特征实体标签对应的需求凭证图像之后，将证明文本图像与需求凭证图像进行比对，若证明文本图像的图像类别与需求凭证图像的图像类别相同时，例如假设特征实体标签为上呼吸道感染标签时，则出具的证明文本图像为用户的CT图像，且需求凭证图像也为CT图像时，则表征证明文本图像与需求凭证图像相同；除此之外，在需求凭证图像具有多个时，则需要求具有与需求凭证图像相同数量的证明文本图像，且每一个证明文本图像与需求凭证图像之间一一对应图像类别相同；进而在证明文本图像与需求凭证图像相同时，将目标特征信息输入至预设文本校验模型中，以通过预设文本校验模型确定该目标特征信息是否与目标纸质文本中的特征限定是否相同，进而得到文本校验结果。其中，文本校验结果包含表征目标纸质文本正确的结果，也包含表征目标纸质文本错误的结果。

示例性地，假设目标纸质文本为包含体检报告的投保申请文档，目标特征信息为感冒，特征实体标签为上呼吸道感染标签时，若该投保申请文档为该目标特征信息设定的投保等级为预设投保等级，则可以通过预设文本校验模型确定与该目标特征信息对应的真实投保等级，若预设投保等级与真实投保等级不同，则文本校验结果为表征目标纸质文本错误的结果。

进一步地，本实施例中的预设文本校验模型中包含特征分类模块以及等级决策模块；其中，特征分类模块可以采用如LSTM-CRF网络构建的模型，且该特征分类模块可以预先通过大量不同场景的样本进行训练得到；示例性地，该样本可以选择如病例文本、建筑文本等进行训练；如病例文本中记载了相关的病征信息，以及与病征信息对应的病征结果（该病征结果往往是如医生等专业人员标注的），进而可以根据病征信息与病征结果对特征分类模块进行训练，使得训练得到的特征分类模块可以准确得出特征信息与类别结果之间的关联关系。等级决策模块也可以采用如LSTM-CRF网络构建的模型，该等级决策模块也可以预先通过大量样本进行训练得到；示例性地，在投保文档中，各投保专业人员均会根据对应的投保项目信息（如上述的病征结果）确定用户可以参与投保的等级，进而根据该投保等级与病征结果对等级决策模块进行训练，如此使得训练得到的等级决策模块可以准确确定出与不同的类别结果对应的分类等级。

本实施例中的目标文本图像是通过高拍仪对目标纸质文本进行拍摄得到的，通过高拍仪拍摄可以避免出现如图像模糊、褶皱、倾斜等问题，提高了文本数据处理的准确率。进一步地，本实施例中通过对目标纸质文本进行凭证校验（如上述的证明文本图像）以及预设文本校验模型的双重校验，可以提高文本校验的准确性以及效率。

在一实施例中，所述目标纸质文本包含预设数量的纸质文本；如图3所示，步骤S10中，也即所述通过高拍仪采集目标纸质文本的目标文本图像，包括：

S101：接收包含文本翻阅速度的文本拍摄请求；

可以理解地，由于目标纸质文本存在多页纸质文本，进而在现有技术中需要拍摄目标纸质文本时需要拍摄一页纸质文本再上传，直至拍摄完所有页的纸质文本，因此本实施例中引入预设翻阅机器取代人工方式，且不需要每一页纸质文本均暂停进行拍摄，只需要规定一定的文本翻阅速度即可。其中，文本翻阅速度指的是翻动目标纸质文本的速度，该文本翻阅速度可以根据用户个人习惯进行设定，且该文本翻阅速度不宜设置过快，若文本翻阅速度快于高拍仪的拍摄速度，则可能导致部分页数的文本无法拍摄完整。

S102：在控制预设翻阅机器根据所述文本翻阅速度翻动所述目标纸质文本时，获取拍摄文本图像；所述拍摄文本图像是所述高拍仪拍摄各纸质文本得到的，且各所述拍摄文本图像的排布顺序与所述高拍仪的拍摄顺序一致；

可以理解地，预设翻阅机器可以为如机械臂、机器人等自动翻动目标纸质文本的器械。排布顺序与高拍仪的拍摄顺序相同，即为从目标纸质文本第一页纸质文本开始拍摄到最后一页的顺序，该排布顺序可以根据各拍摄文本图像的拍摄时间进行确定。

S103：获取所述拍摄文本图像的图像数量，并确定所述预设数量与所述图像数量是否相同，并在所述预设数量与所述图像数量相同时，检测各所述拍摄文本图像是否存在文本页码；

可以理解地，图像数量是指高拍仪拍摄目标纸质文本得到的拍摄文本图像的总数量。预设数量是指目标纸质文本中包含的纸质文本的总数量。

具体地，在获取拍摄文本图像之后，获取拍摄文本图像的图像数量，并将所述图像数量与预设数量进行比较；若预设数量与图像数量相同，则表征高拍仪拍摄完整，进而对各拍摄文本图像进行文本页码检测；若预设数量与图像数量不同，则表征高拍仪拍摄的拍摄文本图像存在缺失（预设数量大于图像数量时），或者拍摄重复（预设数量小于图像数量时），可能是由于文本翻阅速度设置的不合理导致的，如文本翻阅速度设置较快时，可能导致拍摄文本图像缺失；如文本翻阅速度设置较慢时，可能导致拍摄文本图像重复，进而可以根据图像数量与预设数量之间的差值，调整文本翻阅速度等，对目标纸质文本进行重新拍摄。

S104：在所述拍摄文本图像存在文本页码时，确定各所述拍摄文本图像的文本页码的页码顺序与所述排布顺序是否一致；

可以理解地，若拍摄文本图像存在文本页码，则获取按照排布顺序排序的各拍摄文本图像的页码顺序，页码顺序即为页码从小到大的排序；进而确定拍摄文本图像的文本页码的页码顺序与排布顺序是否一致，如此即可判定各拍摄文本图像是否存在图像错位（如页码为4的拍摄文本图像，在排布顺序下其位于页码为3的拍摄文本图像之前），如此即可对各拍摄文本图像进行第一次顺序校验。

S105：在所述页码顺序与所述排布顺序一致时，按照所述排布顺序对各所述拍摄文本图像进行上下文语义校验，得到第一语义校验结果；

具体地，在确定各拍摄文本图像的文本页码的页码顺序与排布顺序是否一致之后，若页码顺序与排布顺序一致，则初步判定拍摄文本图像的排序准确，但不能判定各拍摄文本图像均为来源于同一个文件；例如，假设目标纸质文本中的页码为4的拍摄文本图像对应的文本来源于另一纸质文本，且目标纸质文本中页码为4的文本恰好丢失，如此即使各拍摄文本图像的页码顺序与排布顺序相同，但是可能出现文本之间上下文不对应的问题。因此，在确定页码顺序与排布顺序一致之后，按照排布顺序对各拍摄文本图像进行上下文语义校验，得到第一语义校验结果。

进一步地，上下文语义校验可以通过将相邻两个拍摄文本图像中，前一个拍摄文本图像的最后N行（N可以取值为1，2等）的文本，与后一个拍摄文本图像的前N行的文本进行上下文语义分析，进而确定相邻两个拍摄文本图像之间是否相关。

在另一实施例中，步骤S103之后，也即所述检测各所述拍摄文本图像是否存在文本页码之后，还包括：

在所述拍摄文本图像不存在页码时，按照所述排布顺序对各所述拍摄文本图像进行上下文语义校验，得到第三语义校验结果。

可以理解地，在检测各拍摄文本图像不存在文本页码时，此时可以直接按照排布顺序对各拍摄文本图像进行上下文语义校验，也即对按照排布顺序排序的各拍摄文本图像中，前后的拍摄文本图像进行语义校验，得到第三语义校验结果。

在所述第三语义校验结果表征校验成功时，将各所述拍摄文本图像记录为所述目标文本图像。

具体地，在得到第三语义校验结果之后，若第三语义校验结果表征校验成功，则可确定按照排布顺序排序的拍摄文本图像之间具有上下文关联性，进而可以确定各拍摄文本图像的排序准确，且来源于同一文档，进而将各拍摄文本图像记录为目标文本图像。

S106：在所述第一语义校验结果表征校验成功时，将各所述拍摄文本图像记录为所述目标文本图像。

具体地，在按照排布顺序对各拍摄文本图像进行上下文语义校验，得到第一语义校验结果之后，若第一语义校验结果表征校验成功，也即表征按照排布顺序排序的拍摄文本图像之间具有上下文关联性，进而可以确定各拍摄文本图像的排序准确，且来源于同一文档，进而将各拍摄文本图像记录为目标文本图像。

进一步地，若第一语义校验结果表征校验失败，则表征存在至少一组相邻的拍摄文本图像不关联，进而表明该目标纸质文本中存在非本文档的文本，从而可以将不关联的拍摄文本图像发送至预设接收方，以令预设接收方调整目标纸质文本，以令目标纸质文本中的所有文本均来源于同一份文档，且内容关联。其中，预设接收方可以为提供目标纸质文本的用户等。

在本实施例中，通过设定文本翻阅速度后再通过高拍仪对目标纸质文本进行拍摄，可以提高对目标纸质文本进行图像拍摄的准确率以及效率。除此之外，本实施例在目标纸质文本包含页码时，对目标纸质文本对应的拍摄文本图像进行页码顺序以及上下文语义的双重校验，可以提高对拍摄文本图像的校验准确率。

在一实施例中，所述确定各所述拍摄文本图像的文本页码的页码顺序与所述排布顺序是否一致之后，还包括：

若所述页码顺序与所述排布顺序不一致，则根据所述页码顺序调整所述排布顺序，得到按照调整后的排布顺序排序的各拍摄文本图像；

可以理解地，在确定各拍摄文本图像的文本页码的页码顺序与排布顺序是否一致之后，若页码顺序与排布顺序不一致，则根据页码顺序调整排布顺序，也即根据页码顺序调整现有按照排布顺序排序的各拍摄文本图像，进而得到按照调整后的排布顺序排序的各拍摄文本图像。

按照调整后的排布顺序对各所述拍摄文本图像进行上下文语义校验，得到第二语义校验结果；

同理，在根据页码顺序调整排布顺序，得到按照调整后的排布顺序排序的拍摄文本图像后，按照调整后的排布顺序对各拍摄文本图像进行上下文语义校验，得到第二语义校验结果。

在所述第二语义校验结果表征校验成功时，将各所述拍摄文本图像记录为所述目标文本图像。

具体地，在按照调整后的排布顺序对各所述拍摄文本图像进行上下文语义校验，得到第二语义校验结果之后，若第二语义校验结果表征校验成功，也即表征按照调整后的排布顺序排序的拍摄文本图像之间具有上下文关联性，进而可以确定各拍摄文本图像的排序准确，且来源于同一文档，进而将各拍摄文本图像记录为目标文本图像。

在一实施例中，步骤S20中，也即所述对所述目标识别文本进行实体识别，以提取所述目标识别文本中的目标特征信息，包括：

获取预设实体识别模型；所述预设实体识别模型中包括嵌入层以及双向神经网络层。

可以理解地，本实施例中预设实体识别模型采用的是BiLSTM-CRF模型，该预设实体识别模型中包含嵌入层，该嵌入层用于进行词向量嵌入，也即将目标识别文本中的字词转换为词向量的过程。双向神经网络即为前向LSTM（Long Short-TermMemory，长短期记忆网络）网络以及后向LSTM网络。

进一步地，该预设实体识别模型可以预先通过大量样本文本进行训练得到，例如该样本文本可以为历史投保申请成功的文档，亦或者建筑申请成功的文档，进而可以对这些样本文本进行识别，从而根据识别结果不断对预设实体识别模型中的参数进行调整，使得训练得到的预设实体识别模型可以准确的识别出文档中的实体类别。

通过所述嵌入层对所述目标识别文本进行词向量嵌入，得到与所述目标识别文本对应的至少一个文本词向量；

具体地，通过预设实体识别模型中的嵌入层对目标识别文本中各字词进行词向量嵌入，得到与各文本字词对应的文本词向量。

通过所述双向神经网络层对各所述文本词向量进行字词信息处理，得到与各所述文本词向量一一对应的正向隐藏层向量以及反向隐藏层向量；

可以理解地，双向神经网络即为前向LSTM网络以及后向LSTM网络，前向LSTM网络用于学习图像文本中各文本词向量的正向上下文序列关系；后向LSTM网络用于学习图像文本中各文本词向量的反向上下文序列关系，如此可以提高后续实体识别的效率以及准确率。

示例性地，假设目标识别文本为“姓名：李四”，输入至预设实体识别模型中时其格式为“姓”、“名”，“：”，“李”，“四”；进而在通过嵌入层进行词向量嵌入后，通过双向神经网络中的前向LSTM网络进行正向上下文序列关系学习，也即从“姓”开始输入学习，到“四”结束；通过双向神经网络中的后向LSTM网络进行反向上下文序列关系学习，也即从“四”开始输入学习，到“姓”结束。

根据与各文本词向量对应的正向隐藏层向量以及反向隐藏层向量，确定与各所述文本词向量对应的实体识别结果；

具体地，在通过所述预设实体识别模型中的双向神经网络对各所述文本词向量进行字词信息处理，得到与各所述文本词向量一一对应的正向隐藏层向量以及反向隐藏层向量之后，根据各文本词向量对应的正向隐藏层向量以及反向隐藏层向量，确定与各文本词向量的实体类别概率，也即确定文本词向量属于实体分类的概率，进而根据该实体类别概率，确定与各文本词向量对应的实体识别结果。示例性地，假设图像文本为“姓名：李四”，则最终“李四”即会被识别为用户姓名实体。

对各所述实体识别结果进行实体筛选，得到目标特征实体，以从所述目标识别文本中提取与所述目标特征实体对应的目标特征信息。

可以理解地，实体筛选即为从实体识别结果中筛选出目标特征实体的过程。例如，可以预先对需要提取的目标特征实体在预设实体表中记录，进而在得到实体识别结果之后，将实体识别结果与预设实体表中的实体进行比对，以查询出与预设实体表中的实体相同的实体识别结果，进而将查询到的实体识别结果记录为目标特征实体，如此可以提高目标特征实体查询的效率以及准确率。

在一实施例中，所述目标特征信息关联特征分类等级；步骤S40中，也即所述将所述目标特征信息输入至预设文本校验模型中，得到与所述目标纸质文本对应的文本校验结果，包括：

将所述目标特征信息输入至预设文本校验模型中，得到与所述目标特征信息对应的特征类别实体。

可以理解地，预设文本校验模型用于根据目标特征信息对目标纸质文本进行校验。特征类别实体是指目标特征信息对应的特征类别，示例性地，假设目标特征信息为流鼻涕、重鼻音，则对应的特征类别实体可以为感冒类别实体；假设目标特征信息为单层三室两厅，特征类别实体可以为普通公寓实体等。

通过所述预设文本校验模型中的等级决策模块确定与所述特征类别实体对应的决策分类等级。

可以理解地，假设目标纸质文本为包含体检报告的投保申请文档，则该等级决策模块可以根据该特征类别实体，确定出与该目标特征信息对应的投保等级；假设目标纸质文本为包含房屋建筑报告的建筑申请文档，则该等级决策模块可以根据该特征类别实体，确定出与目标特征信息对应的房屋建筑等级。决策分类等级在不同场景下的意义不同，例如上述说明中指出的投保等级、房屋建筑等级等。

自预设特征等级知识库中，获取具有与所述特征类别实体相同的样本类别实体的所有特征等级知识对；一个所述特征等级知识对包含一个所述样本类别实体以及与所述样本类别实体关联的样本分类等级。

可以理解地，预设特征等级知识库为预先根据历史样本（如历史投保文档、历史建筑申请文档）生成，该预设特征等级知识库中包含多个特征等级知识对；一个特征等级知识对包含一个样本类别实体以及与样本类别实体关联的样本分类等级。其中，样本类别实体指的是与其对应的历史样本的特征信息对应的实体，示例性地，假设历史样本的特征信息为流鼻涕、重鼻音，则对应的样本类别实体可以为感冒类别实体；样本分类等级即为与其对应的历史样本中的等级（如投保等级，房屋建筑实体等）。在本实施例中的样本分类等级和样本类别实体之间的对应关系具有历史样本的依据，且该历史样本是通过专业人员审核通过的准确性较高的样本。

根据所述决策分类等级、所述样本分类等级以及所述特征分类等级，确定所述文本校验结果。

可以理解地，特征分类等级是指目标纸质文本中定义的分类等级，该特征分类等级是其它人员（如非专业人员）确定的等级，该特征分类等级可能是错误的，也可能是正确的，因此本实施例中通过决策分类等级，样本分类等级对该特征分类等级进行校验，进而提高文本校验的准确性。

具体地，在自预设特征等级知识库中，获取具有与所述特征类别实体相同的样本类别实体的所有特征等级知识对之后，根据决策分类等级、样本分类等级以及特征分类等级，确定特征分类等级和决策分类等级以及样本分类等级是否相同，若不同，则确定初始确定的特征分类等级是错误的，因此文本校验结果为文本错误；若相同，则确定初始确定的特征分类等级是正确的，因此文本校验结果为文本正确。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种文本数据处理装置，该文本数据处理装置与上述实施例中文本数据处理方法一一对应。如图4所示，该文本数据处理装置包括文本识别模块10、实体识别模块20、图像获取模块30和文本校验模块40。各功能模块详细说明如下：

文本识别模块10，用于获取目标文本图像，并对所述目标文本图像进行文本识别，得到目标识别文本；所述目标文本图像是高拍仪拍摄所述目标纸质文本所得到；

实体识别模块20，用于对所述目标识别文本进行实体识别，以提取所述目标识别文本中的目标特征信息；所述目标特征信息关联特征实体标签；

图像获取模块30，用于自所述目标文本图像中提取与所述特征实体标签对应的证明文本图像，并自预设凭证数据库中获取与所述特征实体标签对应的需求凭证图像；

文本校验模块40，用于将所述证明文本图像与所述需求凭证图像进行比较，并在所述证明文本图像与所述需求凭证图像相同时，将所述目标特征信息输入至预设文本校验模型中，得到与所述目标纸质文本对应的文本校验结果。

优选地，如图5所示，所述文本识别模块10包括：

拍摄请求接收单元101，用于接收包含文本翻阅速度的文本拍摄请求；

文本拍摄单元102，用于在控制预设翻阅机器根据所述文本翻阅速度翻动所述目标纸质文本时，获取拍摄文本图像；所述拍摄文本图像是所述高拍仪拍摄各纸质文本得到的，且各所述拍摄文本图像的排布顺序与所述高拍仪的拍摄顺序一致；

文本页码检测单元103，用于获取所述拍摄文本图像的图像数量，并确定所述预设数量与所述图像数量是否相同，并在所述预设数量与所述图像数量相同时，检测各所述拍摄文本图像是否存在文本页码；

文本顺序检测单元104，用于在所述拍摄文本图像存在文本页码时，确定各所述拍摄文本图像的文本页码的页码顺序与所述排布顺序是否一致；

语义校验单元105，用于在所述页码顺序与所述排布顺序一致时，按照所述排布顺序对各所述拍摄文本图像进行上下文语义校验，得到第一语义校验结果；

目标文本图像确定单元106，用于在所述第一语义校验结果表征校验成功时，将各所述拍摄文本图像记录为所述目标文本图像。

关于文本数据处理装置的具体限定可以参见上文中对于文本数据处理方法的限定，在此不再赘述。上述文本数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储上述实施例中文本数据处理方法所使用到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本数据处理方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中的文本数据处理方法。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现实施例中的文本数据处理方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种文本数据处理方法，其特征在于，包括：

获取目标文本图像，并对所述目标文本图像进行文本识别，得到目标识别文本；所述目标文本图像是高拍仪拍摄目标纸质文本所得到；

对所述目标识别文本进行实体识别，以提取所述目标识别文本中的目标特征信息；所述目标特征信息关联特征实体标签；所述目标特征信息是从所述目标识别文本中提取与目标特征实体对应的信息，所述目标特征实体从对所述目标识别文本进行实体识别得到的所有实体类别中过滤得到；

将所述证明文本图像与所述需求凭证图像进行比较，并在所述证明文本图像与所述需求凭证图像相同时，将所述目标特征信息输入至预设文本校验模型中，得到与所述目标纸质文本对应的文本校验结果；

所述目标纸质文本包含预设数量的纸质文本；所述获取目标文本图像，包括：

接收包含文本翻阅速度的文本拍摄请求；

在控制预设翻阅机器根据所述文本翻阅速度翻动所述目标纸质文本时，获取拍摄文本图像；所述拍摄文本图像是所述高拍仪拍摄各纸质文本得到的，且各所述拍摄文本图像的排布顺序与所述高拍仪的拍摄顺序一致；

获取所述拍摄文本图像的图像数量，并确定所述预设数量与所述图像数量是否相同，并在所述预设数量与所述图像数量相同时，检测各所述拍摄文本图像是否存在文本页码；

在所述拍摄文本图像存在文本页码时，确定各所述拍摄文本图像的文本页码的页码顺序与所述排布顺序是否一致；

在所述页码顺序与所述排布顺序一致时，按照所述排布顺序对各所述拍摄文本图像进行上下文语义校验，得到第一语义校验结果；

在所述第一语义校验结果表征校验成功时，将各所述拍摄文本图像记录为所述目标文本图像；

所述目标特征信息关联特征分类等级；所述将所述目标特征信息输入至预设文本校验模型中，得到与所述目标纸质文本对应的文本校验结果，包括：

将所述目标特征信息输入至预设文本校验模型中，得到与所述目标特征信息对应的特征类别实体；

通过所述预设文本校验模型中的等级决策模块确定与所述特征类别实体对应的决策分类等级；

自预设特征等级知识库中，获取具有与所述特征类别实体相同的样本类别实体的所有特征等级知识对；一个所述特征等级知识对包含一个所述样本类别实体以及与所述样本类别实体关联的样本分类等级；

2.如权利要求1所述的文本数据处理方法，其特征在于，所述确定各所述拍摄文本图像的文本页码的页码顺序与所述排布顺序是否一致之后，还包括：

3.如权利要求1所述的文本数据处理方法，其特征在于，所述检测各所述拍摄文本图像是否存在文本页码之后，还包括：

在所述拍摄文本图像不存在页码时，按照所述排布顺序对各所述拍摄文本图像进行上下文语义校验，得到第三语义校验结果；

4.如权利要求1所述的文本数据处理方法，其特征在于，所述对所述目标识别文本进行实体识别，以提取所述目标识别文本中的目标特征信息，包括：

获取预设实体识别模型；所述预设实体识别模型中包括嵌入层以及双向神经网络层；

5.一种文本数据处理装置，其特征在于，所述文本数据处理装置用于执行如权利要求1至4任一项所述文本数据处理方法，所述文本数据处理装置包括：

文本识别模块，用于获取目标文本图像，并对所述目标文本图像进行文本识别，得到目标识别文本；所述目标文本图像是高拍仪拍摄目标纸质文本所得到；

6.如权利要求5所述的文本数据处理装置，其特征在于，所述目标纸质文本包含预设数量的纸质文本；所述文本识别模块包括：

拍摄请求接收单元，用于接收包含文本翻阅速度的文本拍摄请求；

文本拍摄单元，用于在控制预设翻阅机器根据所述文本翻阅速度翻动所述目标纸质文本时，获取拍摄文本图像；所述拍摄文本图像是所述高拍仪拍摄各纸质文本得到的，且各所述拍摄文本图像的排布顺序与所述高拍仪的拍摄顺序一致；

文本页码检测单元，用于获取所述拍摄文本图像的图像数量，并确定所述预设数量与所述图像数量是否相同，并在所述预设数量与所述图像数量相同时，检测各所述拍摄文本图像是否存在文本页码；

文本顺序检测单元，用于在所述拍摄文本图像存在文本页码时，确定各所述拍摄文本图像的文本页码的页码顺序与所述排布顺序是否一致；

语义校验单元，用于在所述页码顺序与所述排布顺序一致时，按照所述排布顺序对各所述拍摄文本图像进行上下文语义校验，得到第一语义校验结果；

目标文本图像确定单元，用于在所述第一语义校验结果表征校验成功时，将各所述拍摄文本图像记录为所述目标文本图像。

7.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述文本数据处理方法。

8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述文本数据处理方法。