CN117633714A

CN117633714A - Ocr结果评估方法、系统、计算机设备及存储介质

Info

Publication number: CN117633714A
Application number: CN202311306616.7A
Authority: CN
Inventors: 王美
Original assignee: Ping An Health Insurance Company of China Ltd
Current assignee: Ping An Health Insurance Company of China Ltd
Priority date: 2023-10-09
Filing date: 2023-10-09
Publication date: 2024-03-01

Abstract

本申请涉及一种OCR结果评估方法，包括：在数据仓库中查询目标时间段内的目标理赔案件，并获取所述目标理赔案件对应的案件数据，所述案件数据包括OCR提取结果和理赔录入结果；根据所述案件数据进行特征提取，得到所述目标理赔案件对应的特征集；根据所述OCR提取结果和所述理赔录入结果构建目标变量，并根据所述目标变量和所述特征集进行数据拼接，得到第一数据集和第二数据集；根据所述第一数据集构建目标分类模型，根据所述第二数据集构建目标回归模型；根据所述目标分类模型和所述目标回归模型对理赔材料录入流程中的OCR结果进行预测，得到预测结果，并根据所述预测结果评估所述OCR结果的置信度和修正难度。本申请评估了OCR结果的置信度和修正难度。

Description

OCR结果评估方法、系统、计算机设备及存储介质

技术领域

本申请涉及数据处理领域及金融科技领域，应用于保险机构利用OCR技术进行理赔材料录入处理的场景中，尤其涉及一种OCR结果评估方法、系统、计算机设备及存储介质。

背景技术

随着金融科技的发展，保险机构采用OCR系统辅助理赔材料录入已经演变为一种较为成熟的应用场景。OCR(Optical Character Recognition，光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程。

尽管OCR技术可以帮助保险机构更加高效、快速地进行理赔材料录入处理，但由于理赔材料通常包含大量的票据，而票据类型的材料往往存在图像质量参差不齐、票据格式种类繁多的问题，因此，可能出现难以准确识别并提取票据中的文本内容，导致OCR结果存在错字、漏字、排版或格式有误等现象，需要人工辅助录入得到最终的理赔录入结果。

在这种情况下，为了实现理赔材料录入的自动化，并确保理赔材料录入的准确性，对OCR结果进行评估是有必要的。传统的评估OCR结果的方式，是将OCR系统输出的置信度作为评估标准，该置信度通常由OCR系统根据系统内各环节的模型输出结果进行计算，并按照特定规则进行一系列更新得到，反映了OCR结果的可信程度。然而，这种方式往往需要由人工制定因材料类型和版式而异的置信度规则，并且无法充分利用OCR系统内各环节的模型输出结果或服务调用结果，使得置信度不高。

发明内容

本申请实施例的目的在于提出一种OCR结果评估方法、系统、计算机设备及存储介质，以解决通过OCR技术录入保险理赔案件的理赔材料时，不能合理地评估OCR结果的置信度的技术问题。

为了解决上述技术问题，本申请实施例提供一种OCR结果评估方法，采用了如下所述的技术方案：

一种OCR结果评估方法，包括下述步骤：

在数据仓库中查询目标时间段内的目标理赔案件，并获取所述目标理赔案件对应的案件数据，所述案件数据包括OCR提取结果和理赔录入结果；

根据所述案件数据进行特征提取，得到所述目标理赔案件对应的特征集；

根据所述OCR提取结果和所述理赔录入结果构建目标变量，并根据所述目标变量和所述特征集进行数据拼接，得到第一数据集和第二数据集；

根据所述第一数据集构建目标分类模型，根据所述第二数据集构建目标回归模型；

根据所述目标分类模型和所述目标回归模型对理赔材料录入流程中的OCR结果进行预测，得到预测结果，并根据所述预测结果评估所述OCR结果的置信度和修正难度。

进一步的，所述目标向量包括分类模型目标标签和回归模型目标值，所述根据所述OCR提取结果和所述理赔录入结果构建目标变量，并根据所述目标变量和所述特征集进行数据拼接，得到第一数据集和第二数据集的步骤，具体包括：

将所述OCR提取结果与所述理赔录入结果进行对比，得到对比结果，根据所述对比结果确定所述分类模型目标标签；

根据所述OCR提取结果和所述理赔录入结果之间的编辑距离，计算所述回归模型目标值；

将所述分类模型目标标签与所述特征集进行数据拼接，得到所述第一数据集；

将所述回归模型目标值与所述特征集进行数据拼接，得到所述第二数据集。

进一步的，所述根据所述第一数据集构建目标分类模型，根据所述第二数据集构建目标回归模型的步骤，具体包括：

将所述第一数据集划分为第一训练集和第一测试集，将所述第二数据集划分为第二训练集和第二测试集；

建立基于机器学习算法的分类模型，根据所述第一训练集对所述分类模型进行训练，并根据所述第一测试集对所述分类模型进行优化，将完成训练和优化的分类模型作为所述目标分类模型；

建立基于机器学习算法的回归模型，根据所述第二训练集对所述回归模型进行训练，并根据所述第二测试集对所述回归模型进行优化，将完成训练和优化的回归模型作为所述目标回归模型。

进一步的，所述根据所述案件数据进行特征提取，得到所述目标理赔案件对应的特征集的步骤，具体包括：

根据所述案件数据进行数据拼接，得到图片维度的原始数据集；

根据所述原始数据集进行数据清洗和筛选，得到对应的数据表字段；

根据所述数据表字段生成各个基础特征，并根据各个所述基础特征构建所述特征集。

进一步的，在所述根据所述数据表字段生成各个基础特征，并根据各个所述基础特征构建所述特征集的步骤之后，还包括：

根据各个所述基础特征进行特征组合，得到衍生特征，并根据所述衍生特征更新所述特征集。

进一步的，所述预测结果包括第一预测结果和第二预测结果，所述根据所述目标分类模型和所述目标回归模型对理赔材料录入流程中的OCR结果进行预测，得到预测结果，并根据所述预测结果评估所述OCR结果的置信度和修正难度的步骤，具体包括：

将所述OCR结果输入所述目标分类模型，根据所述目标分类模型对所述OCR结果进行预测，得到所述第一预测结果；

将所述OCR结果输入所述目标回归模型，根据所述目标回归模型对所述OCR结果进行预测，得到所述第二预测结果；

根据所述第一预测结果，确定所述置信度对应的置信度分数，并根据所述第二预测结果，确定所述修正难度对应的修正难度分数。

进一步的，在所述根据所述目标分类模型和所述目标回归模型对理赔材料录入流程中的OCR结果进行预测，得到预测结果，并根据所述预测结果评估所述OCR结果的置信度和修正难度的步骤之后，还包括：

将所述置信度分数与预设的第一阈值进行对比，并将所述修正难度分数与预设的第二阈值进行对比；

若所述置信度分数大于所述第一阈值并且所述修正难度分数小于所述第二阈值，则将所述OCR结果作为所述理赔材料录入流程对应的录入结果；

若所述置信度分数小于等于所述第一阈值和/或所述修正难度分数大于等于所述第二阈值，则向所述理赔材料录入流程对应的用户端发送人工审核通知。

为了解决上述技术问题，本申请实施例还提供一种OCR结果评估系统，采用了如下所述的技术方案：

一种OCR结果评估系统，包括：

获取模块，用于在数据仓库中查询目标时间段内的目标理赔案件，并获取所述目标理赔案件对应的案件数据，所述案件数据包括OCR提取结果和理赔录入结果；

提取模块，用于根据所述案件数据进行特征提取，得到所述目标理赔案件对应的特征集；

第一构建模块，用于根据所述OCR提取结果和所述理赔录入结果构建目标变量，并根据所述目标变量和所述特征集进行数据拼接，得到第一数据集和第二数据集；

第二构建模块，用于根据所述第一数据集构建目标分类模型，根据所述第二数据集构建目标回归模型；

评估模块，用于根据所述目标分类模型和所述目标回归模型对理赔材料录入流程中的OCR结果进行预测，得到预测结果，并根据所述预测结果评估所述OCR结果的置信度和修正难度。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，采用了如下所述的技术方案：

一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如上所述的OCR结果评估方法的步骤。

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，采用了如下所述的技术方案：

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如上所述的OCR结果评估方法的步骤。

与现有技术相比，本申请实施例主要有以下有益效果：

本申请公开的OCR结果评估方法，通过在数据仓库中查询目标时间段内的目标理赔案件，并获取所述目标理赔案件对应的案件数据，所述案件数据包括OCR提取结果和理赔录入结果；根据所述案件数据进行特征提取，得到所述目标理赔案件对应的特征集；根据所述OCR提取结果和所述理赔录入结果构建目标变量，并根据所述目标变量和所述特征集进行数据拼接，得到第一数据集和第二数据集；根据所述第一数据集构建目标分类模型，根据所述第二数据集构建目标回归模型；根据所述目标分类模型和所述目标回归模型对理赔材料录入流程中的OCR结果进行预测，得到预测结果，并根据所述预测结果评估所述OCR结果的置信度和修正难度。本申请通过结合分类模型与回归模型，在保险理赔案件的理赔材料录入流程中实现对于OCR结果的评估，不但确保了OCR系统内各环节的模型输出结果或服务调用结果得到充分利用，还降低了对于人工制定的置信度规则的依赖，最终合理地反映了OCR结果的置信度和修正难度。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请可以应用于其中的示例性系统架构图；

图2是根据本申请的OCR结果评估方法的一个实施例的流程图；

图3是根据本申请的OCR结果评估系统的一个实施例的结构示意图；

图4是根据本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3(Moving Picture Experts GroupAudio Layer III，动态影像专家压缩标准音频层面3)播放器、MP4(Moving PictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是，本申请实施例所提供的OCR结果评估方法一般由服务器执行，相应地，OCR结果评估系统一般设置于服务器中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本申请的OCR结果评估方法的一个实施例的流程图。所述的OCR结果评估方法，包括以下步骤：

步骤S201，在数据仓库中查询目标时间段内的目标理赔案件，并获取所述目标理赔案件对应的案件数据，所述案件数据包括OCR提取结果和理赔录入结果；

需要指出的是，OCR结果评估方法运行于其上的电子设备(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式接收或发送数据。上述无线连接方式可以包括但不限于3G/4G/5G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。

在本实施例中，针对采用OCR技术录入保险理赔案件的理赔材料的过程，在OCR结果评估方法运行时，首先需要在数据仓库中查询目标时间段内的目标理赔案件，并获取目标理赔案件对应的案件数据、OCR提取结果以及理赔录入结果。具体地，数据仓库是一个很大的数据存储集合，可以用于保存历史数据，而本实施例首先需要指定一个目标时间段，并在数据仓库中查询目标时间段内已执行过理赔材料录入流程的理赔案件，作为目标理赔案件，同时从数据仓库获取目标理赔案件对应的案件数据，其中，案件数据至少包括了OCR提取结果和理赔录入结果，还可以包括材料ID、图片ID、案件ID、OCR各环节模型输出结果、对码服务调用结果、案件受理机构以及保单渠道等数据，后续即可基于案件数据进行特征的提取和模型的构建。

可选地，由于案件数据即为目标理赔案件相关的历史数据，可以将其分为材料维度历史数据和案件维度历史数据，材料维度历史数据可以包括如材料ID、图片ID、理赔录入结果、OCR提取结果、OCR各环节模型输出结果以及对码服务调用结果等，而案件维度历史数据可以包括如案件ID、案件受理机构以及保单渠道等。

步骤S202，根据所述案件数据进行特征提取，得到所述目标理赔案件对应的特征集；

在本实施例中，获取目标理赔案件对应的案件数据后，即可根据案件数据进行特征提取，得到目标理赔案件对应的特征集。具体地，在得到目标理赔案件对应的案件数据后，即可根据案件数据进行数据拼接，得到图片维度的原始数据集，再根据原始数据集进行数据清洗和筛选，以得到对应的数据表字段，而后根据数据表字段生成各个基础特征，并根据各个基础特征构建特征集，可以理解的是，由于案件材料大部分为采用了OCR即光学字符识别技术执行理赔材料录入流程得到的数据，包含了大量的图片，因此在图片维度的原始数据集中，数据可以以图片+标签的形式存在。

步骤S203，根据所述OCR提取结果和所述理赔录入结果构建目标变量，并根据所述目标变量和所述特征集进行数据拼接，得到第一数据集和第二数据集；

在本实施例中，根据案件数据进行特征提取，得到目标理赔案件对应的特征集后，即可根据OCR提取结果和理赔录入结果构建目标变量，并根据目标变量和特征集进行数据拼接，得到第一数据集和第二数据集，例如，目标向量包括分类模型目标标签和回归模型目标值，将OCR提取结果与理赔录入结果进行对比，根据OCR提取结果与理赔录入结果是否完全一致可以构建分类模型目标标签，根据OCR提取结果和理赔录入结果之间的编辑距离，可以计算回归模型目标值，而后将分类模型目标标签与特征集进行数据拼接，即可得到第一数据集，将回归模型目标值与特征集进行数据拼接，即可得到第二数据集。

步骤S204，根据所述第一数据集构建目标分类模型，根据所述第二数据集构建目标回归模型；

在本实施例中，得到第一数据集和第二数据集后，即可根据第一数据集构建目标分类模型，并根据第二数据集构建目标回归模型。具体地，第一数据集和第二数据集可以分别被划分为训练集和测试集，将第一数据集所划分训练集和测试集的作为第一训练集和第一测试集，将第二数据集所划分训练集和测试集的作为第二训练集和第二测试集，由于第一数据集为分类模型目标标签与特征集拼接得到，第二数据集为回归模型目标值与特征集拼接得到，因此可以建立基于机器学习的分类模型，根据第一训练集对分类模型进行模型训练，根据第一测试集对分类模型进行优化，将完成训练和优化的分类模型作为目标分类模型，同时，可以建立基于机器学习算法的回归模型，根据第二训练集对回归模型进行训练，根据第二测试集对回归模型进行优化，将完成训练和优化的回归模型作为目标回归模型。

步骤S205，根据所述目标分类模型和所述目标回归模型对理赔材料录入流程中的OCR结果进行预测，得到预测结果，并根据所述预测结果评估所述OCR结果的置信度和修正难度。

在本实施例中，构建目标分类模型和目标回归模型后，即可根据目标分类模型和目标回归模型对理赔材料录入流程中的OCR结果进行预测，得到预测结果，并根据预测结果评估OCR结果的置信度和修正难度。具体地，目标分类模型和目标回归模型为经过训练和优化的模型，在理赔材料录入流程中，OCR系统输出的结果即为OCR结果，将OCR结果分别输入目标分类模型和目标回归模型，根据目标分类模型和目标回归模型对OCR结果进行预测，其中，根据目标分类模型的预测结果可以确定OCR结果的置信度分数，根据目标回归模型的预测结果可以确定OCR结果的修正难度分数，以实现对于OCR结果的置信度和修正难度的评估。

本申请通过结合分类模型与回归模型，在保险理赔案件的理赔材料录入流程中实现对于OCR结果的评估，不但确保了OCR系统内各环节的模型输出结果或服务调用结果得到充分利用，还降低了对于人工制定的置信度规则的依赖，最终合理地反映了OCR结果的置信度和修正难度。

在本实施例的一些可选的实现方式中，上述目标向量包括分类模型目标标签和回归模型目标值，上述根据所述OCR提取结果和所述理赔录入结果构建目标变量，并根据所述目标变量和所述特征集进行数据拼接，得到第一数据集和第二数据集的步骤，具体包括：

在本实施例中，目标理赔案件对应的案件数据包括OCR提取结果和理赔录入结果，目标向量包括分类模型目标标签和回归模型目标值，得到目标理赔案件对应的案件数据并根据案件数据进行特征提取，得到目标理赔案件对应的特征集后，即可将OCR提取结果与理赔录入结果进行对比，得到对比结果，而后根据对比结果确定分类模型目标标签，还可以根据OCR提取结果和理赔录入结果之间的编辑距离，计算回归模型目标值，最终，将分类模型目标标签与特征集进行数据拼接，得到第一数据集，并将回归模型目标值与特征集进行数据拼接，得到第二数据集。具体地，在模型算法中，目标变量也称因变量，是被测定或被记录的变量，对于机器学习分类模型而言，目标变量即为分类模型目标标签，对于机器学习回归模型而言，目标变量即为回归模型目标值，因此，在确定目标理赔案件对应的特征集后，可以将OCR提取结果与理赔录入结果进行对比以确定是否完全一致，若不一致，则可以根据两者形成不同的标签，作为分类模型目标标签，还可以根据OCR提取结果和理赔录入结果之间的编辑距离，计算回归模型目标值，编辑距离即为数据转化所需要经过的步骤，例如，字符串a＝‘love’，b＝‘lolpe’，则将字符串a转化为b，步骤包括：1、love->lolve(插入l)；2、lolve->lolpe(用v替换成p)，由此可知a和b的编辑距离为2。得到分类模型目标标签和回归模型目标值后，即可根据分类模型目标标签与特征集进行数据拼接得到第一数据集，根据回归模型目标值与特征集进行数据拼接得到第二数据集。

本申请通过分别确定分类模型和回归模型对应的目标变量，使得后续可以分别构建目标分类模型和目标回归模型，从而结合目标分类模型与目标回归模型，在保险理赔案件的理赔材料录入流程中实现对于OCR结果的评估，确保了OCR系统内各环节的模型输出结果或服务调用结果得到充分利用，合理地反映了OCR结果的置信度和修正难度。

在本实施例的一些可选的实现方式中，上述根据所述第一数据集构建目标分类模型，根据所述第二数据集构建目标回归模型的步骤，具体包括：

在本实施例中，得到第一数据集和第二数据集后，可以将第一数据集划分为第一训练集和第一测试集，将第二数据集划分为第二训练集和第二测试集，而后建立基于机器学习算法的分类模型，根据第一训练集对分类模型进行训练，并根据第一测试集对分类模型进行优化，将完成训练和优化的分类模型作为目标分类模型，同时，建立基于机器学习算法的回归模型，根据第二训练集对回归模型进行训练，并根据第二测试集对回归模型进行优化，将完成训练和优化的回归模型作为目标回归模型。具体地，分类模型所采用的机器学习算法可以为K-近邻算法，通过识别分类模型目标标签，以预测新OCR结果的类别，例如，对于第一数据集而言，构建分类模型目标模型时，若OCR提取结果与理赔录入结果完全一致，则可以作为真实结果，若OCR提取结果与理赔录入结果不一致，则可以作为虚假结果，从而形成分类模型目标标签中的真实结果类别和虚假结果类别。而对于第二数据集而言，回归模型目标值即代表了OCR提取结果与理赔录入结果的编辑距离，得到完成训练和优化的目标回归模型后，即可根据目标回归模型输出OCR结果相较于其对应的理赔录入结果的编辑距离为各个值的概率，从而确定其修正难度。

本申请通过分别构建分类模型与回归模型，在保险理赔案件的理赔材料录入流程中，可以分别对OCR结果的置信度和修正难度进行评估，不但确保了OCR系统内各环节的模型输出结果或服务调用结果得到充分利用，还降低了对于人工制定的置信度规则的依赖。

在本实施例的一些可选的实现方式中，上述根据所述案件数据进行特征提取，得到所述目标理赔案件对应的特征集的步骤，具体包括：

在本实施例中，获取目标理赔案件对应的案件数据后，即可根据案件数据进行数据拼接，得到图片维度的原始数据集，而后根据原始数据集进行数据清洗和筛选，得到对应的数据表字段，并根据数据表字段生成各个基础特征，从而根据各个基础特征构建特征集。具体地，案件数据包括OCR提取结果和理赔录入结果，以及材料ID、图片ID、案件ID、OCR各环节模型输出结果、对码服务调用结果、案件受理机构、保单渠道等数据，由于理赔材料录入流程采用了OCR技术，因此案件数据中大部分为图片数据，可以从图片维度构建原始数据集，使得原始数据集中的数据为图片+标签的形式，在对原始数据集进行数据清洗后，还可以通过探索性分析筛选出合适的数据表字段，并根据数据表字段生成各个基础特征，从而根据各个基础特征构建特征集。

本申请通过在保险理赔案件的理赔材料录入流程中，根据目标理赔案件对应的案件数据构建特征集，使得后续可以利用特征集构建分类模型与回归模型，最终结合分类模型与回归模型实现对于OCR结果的评估。

在本实施例的一些可选的实现方式中，在上述根据所述数据表字段生成各个基础特征，并根据各个所述基础特征构建所述特征集的步骤之后，还包括：

在本实施例中，根据数据表字段生成各个基础特征，并根据各个基础特征构建目标理赔案件对应的特征集后，可以根据各个基础特征进行特征组合，得到衍生特征，并根据衍生特征更新特征集。具体地，特征组合又称特征交叉，是指通过将单独的特征进行组合(相乘或求笛卡尔积)而形成合成特征，而本实施例通过对各个基础特征进行特征组合得到衍生特征后，即可将衍生特征加入特征集，从而达到更新特征集的目的。

本申请通过特征组合进一步增加了目标理赔案件对应的特征集的多样性，使得后续利用特征集构建的分类模型与回归模型更加精确，从而提高了评估OCR结果的准确性。

在本实施例的一些可选的实现方式中，上述预测结果包括第一预测结果和第二预测结果，上述根据所述目标分类模型和所述目标回归模型对理赔材料录入流程中的OCR结果进行预测，得到预测结果，并根据所述预测结果评估所述OCR结果的置信度和修正难度的步骤，具体包括：

在本实施例中，根据目标分类模型和目标回归模型对理赔材料录入流程中的OCR结果进行预测，所得到的预测结果包括第一预测结果和第二预测结果，其中，将OCR结果输入目标分类模型，根据目标分类模型对OCR结果进行预测，可以得到第一预测结果，将OCR结果输入目标回归模型，根据目标回归模型对OCR结果进行预测，可以得到第二预测结果，而后根据第一预测结果，可以确定OCR结果的置信度对应的置信度分数，并根据第二预测结果，可以确定OCR结果的修正难度对应的修正难度分数。具体地，构建目标分类模型和目标回归模型后，即可在执行理赔材料录入流程时，分别根据目标分类模型和目标回归模型对流程中的OCR结果进行预测，并将目标分类模型所输出的第一预测结果与置信度对应，将目标回归模型所输出的第二预测结果与修正难度对应，根据第一预测结果，可以利用预设规则转换为置信度分数，根据第二预测结果，可以利用预设规则转换为修正难度分数，从而合理地反映OCR结果的置信度和修正难度。

本申请通过分类模型与回归模型，在保险理赔案件的理赔材料录入流程中分别对OCR结果的置信度和修正难度进行评估，不但确保了OCR系统内各环节的模型输出结果或服务调用结果得到充分利用，还降低了对于人工制定的置信度规则的依赖。

在本实施例的一些可选的实现方式中，在上述根据所述目标分类模型和所述目标回归模型对理赔材料录入流程中的OCR结果进行预测，得到预测结果，并根据所述预测结果评估所述OCR结果的置信度和修正难度的步骤之后，还包括：

在本实施例中，得到理赔材料录入流程中OCR结果对应的置信度分数和修正难度分数后，可以将置信度分数与预设的第一阈值进行对比，并将修正难度分数与预设的第二阈值进行对比，若置信度分数大于第一阈值并且修正难度分数小于第二阈值，则将OCR结果作为理赔材料录入流程对应的录入结果，若置信度分数小于等于第一阈值和/或修正难度分数大于等于第二阈值，则向理赔材料录入流程对应的用户端发送人工审核通知。具体地，置信度分数代表了OCR结果与真实结果一致的置信度，修正难度分数则代表了OCR结果修正为真实结果的修正难度，因此，针对置信度分数和修正难度分数可以预先设置第一阈值和第二阈值，当置信度分数大于第一阈值且修正难度分数小于第二阈值时，可以认为OCR结果接近真实结果，可以直接作为理赔材料录入流程对应的录入结果，而当置信度分数小于等于第一阈值和/或修正难度分数大于等于第二阈值时，可以认为OCR结果需要由人工进行审核，因此可以向理赔材料录入流程对应的用户端发送人工审核通知。

本申请通过预先设置的阈值，在保险理赔案件的理赔材料录入流程中，对OCR结果的置信度和修正难度进行评估后，可以及时进行相应的处理，以避免最终的理赔录入结果出现错误。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，该计算机可读指令可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

进一步参考图3，作为对上述图2所示方法的实现，本申请提供了一种OCR结果评估系统的一个实施例，该系统实施例与图2所示的方法实施例相对应，该系统具体可以应用于各种电子设备中。

如图3所示，本实施例所述的OCR结果评估系统300包括：获取模块301、提取模块302、第一构建模块303、第二构建模块304以及评估模块305。其中：

获取模块301，用于在数据仓库中查询目标时间段内的目标理赔案件，并获取所述目标理赔案件对应的案件数据，所述案件数据包括OCR提取结果和理赔录入结果；

提取模块302，用于根据所述案件数据进行特征提取，得到所述目标理赔案件对应的特征集；

第一构建模块303，用于根据所述OCR提取结果和所述理赔录入结果构建目标变量，并根据所述目标变量和所述特征集进行数据拼接，得到第一数据集和第二数据集；

第二构建模块304，用于根据所述第一数据集构建目标分类模型，根据所述第二数据集构建目标回归模型；

评估模块305，用于根据所述目标分类模型和所述目标回归模型对理赔材料录入流程中的OCR结果进行预测，得到预测结果，并根据所述预测结果评估所述OCR结果的置信度和修正难度。

本申请提供的OCR结果评估系统，通过结合分类模型与回归模型，在保险理赔案件的理赔材料录入流程中实现对于OCR结果的评估，不但确保了OCR系统内各环节的模型输出结果或服务调用结果得到充分利用，还降低了对于人工制定的置信度规则的依赖，最终合理地反映了OCR结果的置信度和修正难度。

在本实施例的一些可选的实现方式中，上述目标向量包括分类模型目标标签和回归模型目标值，第一构建模块303还用于：

本申请提供的OCR结果评估系统，通过分别确定分类模型和回归模型对应的目标变量，使得后续可以分别构建目标分类模型和目标回归模型，从而结合目标分类模型与目标回归模型，在保险理赔案件的理赔材料录入流程中实现对于OCR结果的评估，确保了OCR系统内各环节的模型输出结果或服务调用结果得到充分利用，合理地反映了OCR结果的置信度和修正难度。

在本实施例的一些可选的实现方式中，第二构建模块304还用于：

本申请提供的OCR结果评估系统，通过分别构建分类模型与回归模型，在保险理赔案件的理赔材料录入流程中，可以分别对OCR结果的置信度和修正难度进行评估，不但确保了OCR系统内各环节的模型输出结果或服务调用结果得到充分利用，还降低了对于人工制定的置信度规则的依赖。

在本实施例的一些可选的实现方式中，提取模块302还用于：

本申请提供的OCR结果评估系统，通过在保险理赔案件的理赔材料录入流程中，根据目标理赔案件对应的案件数据构建特征集，使得后续可以利用特征集构建分类模型与回归模型，最终结合分类模型与回归模型实现对于OCR结果的评估。

在本实施例的一些可选的实现方式中，OCR结果评估系统300还用于：

本申请提供的OCR结果评估系统，通过特征组合进一步增加了目标理赔案件对应的特征集的多样性，使得后续利用特征集构建的分类模型与回归模型更加精确，从而提高了评估OCR结果的准确性。

在本实施例的一些可选的实现方式中，上述预测结果包括第一预测结果和第二预测结果，评估模块305还用于：

本申请提供的OCR结果评估系统，通过分类模型与回归模型，在保险理赔案件的理赔材料录入流程中分别对OCR结果的置信度和修正难度进行评估，不但确保了OCR系统内各环节的模型输出结果或服务调用结果得到充分利用，还降低了对于人工制定的置信度规则的依赖。

本申请提供的OCR结果评估系统，通过预先设置的阈值，在保险理赔案件的理赔材料录入流程中，对OCR结果的置信度和修正难度进行评估后，可以及时进行相应的处理，以避免最终的理赔录入结果出现错误。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图4，图4为本实施例计算机设备基本结构框图。

所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是，图中仅示出了具有组件41-43的计算机设备4，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable GateArray，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器41至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器41可以是所述计算机设备4的内部存储单元，例如该计算机设备4的硬盘或内存。在另一些实施例中，所述存储器41也可以是所述计算机设备4的外部存储设备，例如该计算机设备4上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(FlashCard)等。当然，所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中，所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件，例如OCR结果评估方法的计算机可读指令等。此外，所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中，所述处理器42用于运行所述存储器41中存储的计算机可读指令或者处理数据，例如运行所述OCR结果评估方法的计算机可读指令。

所述网络接口43可包括无线网络接口或有线网络接口，该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。

本申请提供的计算机设备，通过结合分类模型与回归模型，在保险理赔案件的理赔材料录入流程中实现对于OCR结果的评估，不但确保了OCR系统内各环节的模型输出结果或服务调用结果得到充分利用，还降低了对于人工制定的置信度规则的依赖，最终合理地反映了OCR结果的置信度和修正难度。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令可被至少一个处理器执行，以使所述至少一个处理器执行如上述的OCR结果评估方法的步骤。

本申请提供的计算机可读存储介质，通过结合分类模型与回归模型，在保险理赔案件的理赔材料录入流程中实现对于OCR结果的评估，不但确保了OCR系统内各环节的模型输出结果或服务调用结果得到充分利用，还降低了对于人工制定的置信度规则的依赖，最终合理地反映了OCR结果的置信度和修正难度。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种OCR结果评估方法，其特征在于，包括下述步骤：

2.根据权利要求1所述的OCR结果评估方法，其特征在于，所述目标向量包括分类模型目标标签和回归模型目标值，所述根据所述OCR提取结果和所述理赔录入结果构建目标变量，并根据所述目标变量和所述特征集进行数据拼接，得到第一数据集和第二数据集的步骤，具体包括：

3.根据权利要求2所述的OCR结果评估方法，其特征在于，所述根据所述第一数据集构建目标分类模型，根据所述第二数据集构建目标回归模型的步骤，具体包括：

4.根据权利要求1所述的OCR结果评估方法，其特征在于，所述根据所述案件数据进行特征提取，得到所述目标理赔案件对应的特征集的步骤，具体包括：

5.根据权利要求4所述的OCR结果评估方法，其特征在于，在所述根据所述数据表字段生成各个基础特征，并根据各个所述基础特征构建所述特征集的步骤之后，还包括：

6.根据权利要求1至5任一项所述的OCR结果评估方法，其特征在于，所述预测结果包括第一预测结果和第二预测结果，所述根据所述目标分类模型和所述目标回归模型对理赔材料录入流程中的OCR结果进行预测，得到预测结果，并根据所述预测结果评估所述OCR结果的置信度和修正难度的步骤，具体包括：

7.根据权利要求6所述的OCR结果评估方法，其特征在于，在所述根据所述目标分类模型和所述目标回归模型对理赔材料录入流程中的OCR结果进行预测，得到预测结果，并根据所述预测结果评估所述OCR结果的置信度和修正难度的步骤之后，还包括：

8.一种OCR结果评估系统，其特征在于，包括：

9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的OCR结果评估方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的OCR结果评估方法的步骤。