CN113723508A

CN113723508A - 票据图像分类方法、装置、计算设备和存储介质

Info

Publication number: CN113723508A
Application number: CN202111004897.1A
Authority: CN
Inventors: 侯耀祖; 谭谞
Original assignee: Hangzhou Mieshu Technology Co ltd
Current assignee: Hangzhou Mijia Health Technology Co ltd
Priority date: 2021-08-30
Filing date: 2021-08-30
Publication date: 2021-11-30
Anticipated expiration: 2041-08-30
Also published as: CN113723508B

Abstract

本发明公开了一种票据图像分类方法、装置、计算设备和存储介质，在对票据图像进行样式分类和方向调整的基础上，依次对票据图像进行文字检测，确定感兴趣区域，提取感兴趣区域的文本信息，依据文本信息的票据分类，从医疗票据中筛选票据名称，提取票据名称的关键信息，实现图像票据的快速准确分类以及关键信息的提取。

Description

票据图像分类方法、装置、计算设备和存储介质

技术领域

本发明属于图像分类领域，具体涉及一种票据图像分类方法、装置、计算设备和存储介质。

背景技术

随着深度学习技术的发展，保险理赔向着智能化快速发展，智能保险理赔的主要包括票据识别、版面分析和赔付规则结算。在真实的业务场景中，用户会上传各式各样的票据，这就对票据的识别准确率提出了严峻的挑战，而票据的识别准确率决定着后续的版面分析和赔付规则结算的效果；另外，在智能保险理赔对门诊、住院、诊断等票据有不同的结算方式，并且在不同的地区有不同的赔付规则。因此，如何对票据进行分类成为智能保险理赔领域亟需解决的问题。

发明内容

鉴于上述，本发明的目的是提供一种票据图像分类方法、装置、计算设备和存储介质，以实现对图像票据的快速准确分类。

第一方面，实施例提供的一种票据图像分类方法，包括以下步骤：

(1)获取票据图像，对票据图像进行样式类别和方向分类；

(2)依据方向分类结果对票据图像调整为平正方向后，采用与样式类别对应的检测方式对平正方向的票据图像检测进行文字检测和文本类别识别后，依据文本类别筛选预打印文本类型和打印文本类型对应的文本框进行统计分析以确定每个票据图像对应的感兴趣区域，并识别感兴趣区域的文本信息；

(3)预打印文本类型和打印文本类型对应的文本信息经过纠正后，进行文本分类，以区分医疗票据和无关票据；

(4)针对医疗票据的感兴趣区域的文本信息，从关键词、文本框位置以及文本框几何特征三个维度评估每个文本框中文本信息的置信度，依据置信度筛选票据名称；

(5)从票据名称中提取关键信息，其中，关键信息包括；门诊、住院、诊断信息和地区信息。

第二方面，实施例提供了一种票据图像分类装置，包括：

获取分类模块，用于获取票据图像，对票据图像进行样式类别和方向分类；

文本识别模块，用于依据方向分类结果对票据图像调整为平正方向后，采用与样式类别对应的检测方式对平正方向的票据图像检测进行文字检测和文本类别识别后，依据文本类别筛选预打印文本类型和打印文本类型对应的文本框进行统计分析以确定每个票据图像对应的感兴趣区域，并识别感兴趣区域的文本信息；

文本分类模块，用于预打印文本类型和打印文本类型对应的文本信息经过纠正后，进行文本分类，以区分医疗票据和无关票据；

票据名称筛选模块，用于针对医疗票据的感兴趣区域的文本信息，从关键词、文本框位置以及文本框几何特征三个维度评估每个文本框中文本信息的置信度，依据置信度筛选票据名称；

关键信息提取模块，用于从票据名称中提取关键信息，其中，关键信息包括；门诊、住院、诊断信息和地区信息。

第三方面，实施例提供了一种计算设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序，所述处理器执行所述计算机程序时实现第一方面所述的票据图像分类方法的步骤。

第四方面，实施例提供了一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理执行时实现第一方面所述的票据图像分类方法的步骤。

上述实施例提供的技术方案具有的有益效果至少包括：

在对票据图像进行样式分类和方向调整的基础上，依次对票据图像进行文字检测，确定感兴趣区域，提取感兴趣区域的文本信息，依据文本信息的票据分类，从医疗票据中筛选票据名称，提取票据名称的关键信息，实现图像票据的快速准确分类以及关键信息的提取。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1是一实施例提供的票据图像分类方法的流程图；

图2是一实施例提供的票据图像分类装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

实施例提供了一种票据图像分类方法、装置、计算设备和存储介质，实现对医疗领域对医疗票据智能分类，该分类结果可以用于智能保险理赔。

图1是一实施例提供的票据图像分类方法的流程图。如图1所示，实施例提供的票据图像分类方法，包括以下步骤：

步骤1，获取票据图像，对票据图像进行样式类别和方向分类。

票据图像可以是任意类型的图像，可以是医疗票据图像，还可以是非医疗票据图像，本发明的目的是筛选得到医疗票据图像。无论是哪类图像，都具有多种样式，如表格竖版、表格横版、表格方版、单栏横版、多栏横版等多个样式类别，因为每种样式类别的票据图像呈现的文本排布都不一样，具有与样式类别对应的特殊性，因此，可以按照类别样式对票据图像进行分类，为后面文本信息提取和处理做准备。上传的票据类型由于可能是拍照得到的，或者是扫描得到的，因此，票据图像会存在倾斜的问题，依据倾斜角度，将票据图像还可以进行方向分类，其中，方向可以选择0°、90°、180°、270°四个方向。

实施例中，基于卷积神经网络构建图像分类模型，利用图像分类模型对票据图像进行样式类别和方向分类，输出样式类别分类结果和方向分类结果。其中，卷积神经网络包括但不限于resnet50，利用resnet50提取图像特征，然后基于图像特征利用分类器预测样式类别和方向。

步骤2，依据样式类别分类结果和方向分类结果，确定医疗票据中感兴趣区域，并识别感兴趣区域的文本信息。

实施例中，依据方向分类结果对票据图像调整为平正方向后，采用与样式类别对应的检测方式对平正方向的票据图像进行文字检测和文本类别后，依据文本类别筛选预打印文本类型和打印文本类型对应的文本框进行统计分析以确定每个票据图像对应的感兴趣区域，并识别感兴趣区域的文本信息。

平正方向是指文本不出现倾斜的水平方向，按照角度分，可以是水平的零度方向。由于每种样本类别的票据图像中的文本都会呈现不同的排布方式，因此，为了提升文字检测和文本类别识别的准确性和速度，采用与样式类别对应的检测方式进行检测和识别。实施例中，基于卷积神经网络为每个样式类别的票据图像构建一个文本检测模型，利用文本检测模型对平正方向的票据图像进行文字检测和文本类别识别，得到票据图像上的文本框和文本框对应的文本类别；其中，文本框采用(x,y,w,h,θ)形式表示，(x,y)表示文本框中心位置，(w,h)表示文本框宽度和高度，θ表示文本框的旋转角度。采用(x,y,w,h,θ)形式表示文本框，方便后续对文本框进行统计和分析。

实施例中，文本类别包括印章、竖直方向文本、二维码、预打印文本以及打印文本等，这些文本类别有需求设定，本发明中只关注预打印文本和打印文本，因此，在在识别出票据图像的文本类别后，依据文本类别筛选属于预打印文本类别以及打印文本类别的文本框进行统计和分析。其中，预打印文本是指预先打印的通用文本，包括一些科室、医生印章、性别之类的文本；打印文本是指打印上的有患者相关的信息，包括患者基本信息、疾病诊断信息、治疗信息等。

实施例中，对预打印文本类型和打印文本类型对应的对文本框进行统计分析以确定每个票据图像对应的感兴趣区域，包括：

对预打印文本类型和打印文本类型对应的对文本框分别进行分行，得到分行结果，统计每一行内文本框的中心位置的分布情况，依据分布情况筛选确定每个票据图像对应的感兴趣区域。

实施例中，可以采用列表管理分行结果，每个列表管理属于同一行的文本框，且文本框按照文本框中心位置的横坐标进行排序，可以选择按照横坐标从小到大排序，这样方便对分行结果的管理，也方便统计每一行内文本框的中心位置的分布情况。

实施例中，在确定感兴趣区域时，依据分行结果，可以统计每一行内文本框的中心位置的纵坐标均值，依据预设第一阈值筛选纵坐标均值超过预设第一阈值的前N行形成每个票据图像的感兴趣区域。

在获得每个票据图像的感兴趣区域后，对感兴趣区域进行文本识别，以得到文本信息。实施例中，可以基于卷积神经网络构建文本识别模型，利用文本识别模型对感兴趣区域内的文本框进行识别，以得到每个文本框的文本信息，感兴趣区域内所有文本框的文本信息形成感兴趣区域的文本信息。

步骤3，预打印文本类型和打印文本类型对应的文本信息经过纠正后，进行文本分类，以区分医疗票据和无关票据。

经过步骤2识别得到的文本信息会存在一些错误信息，因此在进行文本分类之前，需要进行文本信息纠正处理。实施例中，对预打印文本类型对应的文本信息和打印文本类型对应的文本信息采用不同的纠正方式。

实施例中，对预打印文本类型的文本信息进行纠正，包括：

计算每个文本框的文本信息与样式类别对应的词表中每个词的编辑距离，若编辑距离为零，则不进行文本信息的纠正；若编辑距离为1，且文本信息长度大于等于3，则将文本信息纠正为词表中编辑距离为1的词；若编辑距离为1，且文本信息长度小于等于2，则不进行文本信息的纠正；若编辑距离大于等于2，则不进行文本信息的纠正，其中，以文本信息包含的字个数作为文本信息长度；感兴趣区域包含的所有文本框的文本信息经过纠正后拼接成一条长文本信息，用于文本分类。

实施例中，对打印文本类型对应的文本信息进行纠正，包括：

计算每个文本框的文本信息分别与标准药品名称、标准诊断名称以及标准手术名称的相似度，若三类相似度中的最大相似度小于设定第二阈值，则不进行文本信息的纠正；若三类相似度中的最大相似度大于等于设定第二阈值，采用最大相似度对应的标准名称进行纠正，其中，标准名称包括标准药品名称、标准诊断名称、标准手术名称；感兴趣区域包含的所有文本框的文本信息经过纠正后拼接成一条长文本信息，用于文本分类。实施例中，第二阈值依据需求设置。

实施例中，基于FastText网络构建文本分类模型，利用文本分类模型对纠正后的长文本进行文本分类，以区分医疗票据和无关票据。

基于FastText网络构建文本分类模型时，首先构建训练样本，然后利用训练样本训练FastText网络，在构建训练样本时，按照上述对预打印文本类型和打印文本类型对应的文本信息的纠正方式，对文本信息进行纠正，感兴趣区域包含的所有文本框的文本信息经过纠正后拼接成的长文本信息作为1个训练样本。

利用训练样本训练FastText网络时，按照一定比例(例如8:2)将训练样本划分为训练集、测试集；初始化FateText网络，设置学习率，wordNgrams，迭代次数等参数；在训练集上迭代训练FateText网络直至触发设定的收敛条件，将模型文件保存。在测试集上测试准确率，并保存本轮测试结果。重复以上设置参数，训练，测试过程，直到测试准确率不再提高，选择测试准确率最高的模型为最优的文本分类模型。

步骤4，从医疗票据的感兴趣区域的文本信息中提取票据名称。

实施例中，认为每个文本框包含完整的票据名称，基于此，针对医疗票据的感兴趣区域内的文本信息，从关键词、文本框位置以及文本框几何特征三个维度评估每个文本框中文本信息的置信度，依据置信度筛选票据名称，具体过程包括：为每个感兴趣区域内每个文本框的文本信息初始其置信度为0；若每个文本框的文本信息包含关键词，则置信度累加固定累加值；计算每个文本框的中心位置与票据边的距离，若距离小于设定第三阈值，则置信度累加固定累加值；对文本框按照高度排序，针对前k高的文本框，对其置信度累加固定累加值；最后，筛选置信度最高的文本信息作为票据名称。实施例中，关键词是指能体现票据名称的词汇，例如医疗票据、出院小结、清单明细等关键词。固定累加值可任意设置，例如设置为1。第三阈值依据需求设置，k的取值也依据需求设置。

步骤5，从票据名称中提取关键信息。

实施例中，通过对票据名称分词和关键词匹配，得到票据名称对应的门诊、住院、诊断信息和地区信息等关键信息。具体过程包括：采用分词工具(例如hanlp)对票据名称进行分词和命名实体识别，根据分词结果和知识库判断其属于门诊、住院、诊断票据，对命名实体识别得到的地区类别，得到地区类别对应的地区信息。特别地，根据业务需要，可以将地区信息统一为省级别，对于命名实体识别得到的市县级地区信息，采用知识库中的省级与市县对应知识，得到其省份地区信息。

实施例提供的票据图像分类方法，在对票据图像进行样式分类和方向调整的基础上，依次对票据图像进行文字检测，确定感兴趣区域，提取感兴趣区域的文本信息，依据文本信息的票据分类，从医疗票据中筛选票据名称，提取票据名称的关键信息，实现图像票据的快速准确分类以及关键信息的提取。

图2是一实施例提供的票据图像分类装置的结构示意图。如图2所示，实施例提供的票据图像分类装置200，包括：

获取分类模块210，用于获取票据图像，对票据图像进行样式类别和方向分类；

文本识别模块220，用于依据方向分类结果对票据图像调整为平正方向后，采用与样式类别对应的检测方式对平正方向的票据图像检测进行文字检测和文本类别识别后，依据文本类别筛选预打印文本类型和打印文本类型对应的文本框进行统计分析以确定每个票据图像对应的感兴趣区域，并识别感兴趣区域的文本信息；

文本分类模块230，用于预打印文本类型和打印文本类型对应的文本信息经过纠正后，进行文本分类，以区分医疗票据和无关票据；

票据名称筛选模块240，用于针对医疗票据的感兴趣区域的文本信息，从关键词、文本框位置以及文本框几何特征三个维度评估每个文本框中文本信息的置信度，依据置信度筛选票据名称；

关键信息提取模块250，用于从票据名称中提取关键信息，其中，关键信息包括；门诊、住院、诊断信息和地区信息。

需要说明的是，上述实施例提供的票据图像分类装置在进行票据图像分类时，应以上述各功能模块的划分进行举例说明，可以根据需要将上述功能分配由不同的功能模块完成，即在终端或服务器的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的票据图像分类装置与票据图像分类方法实施例属于同一构思，其具体实现过程详见票据图像分类方法实施例，这里不再赘述。

实施例提供的票据图像分类装置，在对票据图像进行样式分类和方向调整的基础上，依次对票据图像进行文字检测，确定感兴趣区域，提取感兴趣区域的文本信息，依据文本信息的票据分类，从医疗票据中筛选票据名称，提取票据名称的关键信息，实现图像票据的快速准确分类以及关键信息的提取。

实施例还提供了一种计算设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序，处理器执行所述计算机程序时实现上述票据图像分类方法，包括以下步骤：

步骤1，获取票据图像，对票据图像进行样式类别和方向分类；

步骤2，依据样式类别分类结果和方向分类结果，确定医疗票据中感兴趣区域，并识别感兴趣区域的文本信息；

步骤3，预打印文本类型和打印文本类型对应的文本信息经过纠正后，进行文本分类，以区分医疗票据和无关票据；

步骤4，从医疗票据的感兴趣区域的文本信息中提取票据名称；

步骤5，从票据名称中提取关键信息。

实际应用中，存储器可以为在近端的易失性存储器，如RAM，还可以是非易失性存储器，如ROM，FLASH，软盘，机械硬盘等，还可以是远端的存储云。处理器可以为中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)、或现场可编程门阵列(FPGA)，即可以通过这些处理器实现票据图像分类步骤。

实施例还提供了一种计算机存储介质，其上存储有计算机程序，计算机程序被处理执行时实现上述票据图像分类方法，包括以下步骤：

步骤5，从票据名称中提取关键信息。

实施例中，计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种票据图像分类方法，其特征在于，包括以下步骤：

(1)获取票据图像，对票据图像进行样式类别和方向分类；

2.如权利要求1所述的票据图像分类方法，其特征在于，步骤(1)中，基于卷积神经网络构建图像分类模型，利用图像分类模型对票据图像进行样式类别和方向分类，输出样式类别分类结果和方向分类结果；

步骤(2)中，基于卷积神经网络为每个样式类别的票据图像构建一个文本检测模型，利用文本检测模型对平正方向的票据图像进行文字检测和文本类别识别，得到票据图像上的文本框和文本框对应的文本类别；其中，文本框采用(x,y,w,h,θ)形式表示，(x,y)表示文本框中心位置，(w,h)表示文本框宽度和高度，θ表示文本框的旋转角度；

步骤(2)中，基于卷积神经网络构建文本识别模型，利用文本识别模型对感兴趣区域内的文本框进行识别，以得到每个文本框的文本信息，感兴趣区域内所有文本框的文本信息形成感兴趣区域的文本信息。

3.如权利要求1所述的票据图像分类方法，其特征在于，步骤(2)中，对预打印文本类型和打印文本类型对应的对文本框进行统计分析以确定每个票据图像对应的感兴趣区域，包括：

对预打印文本类型和打印文本类型对应的对文本框分别进行分行，得到分行结果，统计每一行内文本框的中心位置的分布情况，依据分布情况筛选确定每个票据图像对应的感兴趣区域；

优选地，采用列表管理分行结果，每个列表管理属于同一行的文本框，且文本框按照文本框中心位置的横坐标进行排序。

优选地，依据分行结果，统计每一行内文本框的中心位置的纵坐标均值，依据预设第一阈值筛选纵坐标均值超过预设第一阈值的前N行形成每个票据图像的感兴趣区域。

4.如权利要求1所述的票据图像分类方法，其特征在于，步骤(3)中，对预打印文本类型的文本信息进行纠正，包括：

计算每个文本框的文本信息与样式类别对应的词表中每个词的编辑距离，若编辑距离为零，则不进行文本信息的纠正；若编辑距离为1，且文本信息长度大于等于3，则将文本信息纠正为词表中编辑距离为1的词；若编辑距离为1，且文本信息长度小于等于2，则不进行文本信息的纠正；若编辑距离大于等于2，则不进行文本信息的纠正，其中，以文本信息包含的字个数作为文本信息长度；

感兴趣区域包含的所有文本框的文本信息经过纠正后拼接成一条长文本信息，用于文本分类。

5.如权利要求1所述的票据图像分类方法，其特征在于，步骤(3)中，对打印文本类型对应的文本信息进行纠正，包括：

计算每个文本框的文本信息分别与标准药品名称、标准诊断名称以及标准手术名称的相似度，若三类相似度中的最大相似度小于设定第二阈值，则不进行文本信息的纠正；若三类相似度中的最大相似度大于等于设定第二阈值，采用最大相似度对应的标准名称进行纠正，其中，标准名称包括标准药品名称、标准诊断名称、标准手术名称；

6.如权利要求1或4或5所述的票据图像分类方法，其特征在于，步骤(3)中，基于FastText网络构建文本分类模型，利用文本分类模型对纠正后的长文本进行文本分类，以区分医疗票据和无关票据。

7.如权利要求1所述的票据图像分类方法，其特征在于，步骤(4)中，为每个感兴趣区域内每个文本框的文本信息初始其置信度为0；

若每个文本框的文本信息包含关键词，则置信度累加固定累加值；

计算每个文本框的中心位置与票据边的距离，若距离小于设定第三阈值，则置信度累加固定累加值；

对文本框按照高度排序，针对前k高的文本框，对其置信度累加固定累加值；

筛选置信度最高的文本信息作为票据名称。

8.一种票据图像分类装置，其特征在于，包括：

关键信息提取模块，用于从票据名称中提取关键信息，其中，关键信息包括：门诊、住院、诊断信息和地区信息。

9.一种计算设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1～7任一项所述的票据图像分类方法的步骤。

10.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理执行时实现权利要求1～7任一项所述的票据图像分类方法的步骤。