CN112699860A

CN112699860A - 一种个税app操作视频中自动化提取和整理有效信息的方法

Info

Publication number: CN112699860A
Application number: CN202110310831.9A
Authority: CN
Inventors: 赵小诣; 周智杰; 吕文勇; 周旭强
Original assignee: Chengdu New Hope Finance Information Co Ltd
Current assignee: Chengdu New Hope Finance Information Co Ltd
Priority date: 2021-03-24
Filing date: 2021-03-24
Publication date: 2021-04-23
Anticipated expiration: 2041-03-24
Also published as: CN112699860B

Abstract

本发明公开了一种个税APP操作视频中自动化提取和整理有效信息的方法，涉及视频处理领域，包括以下步骤：S1、获取个税APP操作视频，并对其进行抽帧操作，得到抽帧后的视频；S2、将抽帧后的视频角度调整至设定角度；S3、对当前视频中的图像帧进行目标检测任务，获取各个明细区域范围；S4、对各个明细区域范围进行OCR文字识别，保存全部识别数据；S5、基于识别数据进行字段对比回填，得到字段回填后的数据，完成个税APP操作视频中有效信息的自动化提取和整理。本发明可以自动且快速地从个税APP操作视频中自动提取和整理有效信息，便于使用者核对相关数据，避免出现财务等问题。

Description

一种个税APP操作视频中自动化提取和整理有效信息的方法

技术领域

本发明涉及视频处理领域，具体涉及一种个税APP操作视频中自动化提取和整理有效信息的方法。

背景技术

深度学习是基于学习数据表示的更广泛的机器学习方法的一部分。深度学习架构，如深度神经网络，深度置信网络和递归神经网络等，已应用于计算机视觉，语音识别，自然语言处理，音频识别，社交网络过滤，机器翻译，生物信息学，药物设计，医学图像分析等领域。由深度学习框架所产生的模型结果可与人类专家相媲美，甚至在某些情况下优于人类专家。

与机器学习一样深度学习可以分为两种：监督学习与无监督学习。近年来，深度学习技术随着计算机算力的提高得到飞速的发展。在信息识别、推荐引擎等领域都取得了出色的应用效果。同时，大量实验结果证明深度学习模型有着良好的鲁棒性和泛化性。

光学字符识别（OCR）是指对文本资料的图像文件进行分析识别处理，获取文字及版面信息的过程。传统OCR基于图像处理如二值化、投影分析等和统计机器学习实现。在背景单一、数据场景简单的情况下，传统OCR能达到较好效果。基于深度学习的OCR利用模型算法能力替换传统OCR的手动方法，自动检测文本的类别和位置信息，并根据位置文本信息自动识别文本内容。在场景复杂、干扰多的情况下，深度学习OCR效果提升明显。

根据识别场景，OCR可分为识别特定场景的专用OCR和识别多种场景的通用OCR。OCR技术的应用领域广泛，如车牌识别，证件识别，手写识别等。

基于计算机视觉的个税APP视频OCR模型主要的技术难点在于以下几个方面：

1.本领域中没有直接对瀑布式操作的视频进行文本解析的技术。OCR主要用于图像解析，所以需要将视频拆分成每一帧的图像进行OCR解析。在视频帧数多，视频内容变化不大的情况下，解析过程存在效率低，图像冗余的问题。

2.瀑布式操作的视频内容分页点难以定位。有效解析视频信息需要从构成视频的所有图像中，找到能够覆盖视频所有内容且数量最少的图像组。对于瀑布式操作的视频，信息以滚动方式呈现，难以定位能最大程度覆盖信息的最佳帧，且仅对最佳帧进行OCR解析容易造成信息遗漏。

3.个税APP视频内容主要是人为操作展示APP界面内容，在操作时有手指遮挡部分内容的情况，且遮挡方位不固定，对提取完整信息的过程增加难点，会影响OCR识别结果的完整性。

4.对构成视频的图像进行OCR解析后存在大量重复信息，需要对信息进行有效筛选和加工。由于视频内容具有连贯性，相近帧数的图像内容重复度高。如何高效快速筛选信息并确保信息没有遗漏，是保证输出数据有效和模型应用性的重要步骤。

5.将个税APP视频信息提取的工作从人工转为自动化标准流程，需要确保该流程输出结果的准确性和有效性；确保在实际生产中的应用中的适配性。

发明内容

针对现有技术中的上述不足，本发明提供的一种个税APP操作视频中自动化提取和整理有效信息的方法可以自动化提取和整理个税APP操作视频中的有效信息。

为了达到上述发明目的，本发明采用的技术方案为：

提供一种个税APP操作视频中自动化提取和整理有效信息的方法，其包括以下步骤：

S1、获取个税APP操作视频，并对其进行抽帧操作，得到抽帧后的视频；

S2、将抽帧后的视频角度调整至设定角度；

S3、对当前视频中的图像帧进行目标检测任务，获取各个明细区域范围；

S4、对各个明细区域范围进行OCR文字识别，保存全部识别数据；

S5、基于识别数据进行字段对比回填，得到字段回填后的数据，完成个税APP操作视频中有效信息的自动化提取和整理。

进一步地，步骤S1中对个税APP操作视频进行抽帧操作的具体方法为：

按照每10帧抽取一帧的方式对个税APP操作视频进行抽帧操作。

进一步地，步骤S2的具体方法为：包括以下子步骤：

S2-1、将抽帧后的视频输入cbr卷积模块，得到第一输出数据；

S2-2、将第一输出数据输入第一deep卷积模块，得到第二输出数据；

S2-3、将第二输出数据输入第一crc卷积模块，得到第三输出数据；

S2-4、将第三输出数据输入第二deep卷积模块，得到第四输出数据；

S2-5、将第四输出数据输入第二crc卷积模块，得到第五输出数据；

S2-6、将第五输出数据输入第三deep卷积模块，得到第六输出数据；

S2-7、将第六输出数据输入第三crc卷积模块，得到第七输出数据；

S2-8、将第七输出数据输入第四deep卷积模块，得到第八输出数据；

S2-9、将第八输出数据输入第四crc卷积模块，得到第九输出数据；

S2-10、将第九输出数据输入第五deep卷积模块，得到第十输出数据；

S2-11、将第十输出数据输入第五crc卷积模块，得到第十一输出数据；

S2-12、将第十一输出数据输入第六deep卷积模块，得到第十二输出数据；

S2-13、将第十二输出数据输入第六crc卷积模块，得到第十三输出数据；

S2-14、将第四输出数据、第八输出数据、第十一输出数据和第十三输出数据分别在其高度方向取平均值，对应得到输出数据

、输出数据

、输出数据

和输出数据

；

S2-15、将输出数据

、输出数据

、输出数据

和输出数据

分别在其宽度方向取平均值，对应得到输出数据

、输出数据

、输出数据

和输出数据

；

S2-16、将输出数据

、输出数据

、输出数据

和输出数据

进行张量拼接，并将拼接得到的数据

输入线性层，得到将视频角度调整至设定角度的视频图像数据。

进一步地，cbr卷积模块的公式表达式为：

其中

表示cbr卷积模块的输出，

表示cbr卷积模块的输入，

表示卷积操作，

表示批量标准化操作，

表示Relu激活；

crc卷积模块的公式表达式为：

其中

表示crc卷积模块的输出，

表示crc卷积模块的输入；

deep卷积模块的公式表达式为：

其中

表示deep卷积模块的输出，

表示deep卷积模块的输入，

表示输入cbr卷积模块进行处理。

进一步地，步骤S3的具体方法为：

采用yoloV5模型对当前视频中的图像帧进行目标检测任务，获取各个明细区域范围。

进一步地，步骤S5的具体方法包括以下子步骤：

S5-1、读取每一张视频帧对应的识别数据，判断当前视频帧中各个区域数据是否已经存在，若是则进入步骤S5-2；否则直接保存当前视频帧的区域数据；

S5-2、以每个区域数据为单独个体，判断当前视频帧的区域数据是否存在OCR报错信息，若是则丢弃当前视频帧的区域数据；否则进入步骤S5-3；

S5-3、以每个区域数据为单独个体，判断当前视频帧的区域数据中的日期是否为空，若是则丢弃当前视频帧的区域数据；否则进入步骤S5-4；

S5-4、以每个区域数据为单独个体，判断当前视频帧的区域数据是否至少有一个字段的长度大于对应的已保存区域数据，若是则将当前视频帧的区域数据代替对应的已保存的区域数据，得到字段回填后的数据；否则舍弃当前视频帧的区域数据。

进一步地，步骤S5-2中OCR报错信息包括当前视频帧的区域数据中日期为空。

本发明的有益效果为：

1、本方法通过对视频进行抽帧操作，可以减轻图像重复度过高的问题，以10帧为间隔单位提取图像，减少了进入后续OCR识别以及需要储存的图像数量，同时减少了每张图像信息的重复度，提高后续数据去重效率。

2、本方法月度明细视为整体，根据年月信息是否已存进行迭代查重，即在无需判断最佳帧的情况下，将截取的每张图像进行分区域储存和迭代查重。此方法回避了难以定位视频分页点的难题，以及仅对个别帧进行OCR而造成信息遗漏的缺陷。

3、本方法通过对比重复的月度明细数据中每个字段的长度，并取更长的字段更新该月度明细的字段数据，以此避免某些图像中OCR识别不完整的情况。此方法解决了因操作而造成的局部遮挡问题。有遮挡情况下OCR识别出字段的部分信息，字段长度较短。因此，保留最长字段能有效获取OCR识别出的最完整信息。

4、本方法将视频图像旋转至正常阅读方向，确保视频方向一致性后再进行OCR识别，能避免方向对OCR识别的干扰，提高识别效率。此过程中使用的个税APP方向旋转模型网络结构为具有参数量少、模型小、结构简单、计算速度快的特点。

附图说明

图1为本方法的流程示意图；

图2为实施例中调整至设定角度后的视频中的某一帧；

图3为进行目标任务检测的示意图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

如图1所示，该个税APP操作视频中自动化提取和整理有效信息的方法包括以下步骤：

S2、将抽帧后的视频角度调整至设定角度；

步骤S1中对个税APP操作视频进行抽帧操作的具体方法为：按照每10帧抽取一帧的方式对个税APP操作视频进行抽帧操作。

步骤S2的具体方法为：包括以下子步骤：

S2-1、将抽帧后的视频输入cbr卷积模块，得到第一输出数据；

、输出数据

、输出数据

和输出数据

；

S2-15、将输出数据

、输出数据

、输出数据

和输出数据

分别在其宽度方向取平均值，对应得到输出数据

、输出数据

、输出数据

和输出数据

；

S2-16、将输出数据

、输出数据

、输出数据

和输出数据

进行张量拼接，并将拼接得到的数据

cbr卷积模块的公式表达式为：

其中

表示cbr卷积模块的输出，

表示cbr卷积模块的输入，

表示卷积操作，

表示批量标准化操作，

表示Relu激活；

crc卷积模块的公式表达式为：

其中

表示crc卷积模块的输出，

表示crc卷积模块的输入；

deep卷积模块的公式表达式为：

其中

表示deep卷积模块的输出，

表示deep卷积模块的输入，

表示输入cbr卷积模块进行处理。

步骤S3的具体方法为：采用yoloV5模型对当前视频中的图像帧进行目标检测任务，获取各个明细区域范围。

步骤S5的具体方法包括以下子步骤：

在本发明的一个实施例中，步骤S5-2中OCR报错信息包括当前视频帧的区域数据中日期为空。

在具体实施过程中，图2为调整至设定角度后的视频中的某一帧，如图3所示，对该帧进行目标任务检测，获取各个明细区域范围，再对各个明细区域范围进行OCR文字识别，读取每一张图片OCR数据的数据结构；基于识别数据进行字段对比回填，得到字段回填后的数据，完成个税APP操作视频中有效信息的自动化提取和整理的最终结果如表1所示。

表1

	日期	类别	所得项目小类	扣缴义务人	收入	已申报税额
							1	2020-11	工资薪金	正常工资薪金	XX股份有限公司	0.00	0.00
2	2020-10	工资薪金	正常工资薪金	XX股份有限公司	75374.07	12874.50
							3	2020-09	工资薪金	正常工资薪金	XX股份有限公司	35033.40	5106.52
4	2020-08	工资薪金	正常工资薪金	XX股份有限公司	33571.35	2829.79
							5	2020-07	工资薪金	正常工资薪金	XX股份有限公司	37663.02	2816.22
6	2020-06	工资薪金	正常工资薪金	XX股份有限公司	37467.67	2796.69
							7	2020-05	工资薪金	正常工资薪金	XX股份有限公司	37705.78	1607.06
8	2020-04	工资薪金	正常工资薪金	XX股份有限公司	74958.65	2675.71
							9	2020-03	工资薪金	正常工资薪金	XX股份有限公司	0.00	0.00
10	2020-02	工资薪金	正常工资薪金	XX股份有限公司	0.00	0.00
							11	2020-01	工资薪金	正常工资薪金	XX股份有限公司	10525.32	64.76
12	2019-12	工资薪金	正常工资薪金	XX股份有限公司	19489.80	802.28
							13	2019-11	工资薪金	正常工资薪金	XX股份有限公司	21523.22	0.00
14	2019-10	工资薪金	正常工资薪金	XX股份有限公司	19796.94	5076.75
							15	2019-09	工资薪金	正常工资薪金	XX股份有限公司	38651.04	216.19

综上所述，本发明可以自动且快速地从个税APP操作视频中自动提取和整理有效信息，便于使用者核对相关数据，避免出现财务等问题。