CN112699860A - 一种个税app操作视频中自动化提取和整理有效信息的方法 - Google Patents

一种个税app操作视频中自动化提取和整理有效信息的方法 Download PDF

Info

Publication number
CN112699860A
CN112699860A CN202110310831.9A CN202110310831A CN112699860A CN 112699860 A CN112699860 A CN 112699860A CN 202110310831 A CN202110310831 A CN 202110310831A CN 112699860 A CN112699860 A CN 112699860A
Authority
CN
China
Prior art keywords
output data
data
video
convolution module
inputting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110310831.9A
Other languages
English (en)
Other versions
CN112699860B (zh
Inventor
赵小诣
周智杰
吕文勇
周旭强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu New Hope Finance Information Co Ltd
Original Assignee
Chengdu New Hope Finance Information Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu New Hope Finance Information Co Ltd filed Critical Chengdu New Hope Finance Information Co Ltd
Priority to CN202110310831.9A priority Critical patent/CN112699860B/zh
Publication of CN112699860A publication Critical patent/CN112699860A/zh
Application granted granted Critical
Publication of CN112699860B publication Critical patent/CN112699860B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/174Form filling; Merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/12Accounting
    • G06Q40/123Tax preparation or submission
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/242Aligning, centring, orientation detection or correction of the image by image rotation, e.g. by 90 degrees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Multimedia (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种个税APP操作视频中自动化提取和整理有效信息的方法,涉及视频处理领域,包括以下步骤:S1、获取个税APP操作视频,并对其进行抽帧操作,得到抽帧后的视频;S2、将抽帧后的视频角度调整至设定角度;S3、对当前视频中的图像帧进行目标检测任务,获取各个明细区域范围;S4、对各个明细区域范围进行OCR文字识别,保存全部识别数据;S5、基于识别数据进行字段对比回填,得到字段回填后的数据,完成个税APP操作视频中有效信息的自动化提取和整理。本发明可以自动且快速地从个税APP操作视频中自动提取和整理有效信息,便于使用者核对相关数据,避免出现财务等问题。

Description

一种个税APP操作视频中自动化提取和整理有效信息的方法
技术领域
本发明涉及视频处理领域,具体涉及一种个税APP操作视频中自动化提取和整理有效信息的方法。
背景技术
深度学习是基于学习数据表示的更广泛的机器学习方法的一部分。深度学习架构,如深度神经网络,深度置信网络和递归神经网络等,已应用于计算机视觉,语音识别,自然语言处理,音频识别,社交网络过滤,机器翻译,生物信息学,药物设计,医学图像分析等领域。由深度学习框架所产生的模型结果可与人类专家相媲美,甚至在某些情况下优于人类专家。
与机器学习一样深度学习可以分为两种:监督学习与无监督学习。近年来,深度学习技术随着计算机算力的提高得到飞速的发展。在信息识别、推荐引擎等领域都取得了出色的应用效果。同时,大量实验结果证明深度学习模型有着良好的鲁棒性和泛化性。
光学字符识别(OCR)是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。传统OCR基于图像处理如二值化、投影分析等和统计机器学习实现。在背景单一、数据场景简单的情况下,传统OCR能达到较好效果。基于深度学习的OCR利用模型算法能力替换传统OCR的手动方法,自动检测文本的类别和位置信息,并根据位置文本信息自动识别文本内容。在场景复杂、干扰多的情况下,深度学习OCR效果提升明显。
根据识别场景,OCR可分为识别特定场景的专用OCR和识别多种场景的通用OCR。OCR技术的应用领域广泛,如车牌识别,证件识别,手写识别等。
基于计算机视觉的个税APP视频OCR模型主要的技术难点在于以下几个方面:
1.本领域中没有直接对瀑布式操作的视频进行文本解析的技术。OCR主要用于图像解析,所以需要将视频拆分成每一帧的图像进行OCR解析。在视频帧数多,视频内容变化不大的情况下,解析过程存在效率低,图像冗余的问题。
2.瀑布式操作的视频内容分页点难以定位。有效解析视频信息需要从构成视频的所有图像中,找到能够覆盖视频所有内容且数量最少的图像组。对于瀑布式操作的视频,信息以滚动方式呈现,难以定位能最大程度覆盖信息的最佳帧,且仅对最佳帧进行OCR解析容易造成信息遗漏。
3.个税APP视频内容主要是人为操作展示APP界面内容,在操作时有手指遮挡部分内容的情况,且遮挡方位不固定,对提取完整信息的过程增加难点,会影响OCR识别结果的完整性。
4.对构成视频的图像进行OCR解析后存在大量重复信息,需要对信息进行有效筛选和加工。由于视频内容具有连贯性,相近帧数的图像内容重复度高。如何高效快速筛选信息并确保信息没有遗漏,是保证输出数据有效和模型应用性的重要步骤。
5.将个税APP视频信息提取的工作从人工转为自动化标准流程,需要确保该流程输出结果的准确性和有效性;确保在实际生产中的应用中的适配性。
发明内容
针对现有技术中的上述不足,本发明提供的一种个税APP操作视频中自动化提取和整理有效信息的方法可以自动化提取和整理个税APP操作视频中的有效信息。
为了达到上述发明目的,本发明采用的技术方案为:
提供一种个税APP操作视频中自动化提取和整理有效信息的方法,其包括以下步骤:
S1、获取个税APP操作视频,并对其进行抽帧操作,得到抽帧后的视频;
S2、将抽帧后的视频角度调整至设定角度;
S3、对当前视频中的图像帧进行目标检测任务,获取各个明细区域范围;
S4、对各个明细区域范围进行OCR文字识别,保存全部识别数据;
S5、基于识别数据进行字段对比回填,得到字段回填后的数据,完成个税APP操作视频中有效信息的自动化提取和整理。
进一步地,步骤S1中对个税APP操作视频进行抽帧操作的具体方法为:
按照每10帧抽取一帧的方式对个税APP操作视频进行抽帧操作。
进一步地,步骤S2的具体方法为:包括以下子步骤:
S2-1、将抽帧后的视频输入cbr卷积模块,得到第一输出数据;
S2-2、将第一输出数据输入第一deep卷积模块,得到第二输出数据;
S2-3、将第二输出数据输入第一crc卷积模块,得到第三输出数据;
S2-4、将第三输出数据输入第二deep卷积模块,得到第四输出数据;
S2-5、将第四输出数据输入第二crc卷积模块,得到第五输出数据;
S2-6、将第五输出数据输入第三deep卷积模块,得到第六输出数据;
S2-7、将第六输出数据输入第三crc卷积模块,得到第七输出数据;
S2-8、将第七输出数据输入第四deep卷积模块,得到第八输出数据;
S2-9、将第八输出数据输入第四crc卷积模块,得到第九输出数据;
S2-10、将第九输出数据输入第五deep卷积模块,得到第十输出数据;
S2-11、将第十输出数据输入第五crc卷积模块,得到第十一输出数据;
S2-12、将第十一输出数据输入第六deep卷积模块,得到第十二输出数据;
S2-13、将第十二输出数据输入第六crc卷积模块,得到第十三输出数据;
S2-14、将第四输出数据、第八输出数据、第十一输出数据和第十三输出数据分别在其高度方向取平均值,对应得到输出数据
Figure 666668DEST_PATH_IMAGE001
、输出数据
Figure 114967DEST_PATH_IMAGE002
、输出数据
Figure 431722DEST_PATH_IMAGE003
和输出数据
Figure 358090DEST_PATH_IMAGE004
S2-15、将输出数据
Figure 438041DEST_PATH_IMAGE001
、输出数据
Figure 526083DEST_PATH_IMAGE002
、输出数据
Figure 324275DEST_PATH_IMAGE003
和输出数据
Figure 54333DEST_PATH_IMAGE004
分别在其宽度方向取平均值,对应得到输出数据
Figure 988791DEST_PATH_IMAGE005
、输出数据
Figure 513313DEST_PATH_IMAGE006
、输出数据
Figure 533222DEST_PATH_IMAGE007
和输出数据
Figure 801392DEST_PATH_IMAGE008
S2-16、将输出数据
Figure 590357DEST_PATH_IMAGE005
、输出数据
Figure 551360DEST_PATH_IMAGE006
、输出数据
Figure 58564DEST_PATH_IMAGE007
和输出数据
Figure 864846DEST_PATH_IMAGE008
进行张量拼接,并将拼接得到的数据
Figure 39476DEST_PATH_IMAGE009
输入线性层,得到将视频角度调整至设定角度的视频图像数据。
进一步地,cbr卷积模块的公式表达式为:
Figure 640221DEST_PATH_IMAGE010
其中
Figure 900301DEST_PATH_IMAGE011
表示cbr卷积模块的输出,
Figure 244695DEST_PATH_IMAGE012
表示cbr卷积模块的输入,
Figure 273831DEST_PATH_IMAGE013
表示卷积操作,
Figure 311057DEST_PATH_IMAGE014
表示批量标准化操作,
Figure 792854DEST_PATH_IMAGE015
表示Relu激活;
crc卷积模块的公式表达式为:
Figure 206518DEST_PATH_IMAGE016
其中
Figure 90160DEST_PATH_IMAGE017
表示crc卷积模块的输出,
Figure 298288DEST_PATH_IMAGE018
表示crc卷积模块的输入;
deep卷积模块的公式表达式为:
Figure 267381DEST_PATH_IMAGE019
其中
Figure 953577DEST_PATH_IMAGE020
表示deep卷积模块的输出,
Figure 957305DEST_PATH_IMAGE021
表示deep卷积模块的输入,
Figure 336334DEST_PATH_IMAGE022
表示输入cbr卷积模块进行处理。
进一步地,步骤S3的具体方法为:
采用yoloV5模型对当前视频中的图像帧进行目标检测任务,获取各个明细区域范围。
进一步地,步骤S5的具体方法包括以下子步骤:
S5-1、读取每一张视频帧对应的识别数据,判断当前视频帧中各个区域数据是否已经存在,若是则进入步骤S5-2;否则直接保存当前视频帧的区域数据;
S5-2、以每个区域数据为单独个体,判断当前视频帧的区域数据是否存在OCR报错信息,若是则丢弃当前视频帧的区域数据;否则进入步骤S5-3;
S5-3、以每个区域数据为单独个体,判断当前视频帧的区域数据中的日期是否为空,若是则丢弃当前视频帧的区域数据;否则进入步骤S5-4;
S5-4、以每个区域数据为单独个体,判断当前视频帧的区域数据是否至少有一个字段的长度大于对应的已保存区域数据,若是则将当前视频帧的区域数据代替对应的已保存的区域数据,得到字段回填后的数据;否则舍弃当前视频帧的区域数据。
进一步地,步骤S5-2中OCR报错信息包括当前视频帧的区域数据中日期为空。
本发明的有益效果为:
1、本方法通过对视频进行抽帧操作,可以减轻图像重复度过高的问题,以10帧为间隔单位提取图像,减少了进入后续OCR识别以及需要储存的图像数量,同时减少了每张图像信息的重复度,提高后续数据去重效率。
2、本方法月度明细视为整体,根据年月信息是否已存进行迭代查重,即在无需判断最佳帧的情况下,将截取的每张图像进行分区域储存和迭代查重。此方法回避了难以定位视频分页点的难题,以及仅对个别帧进行OCR而造成信息遗漏的缺陷。
3、本方法通过对比重复的月度明细数据中每个字段的长度,并取更长的字段更新该月度明细的字段数据,以此避免某些图像中OCR识别不完整的情况。此方法解决了因操作而造成的局部遮挡问题。有遮挡情况下OCR识别出字段的部分信息,字段长度较短。因此,保留最长字段能有效获取OCR识别出的最完整信息。
4、本方法将视频图像旋转至正常阅读方向,确保视频方向一致性后再进行OCR识别,能避免方向对OCR识别的干扰,提高识别效率。此过程中使用的个税APP方向旋转模型网络结构为具有参数量少、模型小、结构简单、计算速度快的特点。
附图说明
图1为本方法的流程示意图;
图2为实施例中调整至设定角度后的视频中的某一帧;
图3为进行目标任务检测的示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
如图1所示,该个税APP操作视频中自动化提取和整理有效信息的方法包括以下步骤:
S1、获取个税APP操作视频,并对其进行抽帧操作,得到抽帧后的视频;
S2、将抽帧后的视频角度调整至设定角度;
S3、对当前视频中的图像帧进行目标检测任务,获取各个明细区域范围;
S4、对各个明细区域范围进行OCR文字识别,保存全部识别数据;
S5、基于识别数据进行字段对比回填,得到字段回填后的数据,完成个税APP操作视频中有效信息的自动化提取和整理。
步骤S1中对个税APP操作视频进行抽帧操作的具体方法为:按照每10帧抽取一帧的方式对个税APP操作视频进行抽帧操作。
步骤S2的具体方法为:包括以下子步骤:
S2-1、将抽帧后的视频输入cbr卷积模块,得到第一输出数据;
S2-2、将第一输出数据输入第一deep卷积模块,得到第二输出数据;
S2-3、将第二输出数据输入第一crc卷积模块,得到第三输出数据;
S2-4、将第三输出数据输入第二deep卷积模块,得到第四输出数据;
S2-5、将第四输出数据输入第二crc卷积模块,得到第五输出数据;
S2-6、将第五输出数据输入第三deep卷积模块,得到第六输出数据;
S2-7、将第六输出数据输入第三crc卷积模块,得到第七输出数据;
S2-8、将第七输出数据输入第四deep卷积模块,得到第八输出数据;
S2-9、将第八输出数据输入第四crc卷积模块,得到第九输出数据;
S2-10、将第九输出数据输入第五deep卷积模块,得到第十输出数据;
S2-11、将第十输出数据输入第五crc卷积模块,得到第十一输出数据;
S2-12、将第十一输出数据输入第六deep卷积模块,得到第十二输出数据;
S2-13、将第十二输出数据输入第六crc卷积模块,得到第十三输出数据;
S2-14、将第四输出数据、第八输出数据、第十一输出数据和第十三输出数据分别在其高度方向取平均值,对应得到输出数据
Figure 792723DEST_PATH_IMAGE001
、输出数据
Figure 282610DEST_PATH_IMAGE002
、输出数据
Figure 875265DEST_PATH_IMAGE003
和输出数据
Figure 425195DEST_PATH_IMAGE004
S2-15、将输出数据
Figure 368881DEST_PATH_IMAGE001
、输出数据
Figure 662459DEST_PATH_IMAGE002
、输出数据
Figure 375200DEST_PATH_IMAGE003
和输出数据
Figure 96031DEST_PATH_IMAGE004
分别在其宽度方向取平均值,对应得到输出数据
Figure 261433DEST_PATH_IMAGE005
、输出数据
Figure 358702DEST_PATH_IMAGE006
、输出数据
Figure 925950DEST_PATH_IMAGE007
和输出数据
Figure 817682DEST_PATH_IMAGE008
S2-16、将输出数据
Figure 470381DEST_PATH_IMAGE005
、输出数据
Figure 105761DEST_PATH_IMAGE006
、输出数据
Figure 545093DEST_PATH_IMAGE007
和输出数据
Figure 873307DEST_PATH_IMAGE008
进行张量拼接,并将拼接得到的数据
Figure 747722DEST_PATH_IMAGE009
输入线性层,得到将视频角度调整至设定角度的视频图像数据。
cbr卷积模块的公式表达式为:
Figure 452373DEST_PATH_IMAGE010
其中
Figure 728633DEST_PATH_IMAGE011
表示cbr卷积模块的输出,
Figure 227748DEST_PATH_IMAGE012
表示cbr卷积模块的输入,
Figure 589459DEST_PATH_IMAGE013
表示卷积操作,
Figure 832221DEST_PATH_IMAGE014
表示批量标准化操作,
Figure 228568DEST_PATH_IMAGE015
表示Relu激活;
crc卷积模块的公式表达式为:
Figure 633004DEST_PATH_IMAGE016
其中
Figure 747591DEST_PATH_IMAGE017
表示crc卷积模块的输出,
Figure 262886DEST_PATH_IMAGE018
表示crc卷积模块的输入;
deep卷积模块的公式表达式为:
Figure 779318DEST_PATH_IMAGE019
其中
Figure 354655DEST_PATH_IMAGE020
表示deep卷积模块的输出,
Figure 956538DEST_PATH_IMAGE021
表示deep卷积模块的输入,
Figure 275524DEST_PATH_IMAGE022
表示输入cbr卷积模块进行处理。
步骤S3的具体方法为:采用yoloV5模型对当前视频中的图像帧进行目标检测任务,获取各个明细区域范围。
步骤S5的具体方法包括以下子步骤:
S5-1、读取每一张视频帧对应的识别数据,判断当前视频帧中各个区域数据是否已经存在,若是则进入步骤S5-2;否则直接保存当前视频帧的区域数据;
S5-2、以每个区域数据为单独个体,判断当前视频帧的区域数据是否存在OCR报错信息,若是则丢弃当前视频帧的区域数据;否则进入步骤S5-3;
S5-3、以每个区域数据为单独个体,判断当前视频帧的区域数据中的日期是否为空,若是则丢弃当前视频帧的区域数据;否则进入步骤S5-4;
S5-4、以每个区域数据为单独个体,判断当前视频帧的区域数据是否至少有一个字段的长度大于对应的已保存区域数据,若是则将当前视频帧的区域数据代替对应的已保存的区域数据,得到字段回填后的数据;否则舍弃当前视频帧的区域数据。
在本发明的一个实施例中,步骤S5-2中OCR报错信息包括当前视频帧的区域数据中日期为空。
在具体实施过程中,图2为调整至设定角度后的视频中的某一帧,如图3所示,对该帧进行目标任务检测,获取各个明细区域范围,再对各个明细区域范围进行OCR文字识别,读取每一张图片OCR数据的数据结构;基于识别数据进行字段对比回填,得到字段回填后的数据,完成个税APP操作视频中有效信息的自动化提取和整理的最终结果如表1所示。
表1
日期 类别 所得项目小类 扣缴义务人 收入 已申报税额
1 2020-11 工资薪金 正常工资薪金 XX股份有限公司 0.00 0.00
2 2020-10 工资薪金 正常工资薪金 XX股份有限公司 75374.07 12874.50
3 2020-09 工资薪金 正常工资薪金 XX股份有限公司 35033.40 5106.52
4 2020-08 工资薪金 正常工资薪金 XX股份有限公司 33571.35 2829.79
5 2020-07 工资薪金 正常工资薪金 XX股份有限公司 37663.02 2816.22
6 2020-06 工资薪金 正常工资薪金 XX股份有限公司 37467.67 2796.69
7 2020-05 工资薪金 正常工资薪金 XX股份有限公司 37705.78 1607.06
8 2020-04 工资薪金 正常工资薪金 XX股份有限公司 74958.65 2675.71
9 2020-03 工资薪金 正常工资薪金 XX股份有限公司 0.00 0.00
10 2020-02 工资薪金 正常工资薪金 XX股份有限公司 0.00 0.00
11 2020-01 工资薪金 正常工资薪金 XX股份有限公司 10525.32 64.76
12 2019-12 工资薪金 正常工资薪金 XX股份有限公司 19489.80 802.28
13 2019-11 工资薪金 正常工资薪金 XX股份有限公司 21523.22 0.00
14 2019-10 工资薪金 正常工资薪金 XX股份有限公司 19796.94 5076.75
15 2019-09 工资薪金 正常工资薪金 XX股份有限公司 38651.04 216.19
综上所述,本发明可以自动且快速地从个税APP操作视频中自动提取和整理有效信息,便于使用者核对相关数据,避免出现财务等问题。

Claims (7)

1.一种个税APP操作视频中自动化提取和整理有效信息的方法,其特征在于,包括以下步骤:
S1、获取个税APP操作视频,并对其进行抽帧操作,得到抽帧后的视频;
S2、将抽帧后的视频角度调整至设定角度;
S3、对当前视频中的图像帧进行目标检测任务,获取各个明细区域范围;
S4、对各个明细区域范围进行OCR文字识别,保存全部识别数据;
S5、基于识别数据进行字段对比回填,得到字段回填后的数据,完成个税APP操作视频中有效信息的自动化提取和整理。
2.根据权利要求1所述的个税APP操作视频中自动化提取和整理有效信息的方法,其特征在于,步骤S1中对个税APP操作视频进行抽帧操作的具体方法为:
按照每10帧抽取一帧的方式对个税APP操作视频进行抽帧操作。
3.根据权利要求1所述的个税APP操作视频中自动化提取和整理有效信息的方法,其特征在于,步骤S2的具体方法为:包括以下子步骤:
S2-1、将抽帧后的视频输入cbr卷积模块,得到第一输出数据;
S2-2、将第一输出数据输入第一deep卷积模块,得到第二输出数据;
S2-3、将第二输出数据输入第一crc卷积模块,得到第三输出数据;
S2-4、将第三输出数据输入第二deep卷积模块,得到第四输出数据;
S2-5、将第四输出数据输入第二crc卷积模块,得到第五输出数据;
S2-6、将第五输出数据输入第三deep卷积模块,得到第六输出数据;
S2-7、将第六输出数据输入第三crc卷积模块,得到第七输出数据;
S2-8、将第七输出数据输入第四deep卷积模块,得到第八输出数据;
S2-9、将第八输出数据输入第四crc卷积模块,得到第九输出数据;
S2-10、将第九输出数据输入第五deep卷积模块,得到第十输出数据;
S2-11、将第十输出数据输入第五crc卷积模块,得到第十一输出数据;
S2-12、将第十一输出数据输入第六deep卷积模块,得到第十二输出数据;
S2-13、将第十二输出数据输入第六crc卷积模块,得到第十三输出数据;
S2-14、将第四输出数据、第八输出数据、第十一输出数据和第十三输出数据分别在其高度方向取平均值,对应得到输出数据
Figure 493249DEST_PATH_IMAGE001
、输出数据
Figure 505067DEST_PATH_IMAGE002
、输出数据
Figure 328667DEST_PATH_IMAGE003
和输出数据
Figure 451344DEST_PATH_IMAGE004
S2-15、将输出数据
Figure 676789DEST_PATH_IMAGE001
、输出数据
Figure 859508DEST_PATH_IMAGE002
、输出数据
Figure 170404DEST_PATH_IMAGE003
和输出数据
Figure 96771DEST_PATH_IMAGE004
分别在其宽度方向取平均值,对应得到输出数据
Figure 911144DEST_PATH_IMAGE005
、输出数据
Figure 530344DEST_PATH_IMAGE006
、输出数据
Figure 62956DEST_PATH_IMAGE007
和输出数据
Figure 793015DEST_PATH_IMAGE008
S2-16、将输出数据
Figure 733332DEST_PATH_IMAGE005
、输出数据
Figure 257855DEST_PATH_IMAGE006
、输出数据
Figure 543342DEST_PATH_IMAGE007
和输出数据
Figure 545933DEST_PATH_IMAGE008
进行张量拼接,并将拼接得到的数据
Figure 600477DEST_PATH_IMAGE009
输入线性层,得到将视频角度调整至设定角度的视频图像数据。
4.根据权利要求3所述的个税APP操作视频中自动化提取和整理有效信息的方法,其特征在于,cbr卷积模块的公式表达式为:
Figure 295901DEST_PATH_IMAGE010
其中
Figure 803105DEST_PATH_IMAGE011
表示cbr卷积模块的输出,
Figure 874967DEST_PATH_IMAGE012
表示cbr卷积模块的输入,
Figure 49596DEST_PATH_IMAGE013
表示卷积操作,
Figure 650342DEST_PATH_IMAGE014
表示批量标准化操作,
Figure 910422DEST_PATH_IMAGE015
表示Relu激活;
crc卷积模块的公式表达式为:
Figure 254815DEST_PATH_IMAGE016
其中
Figure 18372DEST_PATH_IMAGE017
表示crc卷积模块的输出,
Figure 55598DEST_PATH_IMAGE018
表示crc卷积模块的输入;
deep卷积模块的公式表达式为:
Figure 802974DEST_PATH_IMAGE019
其中
Figure 951059DEST_PATH_IMAGE020
表示deep卷积模块的输出,
Figure 834701DEST_PATH_IMAGE021
表示deep卷积模块的输入,
Figure 42829DEST_PATH_IMAGE022
表示输入cbr卷积模块进行处理。
5.根据权利要求1所述的个税APP操作视频中自动化提取和整理有效信息的方法,其特征在于,步骤S3的具体方法为:
采用yoloV5模型对当前视频中的图像帧进行目标检测任务,获取各个明细区域范围。
6.根据权利要求1所述的个税APP操作视频中自动化提取和整理有效信息的方法,其特征在于,步骤S5的具体方法包括以下子步骤:
S5-1、读取每一张视频帧对应的识别数据,判断当前视频帧中各个区域数据是否已经存在,若是则进入步骤S5-2;否则直接保存当前视频帧的区域数据;
S5-2、以每个区域数据为单独个体,判断当前视频帧的区域数据是否存在OCR报错信息,若是则丢弃当前视频帧的区域数据;否则进入步骤S5-3;
S5-3、以每个区域数据为单独个体,判断当前视频帧的区域数据中的日期是否为空,若是则丢弃当前视频帧的区域数据;否则进入步骤S5-4;
S5-4、以每个区域数据为单独个体,判断当前视频帧的区域数据是否至少有一个字段的长度大于对应的已保存区域数据,若是则将当前视频帧的区域数据代替对应的已保存的区域数据,得到字段回填后的数据;否则舍弃当前视频帧的区域数据。
7.根据权利要求6所述的个税APP操作视频中自动化提取和整理有效信息的方法,其特征在于,步骤S5-2中OCR报错信息包括当前视频帧的区域数据中日期为空。
CN202110310831.9A 2021-03-24 2021-03-24 一种个税app操作视频中自动化提取和整理有效信息的方法 Active CN112699860B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110310831.9A CN112699860B (zh) 2021-03-24 2021-03-24 一种个税app操作视频中自动化提取和整理有效信息的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110310831.9A CN112699860B (zh) 2021-03-24 2021-03-24 一种个税app操作视频中自动化提取和整理有效信息的方法

Publications (2)

Publication Number Publication Date
CN112699860A true CN112699860A (zh) 2021-04-23
CN112699860B CN112699860B (zh) 2021-06-22

Family

ID=75515573

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110310831.9A Active CN112699860B (zh) 2021-03-24 2021-03-24 一种个税app操作视频中自动化提取和整理有效信息的方法

Country Status (1)

Country Link
CN (1) CN112699860B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113392848A (zh) * 2021-08-18 2021-09-14 海特锐(天津)科技有限公司 一种基于深度学习的圆柱体上ocr的读取方法及其设备

Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN202694374U (zh) * 2012-05-15 2013-01-23 深圳长城开发科技股份有限公司 一种用于发票识别的便携式装置
CN105528604A (zh) * 2016-01-31 2016-04-27 华南理工大学 一种基于ocr的票据自动识别与处理系统
US9412017B1 (en) * 2013-12-30 2016-08-09 Intuit Inc. Methods systems and computer program products for motion initiated document capture
CN108229481A (zh) * 2017-12-25 2018-06-29 中国移动通信集团江苏有限公司 屏幕内容分析方法、装置、计算设备及存储介质
CN108446621A (zh) * 2018-03-14 2018-08-24 平安科技(深圳)有限公司 票据识别方法、服务器及计算机可读存储介质
CN108537219A (zh) * 2018-03-20 2018-09-14 上海眼控科技股份有限公司 一种用于财务报表外框的智能检测方法及装置
CN108717545A (zh) * 2018-05-18 2018-10-30 北京大账房网络科技股份有限公司 一种基于手机拍照的票据识别方法及系统
CN109241857A (zh) * 2018-08-13 2019-01-18 杭州睿琪软件有限公司 一种单据信息的识别方法及系统
CN109753476A (zh) * 2019-01-11 2019-05-14 北京师范大学 一种票据扫描财务专用计算器及使用方法
CN109886108A (zh) * 2019-01-17 2019-06-14 上海大学 一种表单任意区域字符识别与信息录入方法
CN110163051A (zh) * 2018-07-31 2019-08-23 腾讯科技(深圳)有限公司 文本提取方法、装置及存储介质
CN110223511A (zh) * 2019-04-29 2019-09-10 合刃科技(武汉)有限公司 一种汽车路边违停智能监测方法及系统
CN110347306A (zh) * 2019-05-30 2019-10-18 努比亚技术有限公司 一种分屏显示方法、终端及计算机可读存储介质
CN110866495A (zh) * 2019-11-14 2020-03-06 杭州睿琪软件有限公司 票据图像识别方法及装置和设备、训练方法和存储介质
CN110969129A (zh) * 2019-12-03 2020-04-07 山东浪潮人工智能研究院有限公司 一种端到端税务票据文本检测与识别方法
CN111243351A (zh) * 2020-01-07 2020-06-05 路宽 一种基于分词技术的外语口语训练系统、客户端和服务器
CN111709349A (zh) * 2020-06-11 2020-09-25 杭州尚尚签网络科技有限公司 一种针对带表格合同的ocr识别方法
CN111914682A (zh) * 2020-07-13 2020-11-10 完美世界控股集团有限公司 一种包含演示文稿的教学视频分割方法、装置及设备
CN112395996A (zh) * 2020-11-19 2021-02-23 深圳供电局有限公司 财务票据ocr识别及影像处理方法、系统及可读存储介质
CN112528998A (zh) * 2021-02-18 2021-03-19 成都新希望金融信息有限公司 证件图像处理方法、装置、电子设备及可读存储介质

Patent Citations (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN202694374U (zh) * 2012-05-15 2013-01-23 深圳长城开发科技股份有限公司 一种用于发票识别的便携式装置
US9412017B1 (en) * 2013-12-30 2016-08-09 Intuit Inc. Methods systems and computer program products for motion initiated document capture
US10037581B1 (en) * 2013-12-30 2018-07-31 Intuit Inc. Methods systems and computer program products for motion initiated document capture
CN105528604A (zh) * 2016-01-31 2016-04-27 华南理工大学 一种基于ocr的票据自动识别与处理系统
CN108229481A (zh) * 2017-12-25 2018-06-29 中国移动通信集团江苏有限公司 屏幕内容分析方法、装置、计算设备及存储介质
CN108446621A (zh) * 2018-03-14 2018-08-24 平安科技(深圳)有限公司 票据识别方法、服务器及计算机可读存储介质
CN108537219A (zh) * 2018-03-20 2018-09-14 上海眼控科技股份有限公司 一种用于财务报表外框的智能检测方法及装置
CN108717545A (zh) * 2018-05-18 2018-10-30 北京大账房网络科技股份有限公司 一种基于手机拍照的票据识别方法及系统
CN110163051A (zh) * 2018-07-31 2019-08-23 腾讯科技(深圳)有限公司 文本提取方法、装置及存储介质
CN110390320A (zh) * 2018-08-13 2019-10-29 杭州睿琪软件有限公司 一种包含有多张单据的影像信息的识别方法及系统
CN109241857A (zh) * 2018-08-13 2019-01-18 杭州睿琪软件有限公司 一种单据信息的识别方法及系统
CN109753476A (zh) * 2019-01-11 2019-05-14 北京师范大学 一种票据扫描财务专用计算器及使用方法
CN109886108A (zh) * 2019-01-17 2019-06-14 上海大学 一种表单任意区域字符识别与信息录入方法
CN110223511A (zh) * 2019-04-29 2019-09-10 合刃科技(武汉)有限公司 一种汽车路边违停智能监测方法及系统
CN110347306A (zh) * 2019-05-30 2019-10-18 努比亚技术有限公司 一种分屏显示方法、终端及计算机可读存储介质
CN110866495A (zh) * 2019-11-14 2020-03-06 杭州睿琪软件有限公司 票据图像识别方法及装置和设备、训练方法和存储介质
CN110969129A (zh) * 2019-12-03 2020-04-07 山东浪潮人工智能研究院有限公司 一种端到端税务票据文本检测与识别方法
CN111243351A (zh) * 2020-01-07 2020-06-05 路宽 一种基于分词技术的外语口语训练系统、客户端和服务器
CN111709349A (zh) * 2020-06-11 2020-09-25 杭州尚尚签网络科技有限公司 一种针对带表格合同的ocr识别方法
CN111914682A (zh) * 2020-07-13 2020-11-10 完美世界控股集团有限公司 一种包含演示文稿的教学视频分割方法、装置及设备
CN112395996A (zh) * 2020-11-19 2021-02-23 深圳供电局有限公司 财务票据ocr识别及影像处理方法、系统及可读存储介质
CN112528998A (zh) * 2021-02-18 2021-03-19 成都新希望金融信息有限公司 证件图像处理方法、装置、电子设备及可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
谭致远 等: "供电表单类识别算法研究", 《中国高新科技》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113392848A (zh) * 2021-08-18 2021-09-14 海特锐(天津)科技有限公司 一种基于深度学习的圆柱体上ocr的读取方法及其设备

Also Published As

Publication number Publication date
CN112699860B (zh) 2021-06-22

Similar Documents

Publication Publication Date Title
Weinman et al. Toward integrated scene text reading
Ye et al. Text detection and recognition in imagery: A survey
Mori et al. Optical character recognition
Koga et al. Camera-based kanji ocr for mobile-phones: Practical issues
Zanibbi et al. Evaluating structural pattern recognition for handwritten math via primitive label graphs
CN112541494A (zh) 文本识别方法、装置、电子设备及存储介质
CN112699860B (zh) 一种个税app操作视频中自动化提取和整理有效信息的方法
Jindal et al. Text line segmentation in indian ancient handwritten documents using faster R-CNN
JP6174466B2 (ja) 帳票認識装置、帳票認識方法、及びプログラム
Xu et al. image2emmet: Automatic code generation from web user interface image
Al-Barhamtoshy et al. An arabic manuscript regions detection, recognition and its applications for OCRing
Qaroush et al. Learning-free, divide and conquer text-line extraction algorithm for printed Arabic text with diacritics
Rahman et al. Bn-htrd: A benchmark dataset for document level offline bangla handwritten text recognition (htr) and line segmentation
Dölek et al. A deep learning model for Ottoman OCR
Singh et al. Recognition of online unconstrained handwritten Gurmukhi characters based on Finite State Automata
Pan et al. A new dataset for mongolian online handwritten recognition
CN113610080B (zh) 基于跨模态感知的敏感图像识别方法、装置、设备及介质
CN115147841A (zh) 基于深度学习的数据智能识别提取系统、方法及介质
Akhter et al. Semantic segmentation of printed text from marathi document images using deep learning methods
Bagwe et al. Optical character recognition using deep learning techniques for printed and handwritten documents
Bhowmik Document layout analysis
Mishra et al. Multimodal machine learning for extraction of theorems and proofs in the scientific literature
CN110807449A (zh) 一种科技项目申报线上服务终端
Gupta et al. Character Recognition From Image Using Tensorflow and Convolutional Neural Networks
Shi et al. M5HisDoc: A Large-scale Multi-style Chinese Historical Document Analysis Benchmark

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant