CN115116082B - 一种基于ocr识别算法的一键成档系统 - Google Patents

一种基于ocr识别算法的一键成档系统 Download PDF

Info

Publication number
CN115116082B
CN115116082B CN202210214603.6A CN202210214603A CN115116082B CN 115116082 B CN115116082 B CN 115116082B CN 202210214603 A CN202210214603 A CN 202210214603A CN 115116082 B CN115116082 B CN 115116082B
Authority
CN
China
Prior art keywords
keyword
character
key
module
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210214603.6A
Other languages
English (en)
Other versions
CN115116082A (zh
Inventor
杨建福
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Jingsheng Hangxing Technology Co ltd
Original Assignee
Hangzhou Jingsheng Hangxing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Jingsheng Hangxing Technology Co ltd filed Critical Hangzhou Jingsheng Hangxing Technology Co ltd
Priority to CN202210214603.6A priority Critical patent/CN115116082B/zh
Publication of CN115116082A publication Critical patent/CN115116082A/zh
Application granted granted Critical
Publication of CN115116082B publication Critical patent/CN115116082B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/418Document matching, e.g. of document images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1465Aligning or centring of the image pick-up or image-field by locating a pattern
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明属于教育管理领域,涉及OCR识别技术,用于解决现有的档案生成系统在档案调取时调取手段单一,调取效率低下的技术问题,具体是一种基于OCR识别算法的一键成档系统,包括处理器,处理器通信连接有扫描模块、编号生成模块、特征提取模块、档案调取模块以及存储模块,扫描模块用于对纸质文件进行图像拍摄并将拍摄到的图像标记为分析图像,采用OCR识别接口对分析图像进行OCR识别得到OCR识别结果,OCR识别结果至少包括文字信息;本发明是通过特征提取模块对档案文字信息中的关键词进行提取,同时在关键词提取完成之后对关键词库进行重复分析,保证通过关键词提取档案的有效性。

Description

一种基于OCR识别算法的一键成档系统
技术领域
本发明属于教育管理领域,涉及OCR识别技术,具体是一种基于OCR识别算法的一键成档系统。
背景技术
学术界关于档案的定义还不统一,一般档案是指人们在各项社会活动中直接形成的各种形式的具有保存价值的原始记录,原始记录性是它的本质属性;且现有的档案生成系统不能够在扫描的同时对档案的特征进行调取,导致档案的调取仅能够通过输入编号完成,然而档案的编号字符数通常都很多,在输入时错误率高,导致档案调取效率低下;
针对上述技术问题,本申请提出一种可通过多种调取方式对档案进行调取的一键成档系统。
发明内容
本发明的目的在于提供一种基于OCR识别算法的一键成档系统,用于解决现有的档案生成系统在档案调取时调取手段单一,调取效率低下的技术问题;
本发明需要解决的技术问题为:如何提供一种可通过多种调取方式对档案进行调取的一键成档系统。
本发明的目的可以通过以下技术方案实现:
一种基于OCR识别算法的一键成档系统,包括处理器,所述处理器通信连接有扫描模块、编号生成模块、特征提取模块、档案调取模块以及存储模块;
所述扫描模块用于对纸质文件进行图像拍摄并将拍摄到的图像标记为分析图像,采用OCR识别接口对分析图像进行OCR识别得到OCR识别结果,OCR识别结果至少包括文字信息;
编号生成模块用于对档案进行编号并将得到的标号与档案进行匹配;
所述特征提取模块包括关键提取单元、图形提取单元;
关键提取单元用于对文字信息进行关键词提取并将提取得到的关键词与文字信息进行匹配,在关键词提取完成后对关键词库进行重复分析;
所述图形提取单元用于通过图像处理技术对分析图像中的图形进行提取并将提取得到的图形标记为关键图形,将关键图形与文字信息进行匹配并将关键图形发送至存储模块;
将与文字信息完成匹配的关键图形与关键词的集合标记为关键特征,在档案调取时通过输入关键特征对档案进行调取;
档案调取模块用于通过关键特征对档案进行调取,档案调取模块包括特征调取单元与编号调取单元。
进一步地,编号生成模块对档案进行编号的具体过程包括:获取文字信息中的坐标信息,获取坐标信息中的省、市、县名称并将省、市、县名称的首字母建立坐标字符组,获取档案的扫描时间并将扫描时间中的年份、月份以及日期进行提取,将扫描时间的年份、月份以及日期进行组合得到时间字符组,获取档案归属人的姓名并将档案归属人姓名的首字母进行组合得到名称字符组,由坐标字符组、时间字符组以及名称字符组进行组合得到档案的编码,将档案的编码与档案进行匹配并将档案的编码发送至存储模块。
进一步地,关键词提取的过程包括:将文字信息进行字符拆解并将拆解后的字符按照拆解顺序进行排列,将字符中的标点符号进行删除后,将得到的字符标记为i,i=1,2,…,n,n为正整数,对字符进行组词得到n-1个词组A,词组A中的第一个词语由第一个字符与第二个字符组成,词组A中的第二个词语由第二个字符与第三个字符组成,以此类推,将词组A中出现次数最多与第二多的两个词语分别标记为第一关键词与第二关键词;对字符进行组词得到n-2个词组B,词组B中的第一个词语由第一个字符、第二个字符以及第三个字符组成,词组B中的第二个词语由第二个字符、第三个字符以及第四个字符组成,以此类推,将词组B中出现次数最多与第二多的两个词语分别标记为第三关键词与第四关键词,将第一关键词、第二关键词、第三关键词以及第四关键词发送至关键词库。
进一步地,对关键词库进行重复分析的具体过程包括:通过存储模块获取重复阈值,将关键词库中重复次数不小于重复阈值的关键词进行删除,删除完成后,若文字信息中的关键词全部从关键词库中删除,则对文字信息重新进行关键词提取,将词组A中出现第三多与第四多的两个词语分别标记为第一关键词与第二关键词,将词组B中出现第三多与第四多的两个词语分别标记为第三关键词与第四关键词,将重新提取的第一关键词、第二关键词、第三关键词以及第四关键词发送至关键词库中,对关键词库再次进行重复分析,直至重复分析完成后,文字信息中的关键词还存在于关键词库中,将重复分析完成之后还存在于关键词库中的关键词与文字信息相匹配;若文字信息中的关键词没有全部从关键词库中删除,则将关键词库中剩余的文字信息的关键词与文字信息相匹配。
进一步地,特征调取单元用于通过用户输入的关键特征在存储模块或关键词库中进行查找,判定存储模块或关键词库中是否存在与用户输入的关键特征相同的关键词或关键图形,若存在,则对与关键词或关键图形相匹配的档案进行调取;若不存在,则调取失败。
进一步地,编号调取单元用于通过用户输入的编号在存储模块中进行查找,判定存储模块中是否存在与用户输入的编号相同的编号,若存在,则对与编号相匹配的档案进行调取,若不存在,则调取失败。
本发明具备下述有益效果:
1、通过特征提取模块可以对档案文字信息中的关键词进行提取,同时在关键词提取完成之后对关键词库进行重复分析,对提取得到的关键词关联的档案数量进行限制,避免了关键提取单元对多数档案中均存在的无效关键词进行提取,保证通过关键词提取档案的有效性;
2、通过图形提取单元可以对档案中的图形进行提取,将得到的图形与档案相匹配,因此,通过关键图形与关键词构成关键特征集合,用户在调取档案时,可输入档案编号或输入关键特征集合,由于关键词由二至三个字符组成,关键图形通过复制输入,从而大大降低了档案调取的错误率,提高了档案调取效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明原理框图。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
如图1所示,一种基于OCR识别算法的一键成档系统,包括处理器,处理器通信连接有扫描模块、编号生成模块、特征提取模块、档案调取模块以及存储模块。
扫描模块用于对纸质文件进行图像拍摄并将拍摄到的图像标记为分析图像,采用OCR识别接口对分析图像进行OCR识别得到OCR识别结果,OCR文字识别软件,是一种利用OCR(Optical Character Recognition,光学字符识别)技术,将图片、照片上的文字内容,直接转换为可编辑文本的软件,OCR识别结果至少包括文字信息。
编号生成模块用于对档案进行编号:获取文字信息中的坐标信息,获取坐标信息中的省、市、县名称并将省、市、县名称的首字母进行组合得到坐标字符组,获取档案的扫描时间并将扫描时间中的年份、月份以及日期进行提取,将扫描时间的年份、月份以及日期进行组合得到时间字符组,获取档案归属人的姓名并将档案归属人姓名的首字母进行组合得到名称字符组,由坐标字符组、时间字符组以及名称字符组进行组合得到档案的编码,将档案的编码与档案进行匹配并将档案的编码发送至存储模块。
特征提取模块包括关键提取单元、图形提取单元;
关键提取单元用于对文字信息进行关键词提取并将提取得到的关键词与文字信息进行匹配,关键词提取的过程包括:将文字信息进行字符拆解并将拆解后的字符按照拆解顺序进行排列,将字符中的标点符号进行删除后,将得到的字符标记为i,i=1,2,…,n,n为正整数,对字符进行组词得到n-1个词组A,词组A中的第一个词语由第一个字符与第二个字符组成,词组A中的第二个词语由第二个字符与第三个字符组成,以此类推,将词组A中出现次数最多与第二多的两个词语分别标记为第一关键词与第二关键词;对字符进行组词得到n-2个词组B,词组B中的第一个词语由第一个字符、第二个字符以及第三个字符组成,词组B中的第二个词语由第二个字符、第三个字符以及第四个字符组成,以此类推,将词组B中出现次数最多与第二多的两个词语分别标记为第三关键词与第四关键词,将第一关键词、第二关键词、第三关键词以及第四关键词发送至关键词库。对关键词库进行重复分析:通过存储模块获取重复阈值,将关键词库中重复次数不小于重复阈值的关键词进行删除,删除完成后,若文字信息中的关键词全部从关键词库中删除,则对文字信息重新进行关键词提取,将词组A中出现第三多与第四多的两个词语分别标记为第一关键词与第二关键词,将词组B中出现第三多与第四多的两个词语分别标记为第三关键词与第四关键词,将重新提取的第一关键词、第二关键词、第三关键词以及第四关键词发送至关键词库中,对关键词库再次进行重复分析,直至重复分析完成后,文字信息中的关键词还存在于关键词库中,将重复分析完成之后还存在于关键词库中的关键词与文字信息相匹配;若文字信息中的关键词没有全部从关键词库中删除,则将关键词库中剩余的文字信息的关键词与文字信息相匹配;通过重复分析对提取得到的关键词关联的档案数量进行限制,避免了关键提取单元对多数档案中均存在的无效关键词进行提取,保证通过关键词提取档案的有效性。
图形提取单元用于通过图像处理技术对分析图像中的图形进行提取并将提取得到的图形标记为关键图形,图像处理技术是用计算机对图像信息进行处理的技术。主要包括图像数字化、图像增强和复原、图像数据编码、图像分割和图像识别等。将关键图形与文字信息进行匹配并将关键图形发送至存储模块。将与文字信息完成匹配的关键图形与关键词的集合标记为关键特征,在档案调取时通过输入关键特征对档案进行调取,用户在调取档案时,可输入档案编号或输入关键特征集合,由于关键词由二至三个字符组成,关键图形通过复制输入,从而大大降低了档案调取的错误率,提高了档案调取效率。
档案调取模块用于通过关键特征对档案进行调取,档案调取模块包括特征调取单元与编号调取单元;
特征调取单元用于通过用户输入的关键特征在存储模块或关键词库中进行查找,判定存储模块或关键词库中是否存在与用户输入的关键特征相同的关键词或关键图形,若存在,则对与关键词或关键图形相匹配的档案进行调取;若不存在,则调取失败。
编号调取单元用于通过用户输入的编号在存储模块中进行查找,判定存储模块中是否存在与用户输入的编号相同的编号,若存在,则对与编号相匹配的档案进行调取,若不存在,则调取失败。
一种基于OCR识别算法的一键成档系统,工作时,通过扫描模块对纸质文件进行得到档案的文字信息,编号生成模块通过坐标信息、时间信息以及名称信息生成档案的编号;关键提取单元对文字信息中的关键词进行提取,图形提取单元对档案中的关键图形进行提取,将关键词与关键图形进行组合得到关键特征,在调取时可通过编号与关键特征对档案进行调取。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (3)

1.一种基于OCR识别算法的一键成档系统,包括处理器,其特征在于,所述处理器通信连接有扫描模块、编号生成模块、特征提取模块、档案调取模块以及存储模块;
所述扫描模块用于对纸质文件进行图像拍摄并将拍摄到的图像标记为分析图像,采用OCR识别接口对分析图像进行OCR识别得到OCR识别结果,OCR识别结果至少包括文字信息;
编号生成模块用于对档案进行编号并将得到的标号与档案进行匹配;
所述特征提取模块包括关键提取单元、图形提取单元;
关键提取单元用于对文字信息进行关键词提取并将提取得到的关键词与文字信息进行匹配,在关键词提取完成后对关键词库进行重复分析;
所述图形提取单元用于通过图像处理技术对分析图像中的图形进行提取并将提取得到的图形标记为关键图形,将关键图形与文字信息进行匹配并将关键图形发送至存储模块;
将与文字信息完成匹配的关键图形与关键词的集合标记为关键特征,在档案调取时通过输入关键特征对档案进行调取;
档案调取模块用于通过关键特征对档案进行调取,档案调取模块包括特征调取单元与编号调取单元;
编号生成模块对档案进行编号的具体过程包括:获取文字信息中的坐标信息,获取坐标信息中的省、市、县名称并将省、市、县名称的首字母建立坐标字符组,获取档案的扫描时间并将扫描时间中的年份、月份以及日期进行提取,将扫描时间的年份、月份以及日期进行组合得到时间字符组,获取档案归属人的姓名并将档案归属人姓名的首字母进行组合得到名称字符组,由坐标字符组、时间字符组以及名称字符组进行组合得到档案的编码,将档案的编码与档案进行匹配并将档案的编码发送至存储模块;
关键词提取的过程包括:将文字信息进行字符拆解并将拆解后的字符按照拆解顺序进行排列,将字符中的标点符号进行删除后,将得到的字符标记为i,i=1,2,…,n,n为正整数,对字符进行组词得到n-1个词组A,词组A中的第一个词语由第一个字符与第二个字符组成,词组A中的第二个词语由第二个字符与第三个字符组成,以此类推,将词组A中出现次数最多与第二多的两个词语分别标记为第一关键词与第二关键词;对字符进行组词得到n-2个词组B,词组B中的第一个词语由第一个字符、第二个字符以及第三个字符组成,词组B中的第二个词语由第二个字符、第三个字符以及第四个字符组成,以此类推,将词组B中出现次数最多与第二多的两个词语分别标记为第三关键词与第四关键词,将第一关键词、第二关键词、第三关键词以及第四关键词发送至关键词库;
对关键词库进行重复分析的具体过程包括:通过存储模块获取重复阈值,将关键词库中重复次数不小于重复阈值的关键词进行删除,删除完成后,若文字信息中的关键词全部从关键词库中删除,则对文字信息重新进行关键词提取,将词组A中出现第三多与第四多的两个词语分别标记为第一关键词与第二关键词,将词组B中出现第三多与第四多的两个词语分别标记为第三关键词与第四关键词,将重新提取的第一关键词、第二关键词、第三关键词以及第四关键词发送至关键词库中,对关键词库再次进行重复分析,直至重复分析完成后,文字信息中的关键词还存在于关键词库中,将重复分析完成之后还存在于关键词库中的关键词与文字信息相匹配;若文字信息中的关键词没有全部从关键词库中删除,则将关键词库中剩余的文字信息的关键词与文字信息相匹配。
2.根据权利要求1所述的一种基于OCR识别算法的一键成档系统,其特征在于,特征调取单元用于通过用户输入的关键特征在存储模块或关键词库中进行查找,判定存储模块或关键词库中是否存在与用户输入的关键特征相同的关键词或关键图形,若存在,则对与关键词或关键图形相匹配的档案进行调取;若不存在,则调取失败。
3.根据权利要求2所述的一种基于OCR识别算法的一键成档系统,其特征在于,编号调取单元用于通过用户输入的编号在存储模块中进行查找,判定存储模块中是否存在与用户输入的编号相同的编号,若存在,则对与编号相匹配的档案进行调取,若不存在,则调取失败。
CN202210214603.6A 2022-03-04 2022-03-04 一种基于ocr识别算法的一键成档系统 Active CN115116082B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210214603.6A CN115116082B (zh) 2022-03-04 2022-03-04 一种基于ocr识别算法的一键成档系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210214603.6A CN115116082B (zh) 2022-03-04 2022-03-04 一种基于ocr识别算法的一键成档系统

Publications (2)

Publication Number Publication Date
CN115116082A CN115116082A (zh) 2022-09-27
CN115116082B true CN115116082B (zh) 2023-09-01

Family

ID=83324669

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210214603.6A Active CN115116082B (zh) 2022-03-04 2022-03-04 一种基于ocr识别算法的一键成档系统

Country Status (1)

Country Link
CN (1) CN115116082B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115422125B (zh) * 2022-09-29 2023-05-19 浙江星汉信息技术股份有限公司 一种基于智能算法的电子文档自动归档方法与系统
CN116541576B (zh) * 2023-07-06 2023-09-29 浙江档科信息技术有限公司 基于大数据应用的档案数据管理标注方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001022773A (ja) * 1999-07-08 2001-01-26 Ricoh Co Ltd イメージ文書のキーワード抽出方法
CN107704620A (zh) * 2017-10-27 2018-02-16 北京锐安科技有限公司 一种档案管理的方法、装置、设备和存储介质
CN112541490A (zh) * 2020-12-03 2021-03-23 广州城市规划技术开发服务部有限公司 一种基于深度学习的档案影像信息结构化构建方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001022773A (ja) * 1999-07-08 2001-01-26 Ricoh Co Ltd イメージ文書のキーワード抽出方法
CN107704620A (zh) * 2017-10-27 2018-02-16 北京锐安科技有限公司 一种档案管理的方法、装置、设备和存储介质
CN112541490A (zh) * 2020-12-03 2021-03-23 广州城市规划技术开发服务部有限公司 一种基于深度学习的档案影像信息结构化构建方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
何春伟.《档案管理工作中的汉字识别技术的应用浅析》.《黑龙江档案》.2015,全文. *

Also Published As

Publication number Publication date
CN115116082A (zh) 2022-09-27

Similar Documents

Publication Publication Date Title
US11403488B2 (en) Apparatus and method for recognizing image-based content presented in a structured layout
CN115116082B (zh) 一种基于ocr识别算法的一键成档系统
CN109670163B (zh) 信息识别方法、信息推荐方法、模板构建方法及计算设备
US9501467B2 (en) Systems, methods, software and interfaces for entity extraction and resolution and tagging
Wilkinson et al. Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections
CN112241481A (zh) 基于图神经网络的跨模态新闻事件分类方法及系统
US11914968B2 (en) Official document processing method, device, computer equipment and storage medium
CN111651986B (zh) 事件关键词提取方法、装置、设备及介质
Spitz Progress in document reconstruction
CN1106620C (zh) 信息处理方法和设备
CN112651236B (zh) 提取文本信息的方法、装置、计算机设备和存储介质
CN111488732B (zh) 一种变形关键词检测方法、系统及相关设备
US20090307183A1 (en) System and Method for Transmission of Communications by Unique Definition Identifiers
CN114064851A (zh) 一种政府办公文档多机检索方法及系统
CN113822059A (zh) 中文敏感文本识别方法、装置、存储介质及设备
Yan et al. Chemical name extraction based on automatic training data generation and rich feature set
CN114118089A (zh) 一种基于裁判文书的企业司法诉讼关系的构建方法及系统
Dölek et al. A deep learning model for Ottoman OCR
Yurtsever et al. Figure search by text in large scale digital document collections
CN114579796B (zh) 机器阅读理解方法及装置
Vafaie et al. Handwritten and printed text identification in historical archival documents
Majumder et al. A generalized model of text steganography by summary generation using frequency analysis
CN114220112A (zh) 一种面向人物名片的任职关系抽取方法和系统
CN113177478A (zh) 一种基于迁移学习的短视频语义标注方法
Kumar et al. On-Device Information Extraction from Screenshots in form of tags

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant