CN112000834A - 文档处理方法、装置、系统、电子设备及存储介质 - Google Patents

文档处理方法、装置、系统、电子设备及存储介质 Download PDF

Info

Publication number
CN112000834A
CN112000834A CN202010873450.7A CN202010873450A CN112000834A CN 112000834 A CN112000834 A CN 112000834A CN 202010873450 A CN202010873450 A CN 202010873450A CN 112000834 A CN112000834 A CN 112000834A
Authority
CN
China
Prior art keywords
image
historical
document
information
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010873450.7A
Other languages
English (en)
Other versions
CN112000834B (zh
Inventor
冯博豪
庞敏辉
谢国斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202010873450.7A priority Critical patent/CN112000834B/zh
Publication of CN112000834A publication Critical patent/CN112000834A/zh
Application granted granted Critical
Publication of CN112000834B publication Critical patent/CN112000834B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本申请公开了文档处理方法、装置、系统、电子设备及存储介质,涉及信息管理、图像处理、文本处理等领域。具体实现方案为:获取第一历史文档的图像;对所述第一历史文档的图像进行区域划分,得到至少一类区域;对所述至少一类区域分别进行对应的特征提取,得到所述至少一类区域分别对应的子特征信息;将所述至少一类区域分别对应的子特征信息作为所述第一历史文档的特征进行存储。

Description

文档处理方法、装置、系统、电子设备及存储介质
技术领域
本申请涉及计算机技术领域。本申请尤其涉及信息管理、图像处理、文本处理等领域。
背景技术
纸质文档是信息传播的载体,但是大量堆积的纸张难以管理和保存,信息无法有效地进行检索。随着数字采集技术、图像处理技术以及存储技术的发展,越来越多的信息以文档图像的形式进行保存。随着文档图像的规模越来越大,如何有效地进行文档图像信息的存储,以便高效的进行文档的检索成为需要解决的问题。
发明内容
本公开提供了一种文档处理方法、装置、系统、电子设备及存储介质。
根据本公开的第一方面,提供了一种文档处理方法,包括:
获取第一历史文档的图像;
对所述第一历史文档的图像进行区域划分,得到至少一类区域;
对所述至少一类区域分别进行对应的特征提取,得到所述至少一类区域分别对应的子特征信息;
将所述至少一类区域分别对应的子特征信息作为所述第一历史文档的特征进行存储。
根据本公开的第二方面,提供了一种文档处理装置,包括:
图像预处理模块,用于获取第一历史文档的图像;
特征抽取模块,用于对所述第一历史文档的图像进行区域划分,得到至少一类区域;对所述至少一类区域分别进行对应的特征提取,得到所述至少一类区域分别对应的子特征信息;
存储模块,用于将所述至少一类区域分别对应的子特征信息作为所述第一历史文档的特征进行存储。
根据本公开的第三方面,提供了一种文档处理系统,包括:
服务器,用于获取第一历史文档的图像;对所述第一历史文档的图像进行区域划分,得到至少一类区域;对所述至少一类区域分别进行对应的特征提取,得到所述至少一类区域分别对应的子特征信息;将所述至少一类区域分别对应的子特征信息作为所述第一历史文档的特征进行存储。
根据本公开的第四方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述方法。
根据本公开的第五方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行前述方法。
根据本申请的技术,通过将历史文档的图像进行区域划分,得到不同类型的区域所对应的子特征信息,进而将子特征信息作为历史文档的特征进行存储;如此,可以基于历史文档的图像对文档进行整理,整个过程完全自动化进行,无需人工参与,节省人力而且效率较高;并且,本申请可以将图像中进行多个区域的划分以得到多种类型的特征信息,从而更加准确的提取了历史文档的图像所对应的特征,进而便于检索的过程中更加准确的进行查找,有利于提升检索的准确度。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请实施例的文档处理方法流程示意图一;
图2是根据本申请实施例的文档处理方法流程示意图二;
图3是根据本申请实施例的文档处理方法流程示意图三;
图4是根据本申请实施例的文档处理方法的检索流程示意图;
图5是根据本申请实施例的文档处理方法流程示意图四;
图6是根据本申请实施例的一种整体处理架构示意图;
图7是根据本申请实施例的文档处理装置组成结构示意图一;
图8是根据本申请实施例的文档处理装置组成结构示意图二;
图9是根据本申请实施例的文档处理装置组成结构示意图三;
图10是根据本申请实施例的文档处理系统组成结构示意图;
图11是用来实现本申请实施例的文档处理方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
实施例一、
本申请实施例提供了一种文档处理方法,如图1所示,包括:
S101:获取第一历史文档的图像;
示例性的,所述第一历史文档可以为当前需要存储的多个历史文档中的一个,将其中任意一个称为第一历史文档,针对每一个历史文档都可以采用本申请提供的方案进行后续处理,本实施例不再进行一一赘述。
另外,所述第一历史文档可以为一本书,相应的,第一历史文档的图像可以为一张或多张图像组成的。可以理解为若要将一本书进行电子归档,那么可以将这本书中的全部页进行扫描得到每一页相应的图像作为第一历史文档的图像。由于不论第一历史文档的图像为一张还是多张图像都采用相同的后续处理,因此这里不对每一个历史文档包含多少图像进行重点说明。
S102:对所述第一历史文档的图像进行区域划分,得到至少一类区域;
示例性的,第一历史文档可以对应一张或多张图片,针对其中每一个图像都可以进行区域划分,得到每一张图像所对应的表格区域、文字图像、图片区域中至少一类。
S103:对所述至少一类区域分别进行对应的特征提取,得到所述至少一类区域分别对应的子特征信息;
示例性的,对所述文字区域进行识别得到文字,从识别得到的文字中提取关键词特征;表格区域特征可以包括:表格的图像特征以及关键词特征;对所述图片区域提取得到图像特征。
S104:将所述至少一类区域分别对应的子特征信息作为所述第一历史文档的特征进行存储。
示例性地,可以将至少一类区域分别对应的子特征信息,比如文字区域对应的关键词特征、表格区域对应的表格的图像特征以及关键词特征、图片区域的图像特征中至少一种作为所述第一历史文档的特征进行存储。
本实施例通过将历史文档的图像进行区域划分,得到不同类型的区域所对应的子特征信息,进而将子特征信息作为历史文档的特征进行存储;如此,可以基于历史文档的图像对文档进行整理,整个过程完全自动化进行,无需人工参与,节省人力而且效率较高;并且,本申请可以将图像中进行多个区域的划分以得到多种类型的特征信息,从而更加准确的提取了历史文档的图像所对应的特征,进而便于检索的过程中更加准确的进行查找,有利于提升检索的准确度。
实施例二、
在前述实施例一的基础上,如图2所示,在获取到第一历史文档的图像后,还可以包括:S100:对所述第一历史文档的图像进行预处理,得到预处理后的第一历史文档的图像。
本实施例中,所述对第一历史文档的图像进行预处理,可以包括有噪声清除、图像二值化、倾斜矫正等。这里,第一历史文档进行图像扫描时,由于受第一历史文档本身的纸张质量、扫描时的光照程度等因素的影响,扫描得到的图像一般都夹杂着噪声和缺陷。此外,纸张边缘不平,纸张摆放不平整或者扫描仪的纠偏性能差等因素,会使扫描得到的图像存在倾斜的情况。这些都会降低接下来的文档图像检索的准确性,所以对第一历史文档的图像进行预处理,可以使得后续处理的第一历史文档的图像避免由于噪声、缺陷以及倾斜等问题,所带来的影响检索准确性的问题。
在上述几个预处理中,倾斜矫正又是最重要的内容。
具体来说,所述对所述第一历史文档的图像进行预处理,即进行倾斜校正的预处理,具体包括:
利用目标检测算法,对所述第一历史文档的图像进行外框检测,得到所述第一历史文档的图像的外框坐标;
基于所述外框坐标确定所述第一历史文档的图像的主体部分;
基于外框坐标对所述第一历史文档的图像的主体部分进行倾斜校正,得到校正后的第一历史文档的图像。
其中,所述目标检测算法可以有多种,一种示例中,所述目标检测算法可以为旋转物体检测(RSDet,Rotated object Detection)算法,此算法支持对于倾斜物体的四角点检测。
基于目标检测算法对所述第一历史文档的图像进行外框检测后,可以得到第一历史文档的图像的外框坐标,然后通过将第一历史文档的图像按照外框坐标进行切割,就能够得到历史文档的主体部分,如此可以去除文档背景的干扰。进而,基于上述得到的主体部分,以及外框坐标中的四个角点的坐标,将该主体部分进行倾斜校正,得到校正后的主体部分,将校正后的主体部分作为校正后的所述第一历史文档的图像。
还可以存在一种情况是,通过目标检测算法,来完成文档扫描件中文档的外框检测,然后判断外框坐标是否倾斜,若倾斜则执行基于所述外框坐标确定所述第一历史文档的图像的主体部分;基于外框坐标对所述第一历史文档的图像的主体部分进行倾斜校正,得到校正后的第一历史文档的图像的处理;否则,可以不进行后续的倾斜校正的处理。
另外,上述预处理还可以包括去噪声以及图像二值化的处理,比如,去噪声的方式可以是基于均值滤波器、自适应维纳滤波器、中值滤波器、形态学噪声滤波器、小波去噪等方式中至少之一实现的,这里不进行穷举。关于图像二值化的处理方法可以采用大津算法(OTSU)等等,这里也不进行穷举。
通过以上对第一历史文档的图像进行预处理将第一历史文档的图像的主体部分进行倾斜矫正,可以减小由于文档的图像在获取的时候的倾斜所带来的影响后续特征采集的准确性的问题,能够提升采集历史文档的特征的准确性,从而保证文档图像检索的准确性。
实施例三、
如图3所示,在实施例一图1的基础上,图1中的S102具体可以包括:
S1021:对所述第一历史文档的图像进行区域划分,得到表格区域、文字区域、图片区域中的至少一类区域。
前述实施例已经提到第一历史文档可以对应一张或多张图片,针对其中每一个图像都可以进行区域划分,得到每一张图像所对应的表格区域、文字图像、图片区域中至少一类。由于文字区域、图片区域、表格区域等不同区域的特征提取方式不同,因此需要进行不同区域的划分。具体来说,进行区域划分的方式,可以为:
图片区域和表格区域的检测应用的是第一模型。
具体的,所述第一模型可以为M2Det模型。该M2Det模型是基于MLFPN(多层金字塔网络,Multi-Level Feature Pyramid Network)来搭建高效检测不同尺度目标的特征金字塔。MLFPN由FFM(特征混合模块,Feature Fusion Module)、TUMs(减薄的U型模块,ThinnedU-shape Modules)以及SFAM(尺度级特征聚合模块,Scale-wise Feature AggregationModule)三部分组成。其中,FFM用于混合多层级特征作为基础特征;TUMs通过基础特征提取出多层级多尺度的特征;SFAM将这些多层级多尺度特征依据相同尺度进行整合得到最终的特征金字塔。基于MLFPN的M2Det是一个高效的端到端的一步到位的检测器,性能优于同类的其他目标检测算法。本实施例利用此模型能够非常准确地获取到截图上面的图片区域以及表格区域。需要理解的是,第一模型可以不仅仅限于上述模型,还可以使用其他类型的模型,只是本实施例不进行穷举。
文本区域的检测可以采用FOTS(Fast Oriented Text Spotting,快速定向文本定位)算法。该FOTS算法能够非常准确地检测出图像中文字的文字框,利用文字框的最大和最小坐标,就能够获得文本所在的区域。
本申请实施例中对历史文档的图像划分为文本、图像、表格等多种类型的区域,进而可以得到多个维度的特征,由于对历史文档的图像做了多个维度的特征的提取,使得历史文档的表示更准确,如此使得检索的准确性要高于传统的基于文本相似度的检索。
所述对所述至少一类区域分别进行对应的特征提取,得到所述至少一类区域分别对应的子特征信息,包括以下至少之一:
对所述图片区域进行图像特征提取得到图像特征;
对所述文字区域进行识别得到文字,从识别得到的文字中提取关键词特征;
对所述表格区域进行图像识别得到所述表格的图像特征,以及对所述表格区域进行识别得到文字所对应的关键词特征。
分别来说,对所述文字区域进行识别得到文字,从识别得到的文字中提取关键词特征,可以包括:
对文本区域进行OCR(Optical Character Recognition,光学字符识别)识别,获得文档图像在文字区域的至少一个文字(或称为文字特征,或至少一个字符);识别完所有文字后,还会利用第二模型抽取对应文字的核心内容,将该核心内容作为关键词特征。
其中,所述第二模型可以为Seq2Seq(序列到序列,Sequence to Sequence)模型。该Seq2Seq模型本质上是一个encoder-decoder(编码器-解码器)的模型,编码器部分将输入的序列变换成某一种向量表示,然后解码器将这种表示转化成输出序列。利用Seq2Seq模型提取的历史文档的核心内容会被保存下来(作为关键词特征)。进而,可以将核心内容作为历史文档的标签,为后续利用关键字检索做准备。
表格区域特征可以包括:表格的图像特征以及关键词特征。其中,关于表格区域的关键词特征的获取方式与上述文字区域的关键词特征的获取方式是相同的,不再重复说明。关于表格区域的关键词特征中可以包括:表格标题,表格内容的关键词特征中至少之一。
所述表格的图像特征可以包括表格线,表头。其识别方式可以为通过第三模型,比如可以为图像识别模型,如FPN(金字塔网络,Feature Pyramid Network)来执行,进而通过表格识别能够将这些表格区域的图像特征保存下来。这些表格区域的图像特征以及关键词特征后续将成为图像检索参考的重要特征。
对所述图片区域进行图像特征提取得到图像特征的处理,可以使用第三模型。比如,第三模型可以为FPN(金字塔网络,Feature Pyramid Network)。其中,FPN通过利用常规卷积神经网络(Convolutional Neural Networks,CNN)模型内部从底至上各个层对同一尺度图片不同维度的特征表达结构,形成了一种可有效在单一图片视图下生成多维度特征表达的方法。FPN可以有效地赋能常规CNN模型,从而可以生成出表达能力更强的特征图以供图像分类和图像相似度计算。本质上说FPN是一种加强主干网络CNN特征表达的方法。
所述图片区域经过FPN的处理可以抽取得到对应的特征图,将特征图作为图像特征进行保存,为后续进行图像相似度计算做准备。
执行完以上处理之后,将第一历史文档的图像所对应的各个类型区域的子特征信息,比如,图像特征、关键词特征以及表格的图像特征等内容作为所述第一历史文档的特征进行存储。
上述存储可以为将所述第一历史文档的特征存储至数据库中。具体可以为存储在服务器的数据库中。
由于上述处理可以实现自动地将第一历史文档的多种类型的区域所对应的子特征信息进行提取并保存,因此能够节省人工撰写摘要的时间,并且由于通过机器进行处理可以更加高效以及准确。
将所述至少一类区域分别对应的子特征信息作为所述第一历史文档的特征进行存储时,还可以包括:基于所述第一历史文档的特征,确定所述第一历史文档所对应的领域类别。还可以存储所述第一历史文档所对应的领域类别。
其中,所述领域类别可以为多个预设的领域类别中至少之一。比如,预设的领域类别可以包括:数学、植物、文学等领域。当然,根据实际情况还可以预设更多的领域类别,比如,医学、通信学等等,这里不做穷举。
确定第一历史文档的领域类别的方式可以为:在不同的预设的领域类别中都包含有对应的关键词特征和/或图像特征;基于第一历史文档的特征与不同的领域类别中设置的关键词特征和/或图像特征进行匹配(或相关性计算),以确定相关性最大的一个领域作为第一历史文档所对应的领域类别。
也就是在存储第一历史文档的特征的时候,还可以根据第一历史文档所对应的领域类型自动对第一历史文档进行分类。比如,可以利用第一历史文档的关键词特征和/或图像特征,自动将第一历史文档进行归类,将历史文档分成:数学、植物、文学等领域中之一。如此,通过在存储的时候就结合历史文档的特征对历史文档进行分类,能够节省由人工进行分类的工作量,并且对历史文档进行分类还可以使得后续的检索目标历史文档的处理能够更准确的匹配到所要检索的文档的领域,进而进行目标历史文档的检索,能够提升检索效率以及检索的准确性。
上述处理可以应用于电子设备中,比如可以为服务器或终端设备。分别可以适用于较多或较少藏书的历史文档的处理场景,本实施例不做限定。
实施例四、
基于以上实施例一、实施例二、实施例三任意之一的处理,在一种示例性的实施方式中,还可以基于存储的历史文档进行后续的文档检索的处理,具体如图4所示,可以包括:
S201:获取到检索请求;
S202:基于N个历史文档分别对应的特征,选取与所述检索请求匹配的目标历史文档;其中,N为大于等于1的整数。
本实施例的方案可以应用于服务器,或终端设备。在用于服务器的情况下,S201可以包括:接收终端设备发来的检索请求。用于终端设备的情况下,S201可以包括直接在检索界面的输入区域中输入检索请求。
另外,上述S202中,所述N个历史文档可以为已经获取到对应的特征的全部文档,可以为保存在电子设备中,比如服务器或终端设备中的文档。所述N个历史文档可以包括前述实施例中的所述第一历史文档。
通过以上处理,由于可以对历史文档对应的特征进行存储,因此可以结合历史文档的特征进行目标历史文档的检索,可以使得检索结果更加准确,提升检索的准确性。
进一步地,所述检索请求可以包括:文本信息,或图像信息。
S202中:若所述检索请求包括:文本信息;
基于N个历史文档分别对应的特征,选取与所述检索请求匹配的目标历史文档,包括以下两种情况中之一:
情况一、获取所述文本信息与所述N个历史文档所对应的关键词特征之间的文本相似度,从所述N个历史文档中选取与所述文本信息之间的文本相似度最高的历史文档作为所述目标历史文档;
或者,
情况二、基于所述文本信息的目标领域类别,确定所述目标领域类别所对应的所述N个历史文档;基于所述文本信息与所述N个历史文档所对应的关键词特征的文本相似度,从所述N个历史文档中选取与所述文本信息之间的文本相似度最高的历史文档作为所述目标历史文档。
情况一中,用户进行历史文档的检索时,输入的是关键词,也就是这种情况下,文本信息为关键词;相应的,可以将此关键词与数据库中N个历史文档的关键词特征相比较,计算文本信息与N个历史文档的文本相似度,按照文本相似度的大小进行排序,最终选出与输入的文本信息即关键词相似度最高的文档。
情况二中,如果用户在检索过程中,输入的是一段文字(比如大于等于指定数量的文字可以为所述一段文字)。会首先对这段文字进行文本分类,判断其所属的目标领域类别(比如,可以是金融、数学、文学,还是其他领域中之一);然后找出在该目标领域类别中的N个历史文档,再计算N个历史文档中的关键词特征与该文本信息之间的相似度,以得到文本相似度最高的历史文档作为目标历史文档。这种情况中,综合考虑输入的文字段所属的领域以及数据库中各个文档与输入文字段的文本相似度,可以更加准确的得到检索的目标历史文档。
在上述情况一或情况二的基础上,还可以包括:从所述N个历史文档中选取与所述文本信息之间的文本相似度最高的M个历史文档;M为大于等于1且小于等于N的整数;响应于用户的选取操作,从所述M个历史文档中选取一个历史文档作为所述目标历史文档。
也就是,根据文本相似度确定多个相似度较高的历史文档,然后可以根据用户的选择从相似度较高的历史文档中确定目标历史文档。
上述M个可以为预设的数值,比如可以为3个,或者5个,当然还可以更多或更少,这里不做限定。
进一步地,若本实施例在服务器侧执行,那么可以将文本相似度较高的M个历史文档的相关信息发送至终端设备;终端设备在展示界面中展示所述M个历史文档的相关信息;用户根据展示的M个历史文档的相关信息,从其中选取最终需要的目标历史文档,将选取指令发送至服务器;相应的,服务器响应于终端设备发来的选取指令,将所述目标历史文档发送至终端设备。若本实施例在终端设备侧执行,那么可以将文本相似度较高的M个历史文档的相关信息直接在终端设备的展示界面中进行展示;用户根据展示的M个历史文档的相关信息,从其中选取最终需要的目标历史文档,终端设备响应于选取指令,确定所述目标历史文档。
如此,在检索的处理中,能够根据检索请求中包含的文本信息,向用户推荐相关的文档图像,通过文本信息与历史文档的关键词特征的文本相似度来确定目标历史文档,或者,可以结合文本信息的领域类别从对应的领域类别中查找文本相似度最高的目标历史文档,从而结合历史文档的特征(或结合历史文档的特征以及领域)进行目标历史文档的检索,可以使得检索结果更加准确,提升检索的准确性。
若所述检索请求包括:图像信息;
基于N个历史文档分别对应的特征,选取与所述检索请求匹配的目标历史文档,包括以下两种场景:
场景1、
确定所述图像信息所对应的特征图;
基于所述特征图以及所述N个历史文档所对应的图像特征确定所述图像信息与所述N个历史文档之间的图像相似度;
从所述N个历史文档中选取图像相似度最高的历史文档作为所述目标历史文档。
也就是说,在需要进行历史文档的检索的时候,可以上传一个图像信息,如果在终端设备执行则直接基于该图像信息进行图像相似度的计算以及选取目标历史文档的处理;如果在服务器执行,则可以由终端设备将该图像信息发送至服务器,由服务器执行图像相似度的计算以及选取目标历史文档的处理。
所述图像信息可以为书籍的封面或者历史文档的某一页的图像。
本场景可以包括先判断是否能够识别到文字信息,若不能识别,则执行本场景的处理。
进一步地,确定图像信息所对应的特征图,可以为采用FPN(feature pyramidnetwork,特征金字塔网络)对图像信息处理得到特征图。
基于特征图以及所述N个历史文档所对应的图像特征确定所述图像信息与所述N个历史文档之间的图像相似度的处理方式,可以为基于第四模型确定所述N个历史文档的图像特征与所述特征图之间的相似度。其中,所述第四模型可以为判别网络,比如可以为孪生(siamese)神经网络。
如此,可以看出,本申请实施例支持以图搜图的检索方式,只要上传图像信息,就能够根据图像信息得到与此图像信息最相似的目标历史文档,从而提升检索的便捷性,并适用于更多的处理场景。
场景2、
基于N个历史文档的图像分别对应的特征,选取与所述检索请求匹配的目标历史文档,包括:
若基于所述图像信息识别得到文字信息,则基于所述文字信息以及所述N个历史文档所对应的关键词特征,确定所述图像信息与N个历史文档之间的文本相似度;
确定所述图像信息所对应的特征图,基于所述特征图以及所述N个历史文档所对应的图像特征,确定所述图像信息与所述N个历史文档之间的图像相似度;
基于所述图像信息与所述N个历史文档之间的文本相似度以及图像相似度,确定所述图像信息与所述N个历史文档之间的综合相似度;
基于所述图像信息与所述N个历史文档之间的综合相似度,选取综合相似度最高的历史文档作为所述目标历史文档。
本场景与场景1不同在于,可以包括先判断是否能够识别到文字信息,若不能识别,则执行场景1的处理,若能够识别则执行场景2的处理。
本场景同样的在进行历史文档检索时,直接以图像进行检索。用户输入的检索请求为图像信息;所述图像信息可以为书籍的封面或者历史文档的某一页的图像。
得到文字信息的方式可以为:利用OCR文字识别技术识别图像信息中的文字信息。也就是识别输入的封面或者某一页的图像中的文字信息。
本场景中确定所述图像信息所对应的特征图的方式与场景1相同,不再进行赘述。
基于所述文字信息以及所述N个历史文档所对应的关键词特征,确定所述图像信息与N个历史文档之间的文本相似度的方式,同样可以使用第四模型进行处理,不再进行赘述。具体的第四模型可以为判别网络,具体可以为siamese网络。
基于所述图像信息与所述N个历史文档之间的文本相似度以及图像相似度,确定所述图像信息与所述N个历史文档之间的综合相似度,基于所述图像信息与所述N个历史文档之间的综合相似度,选取综合相似度最高的历史文档作为所述目标历史文档,指的是,综合考虑文本相似度和图像相似度,以一定的权重融合文本相似度以及图像相似度,最终得到综合相似度最高的目标历史文档。
上述权重可以为根据实际情况设置的,比如,文本相似度的权重可以为0.7,图像相似度的权重可以为0.3;当然,还可以为文本相似度的权重为0.4,图像相似度的权重为0.6。或者,还可以为其他的预设权重,这里不做穷举。
基于场景1、2,还可以包括的处理是:从所述N个历史文档中选取与所述图像信息之间的综合相似度(或图像相似度)最高的M个历史文档;M为大于等于1且小于等于N的整数;响应于用户的选取操作,从所述M个历史文档中选取一个历史文档作为所述目标历史文档。
也就是,根据图像相似度(或综合相似度)确定多个相似度较高的历史文档,然后可以根据用户的选择从相似度较高的历史文档中确定目标历史文档。上述M个可以为预设的数值,比如可以为3个,或者5个,当然还可以更多或更少,这里不做限定。
进一步地,若本实施例在服务器侧执行,那么可以将文本相似度较高的M个历史文档的相关信息发送至终端设备;终端设备在展示界面中展示所述M个历史文档的相关信息;用户根据展示的M个历史文档的相关信息,从其中选取最终需要的目标历史文档,将选取指令发送至服务器;相应的,服务器响应于终端设备发来的选取指令,将所述目标历史文档发送至终端设备。若本实施例在终端设备侧执行,那么可以将文本相似度较高的M个历史文档的相关信息直接在终端设备的展示界面中进行展示;用户根据展示的M个历史文档的相关信息,从其中选取最终需要的目标历史文档,终端设备响应于选取指令,确定所述目标历史文档。
举例来说,通过服务器侧进行的相似度匹配的处理,可以获得与用户输入的封面或者文档图像相似度最高的前5个历史文档。从相似度最高的前5个历史文档中,选出需要的目标历史文档。通过以上过程,就能够准确地找到用户需要的历史文档。
可见,本申请实施例支持以图搜图的检索方式,只要上传图像信息,就能够根据图像信息得到与此图像信息最相似的目标历史文档,从而提升检索的便捷性,并适用于更多的处理场景;并且可以在以图搜图的处理中,结合对检索请求的图像信息中的文字信息的识别,进一步保证检索的准确性。
进一步地,当本实施例提供的方案还可以:展示交互界面,通过在交互界面中输入文字生成检索请求,或者,上传图像信息至交互界面中,基于该图像信息生成检索请求。比如,用户可以上传书籍的封面来用于检索对应的书籍扫描件。上述展示交互界面的处理可以在终端设备实现。另外,还可以包括:在交互界面中展示检索结果,也就是展示最终检索得到的目标历史文档。还可以包括:终端设备可以展示相似度最高的M个历史文档的相关信息,并且按照排序的高低顺序进行展示。
进一步地,本申请实施例还可以包括:获取用户反馈的检索结果准确性,基于用户反馈的检索结果准确性对模型进行优化。这里,所述的模型可以为前述实施例包含的第一模型、第二模型、第三模型、第四模型中至少之一。如此,能够将人工智能的技术应用于文档管理,能够节省文档整理的时间和人力成本,同时提高历史文档检索的速度和准情性,并且具有较强的泛化能力。
举例来说,若用户对于本次检索结果中包含的目标历史文档进行查看之后,发现并不是所要检索的文档,那么可以反馈检索结果准确性低(或反馈准确性为0);相应的,可以将本次检索结果作为一个负样本添加至模型的训练数据中,进而对前述实施例包含的第一模型、第二模型、第三模型、第四模型中至少之一进行优化训练;若用户对于本次检索结果中包含的目标历史文档进行查看之后,发现是所要检索的文档,那么可以反馈检索结果准确性100%;相应的,可以将本次检索结果作为一个正样本添加至模型的训练数据中,进而对前述实施例包含的第一模型、第二模型、第三模型、第四模型中至少之一进行优化训练。
此外,还可以包括:基于所述目标历史文档,确定与所述目标历史文档相关的至少一个推荐历史文档。
其中,所述至少一个推荐历史文档可以为:与所述目标历史文档为同一领域的、检索频数(或频次)最高的至少一个历史文档。
若本实施例在终端设备执行,那么可以在交互界面中的推荐区域中展示所述至少一个推荐历史文档的相关信息(比如历史文档的名称等等)。若本实施例在服务器执行,那么可以将至少一个历史文档的相关信息推送至终端设备,由终端设备在交互界面中的推荐区域中展示所述至少一个推荐历史文档的相关信息。本实施例中上述历史文档的相关信息可以包括:文档的名称;进一步,还可以包括:文档的作者、文档的图像等等。不再赘述。如此,可以在检索到目标历史文档的基础上,为用户推荐更多的相关历史文档,从而可以使得用户一次性获得更多的符合自己兴趣或要求的文档,减少用户再次检索相关文档的处理,丰富用户的检索结果,并且提升了用户的使用体验。
实施例五、
结合图5、图6进行说明,如图5所示,本实施例的一种文档处理方法可以包括以下步骤:
S301:对第一历史文档的图像进行图像预处理,得到预处理后的第一历史文档的图像;
结合图6来说,图像预处理可以包括:去噪声清除、图像二值化和倾斜校正等至少之一。
S302:对第一历史文档的图像进行特征提取。
结合图6来说,对第一历史文档的图像进行特征提取中,包含对第一历史文档的图像进行区域划分,也就是将第一历史文档的图像划分为表格区域、文本区域和图片区域中至少之一;然后,对不同区域进行特征提取,并将获得的特征存储下来作为对第一历史文档对应的特征。仍结合图3来说,对不同区域进行特征提取中,可以包括有以下至少之一:对图像区域进行图像特征抽取得到图像特征;对文字区域进行文字特征抽取得到关键词特征;对表格区域进行表格特征抽取得到所述表格的图像特征以及关键词特征。
S303:存储所述第一历史文档的特征。
以上S301-S303的处理全自动完成,无需人工参与。通过以上过程,就能够将历史文档的图像及其信息进行存储。也就是将多个历史文档均理解为第一历史文档,执行以上S301-S303的处理,则可以存储多个历史文档所分别对应的特征。可以将多个历史文件认为是前述N个历史文档。
S304:进行检索。
用户进行检索的时候,可以在交互界面中输入检索请求,所述检索请求包括文本信息或图像信息。
S305:通过检索请求中是否包含图像信息来确定是否以图像信息检索;如果检索请求中包含图像信息,则执行S306;否则,执行S307。
S306:确定图像相似度。
结合图6可以看出,检索中可以包含以图像检索,具体的:按照检索请求中包含的图像信息与存储的多个历史文档所对应的特征之间的图像相似度来完成检索。这里,完成检索可以为得到目标历史文档。
S307:确定文本相似度。
结合图6可以看出如果检索请求中不包含图像信息而包含文本信息,则以文本检索,具体的:基于检索请求中包含的文本信息与存储的N个历史文档所对应的特征之间的文本相似度来完成检索。这里,完成检索可以为得到目标历史文档。
S308:在交互界面展示目标历史文档。
具体可以为在终端设备的交互界面展示目标历史文档。
也就是无论是基于图像相似度还是文本相似度完成检索,检索的结果均可以为与检索请求匹配的目标历史文档,将目标历史文档最终展示在交互界面中。
另外,虽然图5中未示出,但是如果以图像信息检索,还可以是基于图像信息识别得到文字,确定所述文字与存储的N个历史文档的关键词特征之间的文本相似度,基于文本相似度以及图像相似度确定综合相似度,进而基于综合相似度来完成检索。
上述S301-S307可以在服务器执行,若在服务器侧执行,则S304可以为从终端设备获取到检索请求,以进行检索;S308可以为将检索得到的目标历史文档发送至终端设备,由终端设备在交互界面中展示所述目标历史文档。或者,上述S301以及S308可以在终端设备执行。
实施例六、
本实施例提供一种文档处理装置,如图7所示,包括:
图像预处理模块41,用于获取第一历史文档的图像;
特征抽取模块42,用于对所述第一历史文档的图像进行区域划分,得到至少一类区域;对所述至少一类区域分别进行对应的特征提取,得到所述至少一类区域分别对应的子特征信息;
存储模块43,用于将所述至少一类区域分别对应的子特征信息作为所述第一历史文档的特征进行存储。
进一步地,如图8所示,所述特征抽取模块42包括:
区域划分子模块421,用于对所述第一历史文档的图像进行区域划分,得到表格区域、文字区域、图片区域中的至少一类区域。
所述特征抽取模块还包括以下至少之一:
图像特征抽取子模块422,用于对图片区域进行图像特征提取得到图像特征;
文字特征抽帧子模块423,用于对文字区域进行识别得到文字,从识别得到的文字中提取关键词特征;
表格特征抽取子模块424,用于对表格区域进行图像识别得到所述表格的图像特征,以及对所述表格区域进行识别得到文字所对应的关键词特征。
所述图像预处理模块,用于对所述第一历史文档的图像进行预处理,得到预处理后的第一历史文档的图像。
所述图像预处理模块,用于基于目标检测算法对所述第一历史文档的图像进行外框检测,得到所述第一历史文档的图像的外框坐标;
基于所述外框坐标确定所述第一历史文档的图像的主体部分;
基于外框坐标对所述第一历史文档的图像的主体部分进行倾斜校正,得到校正后的第一历史文档的图像。
所述存储模块43,用于基于所述第一历史文档的特征,确定所述第一历史文档所对应的领域类别。
在前述装置的基础上,如图9所示,所述装置还包括:
检索模块44,用于获取到检索请求;基于N个历史文档分别对应的特征,选取与所述检索请求匹配的目标历史文档;其中,N为大于等于1的整数。
所述检索请求包括:文本信息;
所述检索模块44,包括:
文本信息检索子模块441,用于获取所述文本信息与所述N个历史文档所对应的关键词特征之间的文本相似度,从所述N个历史文档中选取与所述文本信息之间的文本相似度最高的历史文档作为所述目标历史文档;
或者,
基于所述文本信息的目标领域类别,确定所述目标领域类别所对应的所述N个历史文档;基于所述文本信息与所述N个历史文档所对应的关键词特征的文本相似度,从所述N个历史文档中选取与所述文本信息之间的文本相似度最高的历史文档作为所述目标历史文档。
所述检索请求包括:图像信息;
所述检索模块44,包括:
图像信息检索子模块442,用于确定所述图像信息所对应的特征图;
基于所述特征图以及所述N个历史文档所对应的图像特征确定所述图像信息与所述N个历史文档之间的图像相似度;
从所述N个历史文档中选取图像相似度最高的历史文档作为所述目标历史文档。
所述检索请求包括:图像信息;
所述检索模块44,包括:
图像信息检索子模块442,用于若基于所述图像信息识别得到文字信息,则基于所述文字信息以及所述N个历史文档所对应的关键词特征,确定所述图像信息与N个历史文档之间的文本相似度;
确定所述图像信息所对应的特征图,基于所述特征图以及所述N个历史文档所对应的图像特征,确定所述图像信息与所述N个历史文档之间的图像相似度;
基于所述图像信息与所述N个历史文档之间的文本相似度以及图像相似度,确定所述图像信息与所述N个历史文档之间的综合相似度;
基于所述图像信息与所述N个历史文档之间的综合相似度,选取综合相似度最高的历史文档作为所述目标历史文档。
所述检索模块,还用于基于所述检索结果中包含的目标历史文档,确定与所述目标历史文档相关的至少一个推荐历史文档。
进一步地,当本实施例提供的方案应用于终端设备的情况下,还可以包括:交互模块45,用于展示交互界面,通过在交互界面中输入文字生成检索请求,或者,上传图像信息至交互界面中,基于该图像信息生成检索请求。比如,用户可以上传书籍的封面来用于检索对应的书籍扫描件。
另外,交互模块,用于在交互界面中展示检索结果,也就是展示最终检索得到的目标历史文档。
实施例七、
如图10所示,本实施例还提供一种文档处理系统,包括:
服务器51,用于获取第一历史文档的图像;对所述第一历史文档的图像进行区域划分,得到至少一类区域;对所述至少一类区域分别进行对应的特征提取,得到所述至少一类区域分别对应的子特征信息;将所述至少一类区域分别对应的子特征信息作为所述第一历史文档的特征进行存储。
所述系统还包括:
终端设备52,用于基于输入的文本信息或图像信息生成检索请求;向所述服务器发送所述检索请求;以及接收所述服务器反馈的目标历史文档;
相应的,所述服务器51,用于获取到检索请求;基于N个历史文档分别对应的特征,选取与所述检索请求匹配的目标历史文档;其中,N为大于等于1的整数。
其中,所述服务器包括的模块,可以有图像预处理模块、特征抽取模块、存储模块、检索模块;以及如图9中特征抽取模块、检索模块中包含的各个子模块,这些模块或子模块中的功能与前述文档处理装置中的功能相同,不再进行赘述。此外,服务器还可以包括通信模块,用于与终端设备进行信息的传输。
终端设备可以包括的模块为:传输模块以及交互模块。上述交互模块可以与上述交互模块的功能相同,传输模块可以用于与服务器进行信息的传输。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图11所示,是根据本申请实施例的文档处理方法的电子设备的框图。该电子设备可以为前述服务器或终端。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图11所示,该电子设备包括:一个或多个处理器801、存储器802,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图11中以一个处理器801为例。
存储器802即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的文档处理方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的文档处理方法。
存储器802作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的文档处理方法对应的程序指令/模块(例如,附图9所示的图像预处理模块、特征抽取模块、存储模块、检索模块、交互模块等)。处理器801通过运行存储在存储器802中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的文档处理方法。
存储器802可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器802可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器802可选包括相对于处理器801远程设置的存储器,这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
文档处理方法的电子设备还可以包括:输入装置803和输出装置804。处理器801、存储器802、输入装置803和输出装置804可以通过总线或者其他方式连接,图11中以通过总线连接为例。
输入装置803可接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置804可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与虚拟专用服务器(VPS)服务中,存在的管理难度大,业务扩展性弱的缺陷。
根据本申请实施例提供的技术方案,通过将历史文档的图像进行区域划分,得到不同类型的区域所对应的子特征信息,进而将子特征信息作为历史文档的特征进行存储;如此,可以基于历史文档的图像对文档进行整理,整个过程完全自动化进行,无需人工参与,节省人力而且效率较高;并且,本申请可以将图像中进行多个区域的划分以得到多种类型的特征信息,从而更加准确的提取了历史文档的图像所对应的特征,进而便于检索的过程中更加准确的进行查找,有利于提升检索的准确度。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (26)

1.一种文档处理方法,包括:
获取第一历史文档的图像;
对所述第一历史文档的图像进行区域划分,得到至少一类区域;
对所述至少一类区域分别进行对应的特征提取,得到所述至少一类区域分别对应的子特征信息;
将所述至少一类区域分别对应的子特征信息作为所述第一历史文档的特征进行存储。
2.根据权利要求1所述的方法,其中,所述对所述第一历史文档的图像进行区域划分,得到至少一类区域,包括:
对所述第一历史文档的图像进行区域划分,得到表格区域、文字区域、图片区域中的至少一类区域。
3.根据权利要求2所述的方法,其中,所述对所述至少一类区域分别进行对应的特征提取,得到所述至少一类区域分别对应的子特征信息,包括以下至少之一:
对所述图片区域进行图像特征提取得到图像特征;
对所述文字区域进行识别得到文字,从识别得到的文字中提取关键词特征;
对所述表格区域进行图像识别得到所述表格的图像特征,以及对所述表格区域进行识别得到文字所对应的关键词特征。
4.根据权利要求1所述的方法,其中,所述方法还包括:
对所述第一历史文档的图像进行预处理,得到预处理后的第一历史文档的图像。
5.根据权利要求4所述的方法,其中,所述对所述第一历史文档的图像进行预处理,包括:
基于目标检测算法对所述第一历史文档的图像进行外框检测,得到所述第一历史文档的图像的外框坐标;
基于所述外框坐标确定所述第一历史文档的图像的主体部分;
基于外框坐标对所述第一历史文档的图像的主体部分进行倾斜校正,得到校正后的第一历史文档的图像。
6.根据权利要求1所述的方法,其中,所述方法还包括:
基于所述第一历史文档的特征,确定所述第一历史文档所对应的领域类别。
7.根据权利要求1-6任一项所述的方法,其中,所述方法还包括:
获取到检索请求;
基于N个历史文档分别对应的特征,选取与所述检索请求匹配的目标历史文档;其中,N为大于等于1的整数。
8.根据权利要求7所述的方法,其中,所述检索请求包括:文本信息;
所述基于N个历史文档分别对应的特征,选取与所述检索请求匹配的目标历史文档,包括:
获取所述文本信息与所述N个历史文档所对应的关键词特征之间的文本相似度,从所述N个历史文档中选取与所述文本信息之间的文本相似度最高的历史文档作为所述目标历史文档;
或者,
基于所述文本信息的目标领域类别,确定所述目标领域类别所对应的所述N个历史文档;基于所述文本信息与所述N个历史文档所对应的关键词特征的文本相似度,从所述N个历史文档中选取与所述文本信息之间的文本相似度最高的历史文档作为所述目标历史文档。
9.根据权利要求7所述的方法,其中,所述检索请求包括:图像信息;
基于N个历史文档分别对应的特征,选取与所述检索请求匹配的目标历史文档,包括:
确定所述图像信息所对应的特征图;
基于所述特征图以及所述N个历史文档所对应的图像特征确定所述图像信息与所述N个历史文档之间的图像相似度;
从所述N个历史文档中选取图像相似度最高的历史文档作为所述目标历史文档。
10.根据权利要求7所述的方法,其中,所述检索请求包括:图像信息;
基于N个历史文档的图像分别对应的特征,选取与所述检索请求匹配的目标历史文档,包括:
若基于所述图像信息识别得到文字信息,则基于所述文字信息以及所述N个历史文档所对应的关键词特征,确定所述图像信息与N个历史文档之间的文本相似度;
确定所述图像信息所对应的特征图,基于所述特征图以及所述N个历史文档所对应的图像特征,确定所述图像信息与所述N个历史文档之间的图像相似度;
基于所述图像信息与所述N个历史文档之间的文本相似度以及图像相似度,确定所述图像信息与所述N个历史文档之间的综合相似度;
基于所述图像信息与所述N个历史文档之间的综合相似度,选取综合相似度最高的历史文档作为所述目标历史文档。
11.根据权利要求7所述的方法,其中,还包括:
基于所述目标历史文档,确定与所述目标历史文档相关的至少一个推荐历史文档。
12.一种文档处理装置,包括:
图像预处理模块,用于获取第一历史文档的图像;
特征抽取模块,用于对所述第一历史文档的图像进行区域划分,得到至少一类区域;对所述至少一类区域分别进行对应的特征提取,得到所述至少一类区域分别对应的子特征信息;
存储模块,用于将所述至少一类区域分别对应的子特征信息作为所述第一历史文档的特征进行存储。
13.根据权利要求12所述的装置,其中,所述特征抽取模块包括:
区域划分子模块,用于对所述第一历史文档的图像进行区域划分,得到表格区域、文字区域、图片区域中的至少一类区域。
14.根据权利要求13所述的装置,其中,所述特征抽取模块包括以下至少之一:
图像特征抽取子模块,用于对图片区域进行图像特征提取得到图像特征;
文字特征抽帧子模块,用于对文字区域进行识别得到文字,从识别得到的文字中提取关键词特征;
表格特征抽取子模块,用于对表格区域进行图像识别得到所述表格的图像特征,以及对所述表格区域进行识别得到文字所对应的关键词特征。
15.根据权利要求11所述的装置,其中,所述图像预处理模块,用于对所述第一历史文档的图像进行预处理,得到预处理后的第一历史文档的图像。
16.根据权利要求15所述的装置,其中,所述图像预处理模块,用于基于目标检测算法对所述第一历史文档的图像进行外框检测,得到所述第一历史文档的图像的外框坐标;基于所述外框坐标确定所述第一历史文档的图像的主体部分;基于外框坐标对所述第一历史文档的图像的主体部分进行倾斜校正,得到校正后的第一历史文档的图像。
17.根据权利要求11所述的装置,其中,所述存储模块,用于基于所述第一历史文档的特征,确定所述第一历史文档所对应的领域类别。
18.根据权利要求11-17任一项所述的装置,其中,所述装置还包括:
检索模块,用于获取到检索请求;基于N个历史文档分别对应的特征,选取与所述检索请求匹配的目标历史文档;其中,N为大于等于1的整数。
19.根据权利要求18所述的装置,其中,所述检索请求包括:文本信息;
所述检索模块,包括:
文本信息检索子模块,用于获取所述文本信息与所述N个历史文档所对应的关键词特征之间的文本相似度,从所述N个历史文档中选取与所述文本信息之间的文本相似度最高的历史文档作为所述目标历史文档;
或者,
基于所述文本信息的目标领域类别,确定所述目标领域类别所对应的所述N个历史文档;基于所述文本信息与所述N个历史文档所对应的关键词特征的文本相似度,从所述N个历史文档中选取与所述文本信息之间的文本相似度最高的历史文档作为所述目标历史文档。
20.根据权利要求18所述的装置,其中,所述检索请求包括:图像信息;
所述检索模块,包括:
图像信息检索子模块,用于确定所述图像信息所对应的特征图;基于所述特征图以及所述N个历史文档所对应的图像特征确定所述图像信息与所述N个历史文档之间的图像相似度;从所述N个历史文档中选取图像相似度最高的历史文档作为所述目标历史文档。
21.根据权利要求18所述的装置,其中,所述检索请求包括:图像信息;
所述检索模块,包括:
图像信息检索子模块,用于若基于所述图像信息识别得到文字信息,则基于所述文字信息以及所述N个历史文档所对应的关键词特征,确定所述图像信息与N个历史文档之间的文本相似度;确定所述图像信息所对应的特征图,基于所述特征图以及所述N个历史文档所对应的图像特征,确定所述图像信息与所述N个历史文档之间的图像相似度;基于所述图像信息与所述N个历史文档之间的文本相似度以及图像相似度,确定所述图像信息与所述N个历史文档之间的综合相似度;基于所述图像信息与所述N个历史文档之间的综合相似度,选取综合相似度最高的历史文档作为所述目标历史文档。
22.根据权利要求18所述的装置,其中,所述检索模块,还用于基于所述目标历史文档,确定与所述目标历史文档相关的至少一个推荐历史文档。
23.一种文档处理系统,包括:
服务器,用于获取第一历史文档的图像;对所述第一历史文档的图像进行区域划分,得到至少一类区域;对所述至少一类区域分别进行对应的特征提取,得到所述至少一类区域分别对应的子特征信息;将所述至少一类区域分别对应的子特征信息作为所述第一历史文档的特征进行存储。
24.根据权利要求23所述的系统,其中,所述系统还包括:
终端设备,用于基于输入的文本信息或图像信息生成检索请求;向所述服务器发送所述检索请求;以及接收所述服务器反馈的目标历史文档;
相应的,所述服务器,用于获取到检索请求;基于N个历史文档分别对应的特征,选取与所述检索请求匹配的目标历史文档;其中,N为大于等于1的整数。
25.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-11中任一项所述的方法。
26.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行权利要求1-11中任一项所述的方法。
CN202010873450.7A 2020-08-26 2020-08-26 文档处理方法、装置、系统、电子设备及存储介质 Active CN112000834B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010873450.7A CN112000834B (zh) 2020-08-26 2020-08-26 文档处理方法、装置、系统、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010873450.7A CN112000834B (zh) 2020-08-26 2020-08-26 文档处理方法、装置、系统、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112000834A true CN112000834A (zh) 2020-11-27
CN112000834B CN112000834B (zh) 2024-08-09

Family

ID=73470957

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010873450.7A Active CN112000834B (zh) 2020-08-26 2020-08-26 文档处理方法、装置、系统、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112000834B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112560767A (zh) * 2020-12-24 2021-03-26 南方电网深圳数字电网研究院有限公司 文档签名识别方法、装置及计算机可读存储介质
CN113835598A (zh) * 2021-09-03 2021-12-24 维沃移动通信(杭州)有限公司 信息获取方法、装置及电子设备
CN114241501A (zh) * 2021-12-20 2022-03-25 北京中科睿见科技有限公司 影像文档处理方法、装置及电子设备
CN114299527A (zh) * 2021-11-04 2022-04-08 烟台大学 一种纸件文档的数据化处理方法及装置
CN115830620A (zh) * 2023-02-14 2023-03-21 江苏联著实业股份有限公司 一种基于ocr的档案文本数据处理方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002073598A (ja) * 2000-08-24 2002-03-12 Canon Inc 文書処理装置および方法
US20040220898A1 (en) * 2003-04-30 2004-11-04 Canon Kabushiki Kaisha Information processing apparatus, method, storage medium and program
US20040243601A1 (en) * 2003-04-30 2004-12-02 Canon Kabushiki Kaisha Document retrieving method and apparatus
US20190087444A1 (en) * 2017-09-21 2019-03-21 Canon Kabushiki Kaisha Image processing apparatus, image processing method, and storage medium
CN110659346A (zh) * 2019-08-23 2020-01-07 平安科技(深圳)有限公司 表格提取方法、装置、终端及计算机可读存储介质
CN111444922A (zh) * 2020-03-27 2020-07-24 Oppo广东移动通信有限公司 图片处理方法、装置、存储介质及电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002073598A (ja) * 2000-08-24 2002-03-12 Canon Inc 文書処理装置および方法
US20040220898A1 (en) * 2003-04-30 2004-11-04 Canon Kabushiki Kaisha Information processing apparatus, method, storage medium and program
US20040243601A1 (en) * 2003-04-30 2004-12-02 Canon Kabushiki Kaisha Document retrieving method and apparatus
US20190087444A1 (en) * 2017-09-21 2019-03-21 Canon Kabushiki Kaisha Image processing apparatus, image processing method, and storage medium
CN110659346A (zh) * 2019-08-23 2020-01-07 平安科技(深圳)有限公司 表格提取方法、装置、终端及计算机可读存储介质
CN111444922A (zh) * 2020-03-27 2020-07-24 Oppo广东移动通信有限公司 图片处理方法、装置、存储介质及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李杨;朱月琴;李朝奎;肖克炎;范建福;李秋平;: "面向海量地质文档的表格信息快速抽取方法研究", 中国矿业, no. 09, 15 September 2017 (2017-09-15) *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112560767A (zh) * 2020-12-24 2021-03-26 南方电网深圳数字电网研究院有限公司 文档签名识别方法、装置及计算机可读存储介质
CN113835598A (zh) * 2021-09-03 2021-12-24 维沃移动通信(杭州)有限公司 信息获取方法、装置及电子设备
CN114299527A (zh) * 2021-11-04 2022-04-08 烟台大学 一种纸件文档的数据化处理方法及装置
CN114241501A (zh) * 2021-12-20 2022-03-25 北京中科睿见科技有限公司 影像文档处理方法、装置及电子设备
CN114241501B (zh) * 2021-12-20 2023-03-10 北京中科睿见科技有限公司 影像文档处理方法、装置及电子设备
CN115830620A (zh) * 2023-02-14 2023-03-21 江苏联著实业股份有限公司 一种基于ocr的档案文本数据处理方法及系统

Also Published As

Publication number Publication date
CN112000834B (zh) 2024-08-09

Similar Documents

Publication Publication Date Title
CN112000834B (zh) 文档处理方法、装置、系统、电子设备及存储介质
US12019675B2 (en) Recognizing text in image data
US10032072B1 (en) Text recognition and localization with deep learning
CN111782977B (zh) 兴趣点处理方法、装置、设备及计算机可读存储介质
JP6740457B2 (ja) 商標画像のコンテンツ・ベースの検索及び取得
CN110020185A (zh) 智能搜索方法、终端及服务器
US8577882B2 (en) Method and system for searching multilingual documents
US20080107337A1 (en) Methods and systems for analyzing data in media material having layout
US11704357B2 (en) Shape-based graphics search
CN106708940B (zh) 用于处理图片的方法和装置
CN110597978B (zh) 物品摘要生成方法、系统、电子设备及可读存储介质
CN108734159B (zh) 一种图像中敏感信息的检测方法及系统
WO2017151457A1 (en) Providing images for search queries
CN111309200B (zh) 一种扩展阅读内容的确定方法、装置、设备及存储介质
CN112507090B (zh) 用于输出信息的方法、装置、设备和存储介质
CN112487242A (zh) 用于识别视频的方法、装置、电子设备及可读存储介质
JP2018509664A (ja) モデル生成方法、単語重み付け方法、装置、デバイス及びコンピュータ記憶媒体
CN104537341A (zh) 人脸图片信息获取方法和装置
US10872114B2 (en) Image processing device, image retrieval interface display device, and method for displaying image retrieval interface
RU2703270C1 (ru) Оптическое распознавание символов посредством применения специализированных функций уверенности, реализуемое на базе нейронных сетей
CN112883218A (zh) 一种图文联合表征的搜索方法、系统、服务器和存储介质
CN113486171B (zh) 一种图像处理方法及装置、电子设备
KR20150101846A (ko) 스케치를 기반으로 하는 영상 분류 서비스 시스템, 사용자 장치, 서비스 제공 장치, 그 서비스 방법 및 컴퓨터 프로그램이 기록된 기록매체
KR101896177B1 (ko) 다중 결과 제공 기능을 구비한 이미지 검색 시스템
US20230343126A1 (en) Framework for document layout and information extraction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant