CN116340259A - 文档管理方法、文档管理系统和计算设备 - Google Patents

文档管理方法、文档管理系统和计算设备 Download PDF

Info

Publication number
CN116340259A
CN116340259A CN202111582967.1A CN202111582967A CN116340259A CN 116340259 A CN116340259 A CN 116340259A CN 202111582967 A CN202111582967 A CN 202111582967A CN 116340259 A CN116340259 A CN 116340259A
Authority
CN
China
Prior art keywords
document
instance
processed
data
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111582967.1A
Other languages
English (en)
Inventor
姚荣
胡海林
黄磊
李成
刘曜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN202111582967.1A priority Critical patent/CN116340259A/zh
Publication of CN116340259A publication Critical patent/CN116340259A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/122File system administration, e.g. details of archiving or snapshots using management policies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • G06F40/18Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本申请提供一种文档管理方法、文档管理系统和计算设备,该方法包括:文档管理系统获取待处理文档后,基于解析策略对待处理文档进行解析,该解析策略指示根据预先设计的数据结构获取待处理文档的数据结构信息,数据结构包括文档类、章节类、模块类、表格类、图像类或文本块类中的任意一种或多种;输出待处理文档的各个实例的属性数据,其中,待处理文档可以是非结构化文档或结构化文档,数据结构信息包括数据结构中每种类的一个或多个实例,属性数据包括位置数据。根据预先设计的数据结构获取待处理文档中各种类别的实例的属性数据,将文档转换为结构化的实例并进行存储,能够便于检索文档中信息和文档的管理。

Description

文档管理方法、文档管理系统和计算设备
技术领域
本申请涉及计算机技术领域,尤其涉及一种文档管理方法、文档管理系统和计算设备。
背景技术
当前大量信息承载于各类文档中,用户从文档中获取所需信息的需求日益广泛,信息的获取可以依赖键值匹配或人工规则等方法,但是通过上述方法从文档中获取所需信息需要文档具有数据结构信息。对于不具有数据结构信息的文档,例如不能对文档中的内容进行编辑的非结构化文档,需要先对该文档进行结构化解析,而后再根据需求获取该文档中所需的信息。因此,对文档进行结构化解析是一个需要解决的技术问题。
发明内容
本申请公开了一种文档管理方法、文档管理系统和计算设备,能够将文档转换为结构化的实例并进行存储,便于检索文档中信息和文档的管理。
第一方面,本申请提供一种文档管理方法,包括:文档管理系统获取待处理文档后,基于解析策略对待处理文档进行解析,该解析策略指示根据预先设计的数据结构获取待处理文档的数据结构信息,数据结构包括文档类、章节类、模块类、表格类、图像类或文本块类中的任意一种或多种;输出待处理文档的各个实例的属性数据,其中,待处理文档可以是非结构化文档或结构化文档,数据结构信息包括数据结构中每种类的一个或多个实例,属性数据包括位置数据。
根据预先设计的数据结构获取待处理文档中各种类别的实例的属性数据,将文档转换为结构化的实例并进行存储,能够便于检索文档中信息和文档的管理。
在一种可能的实现方式中,在得到待处理文档各个实例的属性数据之后,文档管理系统在获取用户通过用户设备的用户界面输入的查询关键词后,根据查询关键词与待处理文档的各个实例的属性数据,获取与查询关键词匹配的目标数据,然后将目标数据返回给用户设备,以使用户设备向用户显示目标数据。
将文档转换为结构化的实例之后,能够通过简单快捷的从文档中获取需要的数据,提高检索效率。例如将不能通过键值匹配或简单规则进行检索的非结构化文档转换为结构化文档后,能够提高从非结构化文档中获取数据的检索效率。
在一种可能的实现方式中,文档管理系统还能够生成每个实例对应的检索语料,通过语义匹配模型对查询关键词和各个实例对应的检索语料进行匹配,将与查询关键词语义相似度最高的检索语料对应的实例的属性数据作为上述目标数据。
在一种可能的实现方式中,上述表格类中一个表格实例对应待处理文档中的一个表格,表格实例的属性数据还包括表格的表格数据;上述输出待处理文档中各个实例的属性数据,包括:对待处理页进行解析,输出第一表格的位置数据和第一表格对应的第一图像,对所述第一图像进行解析,输出所述第一表格的表格数据;其中,第一表格的位置数据包括第一图像在待处理页中的坐标,第一表格是待处理页中的任意一个表格,待处理页是待处理文档中的任意一页;第一表格的表格数据为将第一表格转换为数据帧电子表格格式(例如Excel)后的数据。可选地,文档管理系统还可以输出第一表格第一行的横向表头和第一表格第一列的纵向表头。
表格实例的属性数据中包括表格的具体数据,通过解析得到表格的具体数据后,能够提高对表格中数据的检索效率。
在一种可能的实现方式中,表格实例的属性数据还包括表格的标题名;上述输出待处理文档中各个实例的属性数据,还包括:确定待处理页中各个元素对象的位置数据,其中,元素对象包括文本、表格、图像和标题;根据第一表格的位置数据和待处理页中各个元素对象的位置数据,确定第一表格的标题的标题位置;根据标题位置获取第一表格的标题对应的第二图像,将第二图像输入字符识别模型,输出第一表格的标题名。
在一种可能的实现方式中,上述各个实例的属性数据包括待处理文档的存储路径,表格实例的位置数据还包括该表格实例对应的表格所在的页码;图像类中一个图像实例的位置数据还包括该图像实例对应的图像所在的页码;文本块类中一个文本块实例的位置数据还包括该文本块实例对应的文本块所在的页码。
在一种可能的实现方式中,上述待处理文档对应的文档实例的属性数据还包括待处理文档的文档标题、待处理文档的页码范围、文档实例包括的章节实例、文档实例包括的表格实例、文档实例包括的图片实例中的任意一种或多种。
在一种可能的实现方式中,上述章节类中一个章节实例的属性数据还包括章节实例对应的章节的页码范围、该章节所属的待处理文档的文档标题、该章节的标题名或该章节包括的模块中的任意一种或多种。
在一种可能的实现方式中,上述模块类中一个模块实例的属性数据还包括该模块实例对应的模块的页码范围、该模块所属的待处理文档的文档标题、该模块的标题名中的任意一种或多种。
在一种可能的实现方式中,上述文本块类中一个文本块实例的属性数据还包括该文本块实例对应的文本块的文本内容;所述图像的属性数据还包括所述待处理文档中各个图像。
第二方面,本申请提供一种文档管理系统,包括:获取模块用于获取待处理文档;解析模块用于基于解析策略对待处理文档进行解析,该解析策略指示根据预先设计的数据结构获取待处理文档的数据结构信息,数据结构包括文档类、章节类、模块类、表格类、图像类或文本块类中的任意一种或多种;输出待处理文档的各个实例的属性数据,其中,待处理文档可以是非结构化文档或结构化文档,数据结构信息包括数据结构中每种类的一个或多个实例,属性数据包括位置数据。
在一种可能的实现方式中,上述系统还包括检索模块,该检索模块用于在得到待处理文档各个实例的属性数据之后,文档管理系统在获取用户通过用户设备的用户界面输入的查询关键词后,根据查询关键词与待处理档的各个实例的属性数据,获取与查询关键词匹配的目标数据,然后将目标数据返回给用户设备,以使用户设备向用户显示目标数据。
在一种可能的实现方式中,上述解析模块还用于:生成每个实例对应的检索语料;上述检索模块具体用于:通过语义匹配模型对查询关键词和各个实例对应的检索语料进行匹配,将与查询关键词语义相似度最高的检索语料对应的实例的属性数据作为上述目标数据。
在一种可能的实现方式中,上述表格类中一个表格实例对应待处理文档中的一个表格,表格实例的属性数据还包括表格的表格数据;上述解析模块用于输出待处理文档中各个实例的属性数据,具体用于:对待处理页进行解析,输出第一表格的位置数据和第一表格对应的第一图像,对所述第一图像进行解析,输出所述第一表格的表格数据;其中,第一表格的位置数据包括第一图像在待处理页中的坐标,第一表格是待处理页中的任意一个表格,待处理页是待处理文档中的任意一页;第一表格的表格数据为将第一表格转换为电子表格格式(例如Excel)后的数据。可选地,文档管理系统还可以输出第一表格第一行的横向表头和第一表格第一列的纵向表头。
在一种可能的实现方式中,表格实例的属性数据还包括表格的标题名;上述解析模块输出待处理文档中各个实例的属性数据,具体用于:确定待处理页中各个元素对象的位置数据,其中,元素对象包括文本、列表、表格、图像和标题,其中,列表是指列表是指具有序号标识的文本;根据第一表格的位置数据和待处理页中各个元素对象的位置数据,确定第一表格的标题的标题位置;根据标题位置获取第一表格的标题对应的第二图像,将第二图像输入字符识别模型,输出第一表格的标题名。
在一种可能的实现方式中,上述各个实例的属性数据包括待处理文档的存储路径,表格实例的位置数据还包括该表格实例对应的表格所在的页码;图像类中一个图像实例的位置数据还包括该图像实例对应的图像所在的页码;文本块类中一个文本块实例的位置数据还包括该文本块实例对应的文本块所在的页码。
在一种可能的实现方式中,上述待处理文档对应的文档实例的属性数据还包括待处理文档的文档标题、待处理文档的页码范围、文档实例包括的章节实例、文档实例包括的表格实例、文档实例包括的图片实例中的任意一种或多种。
在一种可能的实现方式中,上述章节类中一个章节实例的属性数据还包括章节实例对应的章节的页码范围、该章节所属的待处理文档的文档标题、该章节的标题名或该章节包括的模块中的任意一种或多种。
在一种可能的实现方式中,上述模块类中一个模块实例的属性数据还包括该模块实例对应的模块的页码范围、该模块所属的待处理文档的文档标题、该模块的标题名中的任意一种或多种。
在一种可能的实现方式中,上述文本块类中一个文本块实例的属性数据还包括该文本块实例对应的文本块的文本内容;所述图像的属性数据还包括所述待处理文档中各个图像。
第三方面,本申请提供一种计算设备,包括处理器和存储器,存储器用于存储指令,处理器用于执行所述指令,当处理器执行所述指令时,执行上述第一方面或上述第一方面任意可能的实现方式中所述的文档管理方法。
第四方面,本申请提供一种计算设备集群,包括多个计算设备,所述计算设备集群部署有如第二方面所述的文档管理系统,用于执行上述第一方面或上述第一方面任意可能的实现方式中所述的文档管理方法。
第五方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时,执行如第一方面或第一方面任一种可能实现方式中所述的文档管理方法。
第六方面,本申请提供一种计算机程序产品,该计算机程序产品包括指令,当该计算机程序产品被计算机执行时,使得计算机可以执行上述第一方面或上述第一方面任意可能的实现方式中所述的文档管理方法。
附图说明
图1是本申请实施例提供的一种文档管理系统的部署示意图;
图2是本申请实施例提供的一种数据结构的示意图;
图3是本申请实施例提供的一种文档管理方法的流程示意图;
图4是本申请实施例提供的一种表格属性数据获取方法的示意图;
图5是本申请实施例提供的另一种数据结构的示意图;
图6是本申请实施例提供的一种文档管理的示意图;
图7是本申请实施例提供的一种文档管理的系统架构图;
图8是本申请实施例提供的一种计算设备的示意图;
图9是本申请实施例提供的一种计算设备集群的示意图。
具体实施方式
为了帮助本领域技术人员更好地理解本申请的技术方案,首先对本申请实施例中所涉及到的一些概念进行介绍。
结构化文档(structured document)是指具有完整数据结构的文档,可以通过键值匹配或者简单规则直接获取文档中的信息,如可扩展标记语言(extensible markuplanguage,XML)文档,word文档等。
非结构化文档(unstructured document)是指数据结构不完整甚至缺失的文档,该类文档中的内容不能被编辑,且不能直接通过键值匹配或者简单规则获取文档中的信息,如图片,扫描的可携带文档格式(portable document format,PDF)等。
纯文本文档(plain text document):一类仅由文本构成且文本无复杂修饰的文档,所有文档信息均储存于纯文本中,如txt格式的文档等。
富视觉文档(visually rich document)是指包含表格,图像,各级标题等多种视觉元素,如图片、表格等;要理解这类文档需要充分考虑文字大小,视觉元素相对位置,文字字体与颜色等,如富含图表的行业报告,杂志,论文等。
非结构化富视觉文档(unstructured visually rich document)是兼具非结构化文档与富视觉文档特点的文档类型,文档本身数据结构不完整甚至缺失,并且本身版面信息复杂,包含多种视觉元素,如富含图表的行业报告,杂志,论文扫描PDF或图片等。
当前大量信息承载于各类文档中,用户从文档中获取所需信息的需求日益广泛,信息的获取可以依赖键值匹配或人工规则等方法,但是通过上述方法从文档中获取所需信息需要文档具有数据结构信息。对于不具有数据结构信息的文档,例如非结构化文档,需要先对该文档进行结构化解析,而后再根据需求获取该文档中所需的信息。因此,对文档进行结构化解析是一个需要解决的技术问题。
本申请提供一种对文档进行管理的文档管理系统,能够对文档进行解析获取文档对应的数据结构信息,使得用户能够通过键值匹配或者简单规则直接获取该文档中的信息。文档管理系统包括至少一个组件,组件是指对数据和方法的简单封装。在一些编程语言体系中,组件也可以称为部件、控件等等。基于组件的作用,可以将文档管理系统包括的组件分为前端组件和后端组件两种类型。
前端组件是指实现和用户交互的组件,例如程序界面或网页界面,用于接收用户输入的数据,显示用户请求的界面与数据等。后端组件是指对数据进行处理的组件,用于按照设定的逻辑或策略对通过前端组件接收到的数据进行处理,或者从数据库中获取数据进行处理等。
基于部署方式不同,文档管理系统可以分为本地文档管理系统和云文档管理系统。本地文档管理系统的前端组件和后端组件均部署在本地设备。本地设备包括处于用户直接控制之下的用户设备(例如笔记本电脑、平板电脑、个人台式电脑等设备),或者与上述用户设备地理上接近的设备(例如服务器、本地计算机集群等)。云文档管理系统则至少有一部分组件(例如后端组件)部署在云端,云端是与本地相对应的一端,是本地设备通过通信网络远程访问的资源端。
图1是本申请实施例提供的一种文档管理系统的部署示意图,文档管理系统的后端组件部署在云环境中,云环境在云计算模式下利用基础资源向用户提供云服务。云环境包括云数据中心和云服务平台,云数据中心包括云服务提供商拥有的大量基础资源(包括计算资源、存储资源和网络资源)。云数据中心包括的计算资源可以是大量的计算设备(例如服务器)。文档管理系统可以部署在云数据中心的服务器中,也可以部署在云数据中心的虚拟机中,还可以分布式地部署在多个服务器中,或者分布式地部署在多个虚拟机中。
如图1所示,文档管理系统由云服务提供商在云服务平台抽象成一种文档管理的云服务提供给用户,用户在云服务平台购买该云服务或者申请使用该云服务后,云服务平台利用文档管理系统向用户提供文档管理的云服务。用户使用的用户设备可以通过客户端或者通过云服务平台提供的网页界面上传文档至云服务平台,由文档管理系统接收文档,对文档进行解析,得到文档对应的数据结构信息。文档管理系统能够将解析得到的数据结构信息存储至云数据中心,返回解析成功的结果给用户设备;或者文档管理系统将解析得到的数据结构返回给用户设备,由用户设备进行存储。
在一种可能的实施方式中,上述文档管理系统还可以部署在边缘数据中心,上述边缘数据中心是部署在距离用户使用的终端设备较近的边缘计算设备的集合。
为了提取文档的数据结构信息,将文档结构化使得用户能够通过键值匹配或者简单规则直接获取该文档中的信息,本申请实施例提供一种数据结构,如图2所示,图2是本申请实施例提供的一种数据结构的示意图。该数据结构包括文档类、章节类、模块类、表格类、图像类或文本块类中的一种或者多种,其中,模块是指章节中的小节,文本块是指文档中连续的字符或段落。上述数据结构信息包括文档中各个类的属性的属性数据,各个类的属性数据至少包括各个类的位置数据。其中,文档类的位置数据包括目标文档的存储路径;章节类的位置数据包括目标文档的存储路径和各个章节的页码范围;模块类的位置数据包括目标文档的存储路径和各个模块的页码范围;表格类的位置数据包括目标文档的存储路径和各个表格所在的页码;图像的位置数据包括目标文档的存储路径和各个图像所在的页码;文本块的位置数据包括目标文档的存储路径和各个文本块所在的页码。
如下表1所示,表1是数据结构中各个类可能包括的属性的说明。目标文档是指被解析后的文档,目标文档可以是原文档,也可以是原文档转换格式后的文档,例如将原文档转换为图片。一个文档可能包括一个或多个章节,一个章节对应一个章节实例,一个章节实例中记录的是一个章节的各个属性的属性数据;一个章节可能包括一个或多个模块,一个模块对应一个模块实例,一个模块实例中记录的是一个模块的各个属性的属性数据;一个文档可能包括一个或多个表格,一个表格对应一个表格实例,一个表格实例中记录的是一个表格的各个属性的属性数据;一个文档可能包括一个或多个图像,一个图像对应一个图像实例,一个图像实例中记录的是一个图像的各个属性的属性数据;一个文档可能包括一个或多个文本块,一个文本块对应一个文本块实例,一个文本块实例中记录的是一个文本块的各个属性的属性数据。数据结构信息包括文档中各个类的实例库,每个类的实例库包括每个类的多个实例。
表1中章节类对应的属性是指一个章节所包括的属性,即每个章节包括表1中所示的5个属性,数据结构信息中每个章节实例均记录表1中章节类包括的5个属性的属性数据。例如,文档中包括5个章节,第二章节对应的章节实例中page_range属性记录的是第二章节的页码范围,第二章节对应的章节实例中title属性记录的是第二章节的标题名,第二章节的modules属性记录的是第二章节包括的模块。同样的,表1中模块类对应的属性是指一个模块所包括的属性,表1中表格类对应的属性是指一个表格所包括的属性,表1中图像类对应的属性是指一个图像所包括的属性,表1中文本块类对应的属性是指一个文本块所包括的属性。
表1
Figure BDA0003426762260000061
Figure BDA0003426762260000071
需要说明的是,数据结构可以包括文档类、章节类、模块类、表格类、图像类或文本块类中的部分或全部,也可以还包括其他类,例如公式类、签章类等。本申请实施例以文档的数据结构包括上述表1中的6个类为例,对一个文档进行解析后得到的数据结构信息中,可能只包括部分类的属性数据。例如,当文档中没有章节时,解析得到的数据结构信息中没有章节类和模块类对应的实例;当文档中没有图像时,解析得到的数据结构信息中没有图像类对应的实例。各个类可能包括如表1或图2中所示的更多或更少的属性。例如,当文档中没有图像时,则文档类中没有图像实例库;表格类还可以包括image属性,用于保存截取的表格的图像。
用户通过客户端将待处理文档上传至云服务平台,文档管理系统完成对待处理文档的结构化,即对待处理文档进行解析,得到待处理文档中各个类的实例库,即得到待处理文档的数据结构信息,然后将数据结构信息存储至存储设备,或者将数据结构信息返回给用户设备,使得用户能够通过键值匹配或者简单规则直接获取该待处理文档中的信息。
下面对本申请实施例提供的文档管理方法进行详细介绍。图3是本申请实施例提供的一种文档管理方法的流程示意图。该方法包括如下步骤S301至S303。
S301.获取待处理文档,将待处理文档转换为目标文档。
将待处理文档转换为预设格式的目标文档,目标文档的格式为文档管理系统能够处理的格式,例如图片、PDF等。为描述方便,本申请实施例以预设格式为图片为例。文档管理系统将待处理文档中的每一页文档转换为一张图片,或者将待处理文档中连续的多页转换为一张图片,即目标文档包括一张或者多张图片。
需要说明的是,将待处理文档转换为预设格式的目标文档并不是必须步骤,例如待处理文档是预设格式的文档,或者文档管理系统能够对各种格式的文档进行解析。
S302.基于解析策略对目标文档进行解析,得到待处理文档的数据结构信息。
解析策略用于指示文档管理系统根据上述数据结构对接收到的待处理文档进行解析,获取待处理文档的数据结构信息,建立待处理文档的实例库。
对于文档类的属性数据,文档管理系统能够直接获取该待处理文档上传至云服务平台后的存储路径,写入doc_path属性,或者在对待处理文档进行预处理之后,获取目标文档在云服务平台的存储路径,写入doc_path属性。并获取文档标题,写入doc_title属性,获取文档的页码范围,写入page_num属性。
对于章节类的章节实例,由于每个章节都属于待处理文档,每个章节的doc_path属性与文档类的doc_path属性相同,每个章节的doc_title属性与文档类的doc_title属性相同,因此每个章节实例中的doc_path属性与文档类的doc_path属性相同,每个章节实例中的doc_title属性与文档类的doc_title属性相同。对待处理文档进行章节标题的检测,检测到一个章节标题时,创建一个章节实例,通过字符识别模型识别该章节标题的标题名,将该标题名写入该章节实例的title属性,其中,字符识别模型可以是光学字符识别(Optical Character Recognition,OCR)模型或卷积神经网络模型(ConvolutionalNeural Networks,CNN);通过该章节标题与相邻的后一个章节标题确定该章节的页码范围,将该页码范围写入章节实例的page_range属性。
对于上述一个章节,在该章节包括的文本内容中检测除章节标题之外的标题,即模块标题。如果检测到存在模块标题,则在上述章节实例中创建一个模块实例,通过字符识别模型识别该模块标题的标题名,将该模型的标题名写入该模块实例的title属性。通过该模块标题与相邻的后一个模块标题确定该模块的页码范围,将该页码范围写入章节实例的page_range属性。由于每个模块都属于待处理文档,每个模块的doc_path属性与文档类的doc_path属性相同,每个模块的doc_title属性与文档类的doc_title属性相同,因此每个模块实例中的doc_path属性与文档类的doc_path属性相同,每个模块实例中的doc_title属性与文档类的doc_title属性相同。获取到一个模块的各项属性的属性数据之后,即可得到该模块对应的模块实例。
根据上述方法得到一个章节中每个模块的模块实例,即得到该章节对应的章节实例中的模块实例库。同样的,在得到待处理文档中每个章节对应的章节之后,即得到该待转换文档的文档类中的章节实例库。
对于表格类的表格实例,在对待处理文档中的每一页文档进行分析时,对于一个待处理页,首先检测该页文档中是否存在表格,如果存在表格,则创建一个表格实例,记录该表格所在的页码,将页码写入该表格实例的page属性。然后对该表格中的内容进行识别,输出该表格对应的电子表格格式(例如Excel格式)的表格数据,写入表格实例的data属性。在将表格输出为Excel格式的表格数据后,能够获取该表格的横向表头和纵向表头,将横向表头写入表格实例的headers_x属性,将纵向表头写入表格实例的headers_y属性。其中,横向表头是指表格的第一行数据,纵向表头是指表格的第一列数据。
对于表格的标题名,首先需要先确定该页包括的元素对象以及各个元素对象的坐标,其中,元素对象包括文本、标题、列表、表格和图像等,列表是指具有序号标识的文本;各个元素对象的坐标包括该元素对象在该页文档中的左上角坐标和右下角坐标。然后根据该表格的坐标和各个元素对象的坐标,确定该表格的标题名的坐标。最后识别出该表格的标题名,写入表格类的title属性。获取到一个表格的各项属性的属性数据之后,即可得到该表格对应的表格实例。
示例性的,如图4所示,图4是本申请实施例提供的一种表格属性数据获取方法的示意图。以待处理文档中每一页文档被转换成图片为例,将待处理页对应的第一图片输入至表格检测模型,表格检测模型输出检测到的第一表格的表格坐标和根据表格坐标分割出的第一图像。其中,表格检测模型可以是用于图像中表格检测的复合可变形级联网络(Composite Deformable Cascade Network,CDeC-Net)模型、表网络(TableNet)模型、TableMaster模型或深德斯特(DeepDeSRT)模型等,表格检测模型可以通过ICDAR-2013数据集训练得到;第一图片的坐标系以第一图片左上角为坐标原点,第一图片上边缘为x轴,左边缘为y轴;表格坐标包括表格的左上角坐标[x1,y1]和右下角坐标[x2,y2];第一图像包括第一表格。
将第一图像输入至表格解析模型,输出可解析的Excel格式的表格数据,将表格数据写入表格类的data属性。并获取该表格的横向表头和纵向表头,将横向表头写入表格实例的headers_x属性,将纵向表头写入表格实例的headers_y属性。其中,表格解析模型可以是TabStructNet模型、CascadeTabNet模型或Multi-Type-TD-TSR模型。
将第一图片输入至版面分析模型,输出版面分析结果,版面分析结果包括元素对象以及各个元素对象的坐标,其中,版面分析模型可以是区域卷积神经网络(RegionbasedConvolutional Neural Networks,RCNN)模型、快速RCNN(Fast RCNN)模型或掩码RCNN(Mask RCNN),版面分析模型可以采用Publaynet数据集训练得到。然后将第一表格的表格坐标和元素对象中与文本相关的元素对象的坐标输入标题筛选模型,根据第一表格的表格坐标和元素对象中与文本相关的元素对象的坐标,确定第一表格的标题名的位置,根据该位置确定第一表格对应的标题名的区域,最后根据该位置截取第一表格对应的标题名的第二图像,根据字符识别模型识别第二图像中的字符,得到第一表格的标题名。其中,元素对象中与文本相关的元素对象包括文本、标题和列表。如表2所示,表2是根据第一表格的表格坐标和元素对象中与文本相关的元素对象的坐标,确定第一表格的标题名的位置的伪代码。
表2
Figure BDA0003426762260000101
对待处理文档中的每一页文档进行检测确定是否存在表格,如果存在表格,根据上述方法获取每个表格的各项属性的属性数据,得到每个表格对应的表格实例,最终得到该待处理文档中表格类的实例库,即待处理文档的文档类中的表格实例库。
对于图像类的图像实例,在对待处理文档中的每一页文档进行分析时,对于一个待处理页,首先检测该页文档中是否存在图像,例如通过版面分析模型对待处理文档转换的图片中的一张图片进行版面分析时,如果输出的元素对象中存在图像,则创建一个图像实例,记录该图像所在的页码,将页码写入该图像实例的page属性。每个图像的doc_path属性与文档类的doc_path属性相同,每个图像的doc_title属性与文档类的doc_title属性相同,因此每个图像实例中的doc_path属性与文档类的doc_path属性相同,每个图像实例中的doc_title属性与文档类的doc_title属性相同。对于一个图像类别的元素对象,确定该图像的图像坐标,根据图像坐标从待处理页中截取出该图像,写入该图像实例的image属性。对于图像的标题名,可以参照上述表格的标题名的获取方法获取图像的标题名,然后写入该图像实例的title属性。获取到一个图像的各项属性的属性数据之后,即可得到该表格对应的图像实例。
对待处理文档中的每一页文档进行版面分析确定是否存在图像,如果存在图像,根据上述方法获取每个图像的各项属性的属性数据,得到每个图像对应的图像实例,最终得到该待处理文档中图像类的实例库,即待处理文档的文档类中的图像实例库。
对于文本块类的文本块实例,在对待处理文档中的每一页文档进行分析时,对于一个待处理页,首先检测该页文档中是否存在文本块,例如通过版面分析模型对待处理文档转换的图片中的一张图片进行版面分析时,如果输出的元素对象中存在文本和/或列表,则一个文本类别的元素对象或一个列表类别的元素对象都是一个文本块,都创建一个对应的文本块实例。记录该文本块所在的页码,将页码写入该文本块实例的page属性。每个文本块的doc_path属性与文档类的doc_path属性相同,每个文本块的doc_title属性与文档类的doc_title属性相同,因此每个文本块实例中的doc_path属性与文档类的doc_path属性相同,每个文本块实例中的doc_title属性与文档类的doc_title属性相同。对于一个文本类别或列表类别的元素对象,确定该元素对象的坐标,根据坐标从待处理页中截取出对应的图像,然后将该图像输入字符识别模型,得到该文本块的文本内容,写入文本类实例的text属性。获取到一个文本块的各项属性的属性数据之后,即可得到该文本块对应的表格实例。
对待处理文档中的每一页文档进行版面分析确定是否存在文本块,如果存在文本块,根据上述方法获取每个文本块的各项属性的属性数据,得到每个文本块对应的图像实例,最终得到该待处理文档中文本块类的实例库,即待处理文档的文档类中的文本块实例库。
通过S302中的方法得到待处理文档中各个类的实例库之后,即得到该待处理文档的数据结构信息。
S303.输出待处理文档对应的结构化信息。
在得到该待处理文档的数据结构信息之后,如果文档管理系统部署在云服务平台,文档管理系统将数据结构信息存储至云数据中心的存储设备中,例如内存或磁盘中;文档管理系统还能够将数据结构信息返回给用户设备,由用户设备进行存储。如果文档管理系统部署在用户设备,则用户设备在得到该待处理文档的数据结构信息之后,将数据结构信息存储至本地的存储设备中。
根据预先设计的数据结构获取待处理文档中各种类别的实例的属性数据,将文档转换为结构化的实例并进行存储,能够便于检索文档中信息和文档的管理。
将文档转换为结构化的实例之后,能够通过简单快捷的从文档中获取需要的数据,提高检索效率。例如将不能通过键值匹配或简单规则进行检索的非结构化文档转换为结构化文档后,能够提高从非结构化文档中获取数据的检索效率。
本申请实施例中,文档管理系统在得到一个文档的各个类的实例库之后,即完成了对该文档结构化,得到该文档的数据结构信息,文档管理系统还可以根据该文档的数据结构信息提供对该文档的检索服务,文档管理系统通过接收用户输入的查询语料与文档的数据结构信息进行匹配,以得到查询语料对应的目标数据并返回给用户。为实现上述检索服务,文档的数据结构除了包括上述表1所示的各个类的属性数据之外,还包括各个实例的检索方法。如图5所示,图5是本申请实施例提供的另一种数据结构的示意图。由于文档的数据结构信息包括文档类与章节类、章节类与模块类、文档类与表格类、文档类与图片类、文档类与文本块类之间的关联关系,文档类包括其他各类的实例库,因此文档管理系统通过文档类提供对外接口,以实现用户对文档的检索服务。
如表3所示,表3是本申请实施例提供的各个实例的检索方法的说明。在得到上述各个类的实例之后,对于每一个实例,文档管理系统能够根据该实例的部分或者全部属性进行组合,得到该实例对应的检索语料,或者提取该实例中的关键字并进行组合,得到该实例对应的检索语料。例如,表3中,对于一个表格实例,能够将该表格实例中横向表头和纵向表头两个属性的属性数据进行拼接,得到表征该表格的检索语料。文档管理系统能够向用户提供检索界面,在接收到用户通过检索界面输入的查询关键词后,通过对查询关键词进行组合得到查询语料(question),然后通过语义匹配模型对检索语料和查询语料进行语义相似度匹配,得到与查询语料语义相似度最高的检索语料,将该检索语料对应的实例作为目标数据,输出该目标数据,并将该目标数据返回给用户。其中,语义匹配模型可以是基于转化器的双向编码表征(Bidirectional Encoder Representation from Transformers,Bert)模型、语句Bert(SentenceBert)模型或深度结构语义模型(Deep StructuredSemantic Models,DSSM)等。
应理解的是,检索语料可以被理解为对解析获得的实例生成的索引,便于后续基于检索关键词实现数据的检索。
表3
所属类 名称 类别 说明
文档 load(save_path) 方法 文档数据结构信息读取路径
文档 query_chapter(question) 方法 章节实例检索方法
文档 query_module(question) 方法 模块实例检索方法
文档 query_table(question) 方法 表格实例检索方法
文档 query_figure(question) 方法 图片实例检索方法
文档 query_maintext(question) 方法 文本块实例检索方法
表格 select_data(header1,header2) 方法 根据给定表头直接返回数据
在一种可能的实现方式中,用户能够通过检索界面选择需要查询的文档后,仅输入查询关键词,由文档管理系统将该查询关键词转换为查询语料,并与该文档包括的实例库中各个实例对应的检索语料进行语义相似度匹配,输出目标数据。在另一种可能的实现方式中,文档管理系统能够提供实例库选项,用户在通过检索界面选择需要查询的文档后,能够进一步选择需要检索的一个或多个实例库,例如用户可以选择在表格实例库中进行检索;文档管理系统在将查询关键词转换为查询语料后,将该查询语料与该文档包括的表格实例库中各个表格实例对应的检索语料进行语义相似度匹配,输出目标数据。
示例性的,如图6所示,图6是本申请实施例提供的一种文档管理的示意图。文档管理系统在获取到一份文档后,通过如图3所示的方法将改文档进行解析,得到该文档对应的数据结构信息,即各个类的实例库,并生成各个实例的检索语料。其中,该文档包括一个标题名为“2020年A地区高中期末考试分数分段表”的表格对应的表格实例。文档管理系统接收到用户输入的查询关键词,该查询关键词包括“2020”、“分数”、“A地区”、“高中”、等,文档管理系统在将查询关键词转换为查询语料后,通过语义匹配模型,确定该用户需要的目标数据是标题名为“2020年A地区高中期末考试分数分段表”的表格对应的表格实例,文档管理系统返回该表格实例给用户,包括该表格的图片、Excel格式的具体数据、标题、横向标题和纵向表头等。
对于上述方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明所必须的。
本领域的技术人员根据以上描述的内容,能够想到的其他合理的步骤组合,也属于本发明的保护范围内。其次,本领域技术人员也应该熟悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明所必须的。
上文中结合图1至图6详细描述了根据本申请实施例所提供的文档管理方法,下面结合图7至图9,描述本申请实施例所提供的关于文档管理的系统与设备。如图7所示,图7是本申请实施例提供的一种文档管理系统的架构图。用户通过客户端将待处理文档上传至文档管理系统700,文档管理系统700包括获取模块710和解析模块720。其中,
获取模块710用于获取待处理文档;解析模块720用于基于解析策略对待处理文档进行解析,该解析策略指示根据预先设计的数据结构获取待处理文档的数据结构信息,数据结构包括文档类、章节类、模块类、表格类、图像类或文本块类中的任意一种或多种;输出待处理文档的各个实例的属性数据。即完成对待处理文档的结构化,使得用户能够通过键值匹配或者简单规则直接获取该待处理文档中的信息。
其中,待处理文档可以是非结构化文档或结构化文档,数据结构信息包括数据结构中每种类的一个或多个实例,属性数据至少包括位置数据,各种类的各个实例可能包括的属性数据可以参照上述表1及其相关描述,解析模块720获取各个实例的属性数据的方法可以参照上述图3所对应的实施例中的相关描述,在此不再赘述。
在一种可能的实现方式中,上述文档管理系统还包括检索模块730,该检索模块730用于在得到待处理文档各个实例的属性数据之后,在接收道用户通过用户设备的用户界面输入的查询关键词后,根据查询关键词与待处理档的各个实例的属性数据,获取与查询关键词匹配的目标数据,然后将目标数据返回给用户设备,以使用户设备向用户显示目标数据。
在一种可能的实现方式中,上述解析模块720还用于:生成每个实例对应的检索语料;上述检索模块730通过语义匹配模型对查询关键词和各个实例对应的检索语料进行匹配,将与查询关键词语义相似度最高的检索语料对应的实例的属性数据作为上述目标数据。
在一种可能的实现方式中,获取模块710将待处理文档转换为解析模块720能够处理的文档格式,得到目标文档,例如图片、PDF等。
文档管理系统700可能包含相比于图7展示的更多或者更少的模块,在此不再赘述。具体的,上述文档管理系统700用于实现文档管理的方法可以参照上述图3所示的方法实施例中的具体描述,在此不再赘述。
参见图8,图8是本申请实施例提供的一种计算设备的示意图,该计算设备800包括:一个或者多个处理器810、通信接口820以及存储器830,所述处理器810、通信接口820以及存储器830通过总线840相互连接,其中,
处理器810执行各种操作的具体实现可参照上述图3所示的方法实施例中的具体操作。例如处理器810用于执行上述图3中S301~S303中的操作,或者实现上述图7所示的文档管理系统700的操作,在此不再赘述。
处理器810可以有多种具体实现形式,例如处理器810可以为中央处理器(centralprocessing unit,CPU)或图像处理器(graphics processing unit,GPU),处理器810还可以是单核处理器或多核处理器。处理器810可以由CPU和硬件芯片的组合。上述硬件芯片可以是专用集成电路(application-specific integrated circuit,ASIC),可编程逻辑器件(programmable logic device,PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complex programmable logic device,CPLD),现场可编程逻辑门阵列(field-programmable gate array,FPGA),通用阵列逻辑(generic array logic,GAL)或其任意组合。处理器810也可以单独采用内置处理逻辑的逻辑器件来实现,例如FPGA或数字信号处理器(digital signal processor,DSP)等。
通信接口820可以为有线接口或无线接口,用于与其他模块或设备进行通信,有线接口可以是以太接口、局域互联网络(local interconnect network,LIN)等,无线接口可以是蜂窝网络接口或使用无线局域网接口等。本申请实施例中通信接口820具体可用于接收用户设备上传的待转换文档、接收用户设备发送的查询关键词、将用户查询的目标数据发送给用户设备等。
存储器830可以是非易失性存储器,例如,只读存储器(read-only memory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。存储器830也可以是易失性存储器,易失性存储器可以是随机存取存储器(random access memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(dynamic RAM,DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhancedSDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM,DR RAM)。
存储器830也可用于存储程序代码和数据,以便于处理器810调用存储器830中存储的程序代码执行上述方法实施例中实现设计图的操作步骤,并存储得到的各个实例的属性数据。此外,计算设备800可能包含相比于图8展示的更多或者更少的组件,或者有不同的组件配置方式。
总线840可以是快捷外围部件互连标准(peripheral component interconnectexpress,PCIe)总线,或扩展工业标准结构(extendedindustrystandardarchitecture,EISA)总线、统一总线(unifiedbus,Ubus或UB)、计算机快速链接(computeexpresslink,CXL)、缓存一致互联协议(cachecoherentinterconnectforaccelerators,CCIX)等。总线840可以分为地址总线、数据总线、控制总线等。总线840除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选地,该计算设备800还可以包括输入/输出接口850,输入/输出接口850连接有输入/输出设备,用于接收输入的信息,输出操作结果。
具体地,上述计算设备800执行各种操作的具体实现可参照上述方法实施例中S301~S303以及用户查询时执行的具体操作,在此不再赘述。
由于本申请提供的文档管理系统700中的各个模块可以分布式地部署在同一环境或者不同环境中的多个计算设备上,因此,本申请还提供一种如图9所示的计算设备集群,该计算设备集群包括多个计算设备800。
上述每个计算设备800间通过通信网络建立通信通路。每个计算设备800上运行获取模块710、解析模块720或检索模块730中的任意一个或多个。例如,第一计算设备中运行有获取模块710与解析模块720,获取模块710用于获取待处理文档并转换格式,解析模块720用于执行上述图3所示的解析操作,得到待处理文档各个实例的属性数据。在第二计算设备中运行有检索模块730,第二计算设备中的检索模块730用于接收用户的检索关键词,将检索关键词和解析模块720得到的各个实例的属性数据进行匹配,得到目标数据。其中,任一计算设备800可以为云环境中的计算机(例如:服务器),或边缘数据中心中的计算机,或终端计算设备。
在一些可能的实现方式中,如上述S302中所述,表格检测模型或版面分析模型可以是人工智能模型,例如表格检测模型可以是用于图像中表格检测的CDeC-Net模型、TableNet模型、TableMaster模型或DeepDeSRT模型等,上述表格检测模型可以通过ICDAR-2013数据集训练得到;版面分析模型可以是RCNN模型、Fast RCNN模型或Mask RCNN模型,上述版面分析模型可以采用Publaynet数据集训练得到。因此文档管理系统700还可以包括一个或多个训练模块,不同的训练模块用于训练不同的模型,例如一个训练模块用于训练表格检测模型,一个训练模块用于训练版面分析模型,训练不同模型的训练模块部署于计算设备集群的不同的计算设备800中,在训练好模型之后,再将训练好的模型发送给部署解析模块720的计算设备进行部署。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在处理器上运行时,可以实现上述方法实施例中的方法步骤,所述计算机可读存储介质的处理器在执行上述方法步骤的具体实现可参照上述方法实施例图3所示的具体操作,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
上述实施例,可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时,上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质、或者半导体介质。半导体介质可以是固态硬盘(solid state drive,SSD)。
本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并或删减;本申请实施例系统中的模块可以根据实际需要进行划分、合并或删减。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (16)

1.一种文档管理方法,其特征在于,包括:
基于解析策略对待处理文档进行解析,所述解析策略指示根据数据结构获取所述待处理文档的数据结构信息,所述数据结构包括文档类、章节类、模块类、表格类、图像类或文本块类中的任意一种或多种;
输出所述待处理文档中各个实例的属性数据,其中,所述数据结构信息包括所述数据结构中每种类的一个或多个实例,所述属性数据包括位置数据。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取用户通过用户设备的用户界面输入的查询关键词;
根据所述查询关键词与所述待处理档中各个实例的属性数据,获取与所述查询关键词匹配的目标数据;
将所述目标数据返回给所述用户设备,以使所述用户设备向所述用户显示所述目标数据。
3.根据权利要求2所述的方法,其特征在于,在输出所述待处理文档中各个实例的属性数据之后,还包括:
生成所述各个实例对应的检索语料;
所述根据所述查询关键词与所述待处理档中各个实例的属性数据,获取与所述查询关键词匹配的目标数据,包括:
将所述查询关键词与所述各个实例对应的检索语料进行语义匹配,将与所述查询关键词语义相似度最高的实例的属性数据作为所述目标数据。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述表格类中一个表格实例对应一个表格,所述表格实例的属性数据还包括表格的表格数据;
所述输出所述待处理文档中各个实例的属性数据,包括:
对待处理页进行解析,输出第一表格的位置数据和所述第一表格对应的第一图像,所述第一表格的位置数据包括所述第一图像在所述待处理页中的坐标,所述第一表格是所述待处理页中的任意一个表格,所述待处理页是所述待处理文档中的任意一页;
对所述第一图像进行解析,输出所述第一表格的表格数据,所述第一表格的表格数据为将所述第一表格转换为电子表格格式后的数据。
5.根据权利要求4所述的方法,其特征在于,所述表格实例的属性数据还包括所述表格的标题名;
所述输出所述待处理文档中各个实例的属性数据,还包括:
确定所述待处理页中各个元素对象的位置数据,其中,所述元素对象包括文本、表格、图像和标题;
根据所述第一表格的位置数据和所述待处理页中各个元素对象的位置数据,确定所述第一表格的标题的标题位置;
根据所述标题位置获取所述第一表格的标题对应的第二图像,将所述第二图像输入字符识别模型,输出所述第一表格的标题名。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述各个实例的属性数据包括所述待处理文档的存储路径,所述表格类中表格实例的位置数据还包括所述表格实例对应的表格所在的页码;所述图像类中图像实例的位置数据还包括所述图像实例对应的图像所在的页码;所述文本块类中文本块实例的位置数据还包括所述文本块实例对应的文本块所在的页码。
7.根据权利要求1-6任一项所述的方法,其特征在于,
所述待处理文档对应的文档实例的属性数据还包括所述待处理文档的文档标题、所述待处理文档的页码范围、所述文档实例包括的章节实例、所述文档实例包括的表格实例、所述文档实例包括的图片实例中的任意一种或多种;
所述章节类中一个章节实例的属性数据还包括所述章节实例对应的章节的页码范围、所述章节所属的所述待处理文档的文档标题、所述章节的标题名或所述章节包括的模块实例中的任意一种或多种;
所述模块类中一个模块实例的属性数据还包括所述模块实例对应的模块的页码范围、所述模块所属的所述待处理文档的文档标题、所述模块的标题名中的任意一种或多种;
所述图像类中一个图像实例的属性数据还包括所述图像实例对应的图像、所述图像所属的所述待处理文档的文档标题、所述图像的标题名中的任意一种或多种;
所述文本块类中一个文本块实例的属性数据还包括所述文本块实例对应的文本块的文本内容、所述文本块所属的所述待处理文档的文档标题中的任意一种或多种。
8.一种文档管理系统,其特征在于,所述系统包括:
获取模块:用于获取待处理文档;
解析模块:用于基于解析策略对所述待处理文档进行解析,所述解析策略指示根据数据结构获取所述待处理文档的数据结构信息,所述数据结构包括文档类、章节类、模块类、表格类、图像类或文本块类中的任意一种或多种;
输出所述待处理文档中各个实例的属性数据,其中,所述数据结构信息包括所述数据结构中每种类的一个或多个实例,所述属性数据包括位置数据。
9.根据权利要求8所述的系统,其特征在于,所述系统还包括检索模块,所述检索模块用于:
获取用户通过用户设备的用户界面输入的查询关键词;
根据所述查询关键词与所述待处理档中各个实例的属性数据,获取与所述查询关键词匹配的目标数据;
将所述目标数据返回给所述用户设备,以使所述用户设备向所述用户显示所述目标数据。
10.根据权利要求9所述的系统,其特征在于,所述解析模块还用于:
生成所述各个实例对应的检索语料;
所述检索模块具体用于:
将所述查询关键词与所述各个实例对应的检索语料进行语义匹配,将与所述查询关键词语义相似度最高的实例的属性数据作为所述目标数据。
11.根据权利要求8至10任一项所述的系统,其特征在于,所述表格类中一个表格实例对应一个表格,所述表格实例的属性数据还包括表格的表格数据;
所述解析模块具体用于:
对待处理页进行解析,输出第一表格的位置数据和所述第一表格对应的第一图像,所述第一表格的位置数据包括所述第一图像在所述待处理页中的坐标,所述第一表格是所述待处理页中的任意一个表格,所述待处理页是所述待处理文档中的任意一页;
对所述第一图像进行解析,输出所述第一表格的表格数据,所述第一表格的表格数据为将所述第一表格转换为电子表格格式后的数据。
12.根据权利要求11所述的系统,其特征在于,所述表格实例的属性数据还包括所述表格的标题名;
所述解析模块具体用于:
确定所述待处理页中各个元素对象的位置数据,其中,所述元素对象包括文本、表格、图像和标题;
根据所述第一表格的位置数据和所述待处理页中各个元素对象的位置数据,确定所述第一表格的标题的标题位置;
根据所述标题位置获取所述第一表格的标题对应的第二图像,将所述第二图像输入字符识别模型,输出所述第一表格的标题名。
13.根据权利要求8至12任一项所述的系统,其特征在于,所述各个实例的属性数据包括所述待处理文档的存储路径,所述表格类中表格实例的位置数据还包括所述表格实例对应的表格所在的页码;所述图像类中图像实例的位置数据还包括所述图像实例对应的图像所在的页码;所述文本块类中文本块实例的位置数据还包括所述文本块实例对应的文本块所在的页码。
14.根据权利要求8-13任一项所述的系统,其特征在于,
所述待处理文档对应的文档实例的属性数据还包括所述待处理文档的文档标题、所述待处理文档的页码范围、所述文档实例包括的章节实例、所述文档实例包括的表格实例、所述文档实例包括的图片实例中的任意一种或多种;
所述章节类中一个章节实例的属性数据还包括所述章节实例对应的章节的页码范围、所述章节所属的所述待处理文档的文档标题、所述章节的标题名或所述章节包括的模块实例中的任意一种或多种;
所述模块类中一个模块实例的属性数据还包括所述模块实例对应的模块的页码范围、所述模块所属的所述待处理文档的文档标题、所述模块的标题名中的任意一种或多种;
所述图像类中一个图像实例的属性数据还包括所述图像实例对应的图像、所述图像所属的所述待处理文档的文档标题、所述图像的标题名中的任意一种或多种;
所述文本块类中一个文本块实例的属性数据还包括所述文本块实例对应的文本块的文本内容、所述文本块所属的所述待处理文档的文档标题中的任意一种或多种。
15.一种计算设备,其特征在于,包括处理器和存储器;所述存储器用于存储指令,所述处理器用于执行所述指令,当所述处理器执行所述指令时,所述系统执行如权利要求1至7任一项所述的方法。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时,所述处理器执行如权利要求1至7任一项所述的方法。
CN202111582967.1A 2021-12-22 2021-12-22 文档管理方法、文档管理系统和计算设备 Pending CN116340259A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111582967.1A CN116340259A (zh) 2021-12-22 2021-12-22 文档管理方法、文档管理系统和计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111582967.1A CN116340259A (zh) 2021-12-22 2021-12-22 文档管理方法、文档管理系统和计算设备

Publications (1)

Publication Number Publication Date
CN116340259A true CN116340259A (zh) 2023-06-27

Family

ID=86891643

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111582967.1A Pending CN116340259A (zh) 2021-12-22 2021-12-22 文档管理方法、文档管理系统和计算设备

Country Status (1)

Country Link
CN (1) CN116340259A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117390214A (zh) * 2023-12-12 2024-01-12 北京云成金融信息服务有限公司 一种基于ocr技术的文件检索方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117390214A (zh) * 2023-12-12 2024-01-12 北京云成金融信息服务有限公司 一种基于ocr技术的文件检索方法及系统
CN117390214B (zh) * 2023-12-12 2024-02-27 北京云成金融信息服务有限公司 一种基于ocr技术的文件检索方法及系统

Similar Documents

Publication Publication Date Title
KR100461019B1 (ko) 소형 화면 단말기를 위한 웹 컨텐츠 변환 시스템 및 방법
KR102237702B1 (ko) 엔티티 관계 데이터 생성 방법, 장치, 기기 및 저장 매체
US7055094B2 (en) Virtual tags and the process of virtual tagging utilizing user feedback in transformation rules
US7730395B2 (en) Virtual tags and the process of virtual tagging
US20100042623A1 (en) System and method for mining and tracking business documents
Im et al. Linked tag: image annotation using semantic relationships between image tags
EP2291812A2 (en) Forum web page clustering based on repetitive regions
CN115982376B (zh) 基于文本、多模数据和知识训练模型的方法和装置
US20220382975A1 (en) Self-supervised document representation learning
JP2005063432A (ja) マルチメディアオブジェクト検索装置およびマルチメディアオブジェクト検索方法
CN113986864A (zh) 日志数据处理方法、装置、电子设备及存储介质
CN112307303A (zh) 基于云计算的网络页面高效精准去重系统
CN108319586B (zh) 一种信息提取规则的生成和语义解析方法及装置
CN116340259A (zh) 文档管理方法、文档管理系统和计算设备
CN108595466B (zh) 一种互联网信息过滤以及互联网用户信息和网帖结构分析方法
US20090265315A1 (en) System and method for classifying tags of content using a hyperlinked corpus of classified web pages
CN112597410A (zh) 基于规则配置库对网页内容执行结构化提取的方法及装置
Beniwal et al. Data mining with linked data: past, present, and future
Malhotra et al. Web page segmentation towards information extraction for web semantics
CN115098061A (zh) 软件开发文档优化方法、装置、计算机设备及存储介质
TWI793432B (zh) 工程專案文件管理方法與系統
US11768804B2 (en) Deep search embedding of inferred document characteristics
Keerthika et al. Multi-linguistic optical character recognition
Fan et al. Semantic Annotation of Office Documents
CN115758001A (zh) 网页信息提取方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication