CN111506588A - 一种提取电子文档关键信息的方法及装置 - Google Patents
一种提取电子文档关键信息的方法及装置 Download PDFInfo
- Publication number
- CN111506588A CN111506588A CN202010276725.9A CN202010276725A CN111506588A CN 111506588 A CN111506588 A CN 111506588A CN 202010276725 A CN202010276725 A CN 202010276725A CN 111506588 A CN111506588 A CN 111506588A
- Authority
- CN
- China
- Prior art keywords
- electronic document
- extraction
- model
- key
- key information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000000605 extraction Methods 0.000 claims abstract description 225
- 230000008569 process Effects 0.000 claims abstract description 25
- 238000010276 construction Methods 0.000 claims abstract description 12
- 238000001914 filtration Methods 0.000 claims description 40
- 238000004590 computer program Methods 0.000 claims description 13
- 239000000284 extract Substances 0.000 claims description 9
- 230000001960 triggered effect Effects 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 5
- 230000004044 response Effects 0.000 description 10
- 230000008859 change Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了提取电子文档关键信息的方法及装置,所述方法包括:获取待提取关键信息的电子文档,当不存在与所述电子文档对应的提取模型时,进入模型构建流程,获取用户标注的关键特征,提取所述电子文档中表格的至少一个属性,基于所述关键特征和所述表格的至少一个属性,构建提取模型,获取用户新建的关键字段名称以及与该关键字段名称对应的至少一个提取策略,将其配置到提取模型中;获取用户的第一指令,基于所述第一指令存储所述模型。通过本发明的方法,不需要重新开发提取程序,通过设计和配置提取参数,就能够精确、快速地提取电子文档中指定关键字段的内容,实现非结构化电子文档的结构化存储,最大程度的节约了设备的处理能力。
Description
技术领域
本发明实施例涉及信息处理技术领域,特别涉及一种提取电子文档关键信息的方法及装置。
背景技术
随着无纸化办公应用越来越广泛,对电子文档内容进行提取和检索的需求也日渐凸出,例如,当需要将电子文档内容并入关系数据库,或者,电子文档的部分内容需要和信息系统对接时,就需要将把电子文档中的关键信息提取出来,并进行结构化存储。
现有技术中,针对电子文档提取关键信息主要采用以下两种方式:1、使用文档抽取工具ETL,将电子文档中的内容以单个字符串的方式提取到数据库中;2、使用程序提取,通过编程的方式从电子文档中提取文本。上述方式1中,笼统地提取所有文字信息,再从中筛选得到所需要的信息,所提取出来的信息冗杂、多余,且不必要地浪费了设备的处理能力,不能精确、快速地提取电子文档中指定关键字段的内容,而方式2则需要对每一种电子文档类型或样式单独研发程序,当针对特定电子文档的类型或样式发生变化时,也需要重新研发程序,带来了额外的开发负担。此外,上述两种方式中均未涉及到如何在多个装置之间共享、同步电子文档提取模型,不利于提取模型的统一化。
综上,如何在不需要开发的前提下即可精确、快速地提取电子文档中指定关键字段的内容,最大程度的节约设备的处理能力,如何满足电子文档更新后的提取需求,以及如何在多个装置之间共享、同步电子文档提取模型,成为了亟需解决的问题。
发明内容
针对现有技术中的问题,本发明提供一种提取电子文档关键信息的方法及装置。
本发明提供一种提取电子文档关键信息的方法,所述方法包括:
S101,获取待提取关键信息的电子文档;
S102,标注所述电子文档的关键特征,识别所述的电子文档中表格的至少一个属性;
S103,基于所述关键特征和所述表格的至少一个属性,判断是否存在与所述电子文档对应的提取模型,如果是,执行S104,否则,执行步骤S105;
S104,加载所述提取模型,基于所述提取模型提取所述电子文档的关键信息;
S105,进入模型构建流程,基于模型构建流程所构建的模型,输出电子文档的关键信息;
S106,获取用户的第一指令,基于所述第一指令存储所述模型;
所述步骤S105具体为:
S1051,获取用户标注的所述电子文档的关键特征,提取所述电子文档中表格的至少一个属性,基于所述关键特征和所述表格的至少一个属性,构建提取模型;
S1052,获取用户新建的关键字段名称以及与该关键字段名称对应的至少一个提取策略,将所述关键字段名称和对应的至少一个提取策略配置到提取模型中;
S1053,基于所述提取模型,从所述电子文档中提取关键字段取值,得到所述电子文档的关键信息,输出所述电子文档的关键信息。
优选的,所述步骤S106具体为,获取用户的第一指令,基于所述第一指令存储所述模型,其中,所述第一指令中携带所述提取模型的第一属性,所述第一属性可以为私有模型、有限公有模型、公有模型。若用户的第一指令中携带的第一属性为私有模型,则将所述模型存储在本地,若用户的第一指令中携带的第一属性为有限公有模型,则将所述模型存储在本地后,根据所述第一指令中携带的有限公有范围,向属于所述有限公有范围的其他装置发送所述模型。若用户的第一指令中携带的第一属性为公有模型,则将所述模型存储在本地后,还将其上传到云服务器。
优选的,本发明的方法还包括:
S201,获取更新前电子文档和更新后电子文档;
S202,标注所述更新前电子文档的关键特征,识别所述更新前电子文档中表格的至少一个属性,基于所述关键特征和所述表格的至少一个属性,确定与所述更新前电子文档对应的提取模型;
S203,加载所述提取模型,基于所述提取模型提取所述更新前电子文档的关键信息;
S204,确定所述关键信息在更新后电子文档中的第一位置信息,基于所述第一位置信息更新所述提取模型中的提取策略;
S205,保存所述更新后的提取模型。
优选的,在步骤S205之后,执行步骤206,根据所述提取模型的第一属性,对有限公有范围的其他装置、云服务器中存储的提取策略进行更新。
本发明提供一种提取电子文档关键信息的装置,所述装置包括:
第一获取单元,用于获取待提取关键信息的电子文档;
标注识别单元,用于标注所述电子文档的关键特征,还用于识别所述的电子文档中表格的至少一个属性;
判断单元,用于基于所述关键特征和所述表格的至少一个属性,判断是否存在与所述电子文档对应的提取模型,如果是,触发提取单元,否则,触发模型构建单元;
所述提取单元,用于加载所述提取模型,基于所述提取模型提取所述电子文档的关键信息;
所述模型构建单元,用于执行模型构建流程,基于模型构建流程所构建的模型,输出电子文档的关键信息;
第二获取单元,用于获取用户的第一指令,触发所述模型构建单元。
所述模型构建单元,还用于响应于第二获取单元的触发,基于所述第一指令将所述模型存储到存储单元中;
所述模型构建单元所执行的模型构建流程,具体为:获取用户标注的所述电子文档的关键特征,提取所述电子文档中表格的至少一个属性,基于所述关键特征和所述表格的至少一个属性,构建提取模型;获取用户新建的关键字段名称以及与该关键字段名称对应的至少一个提取策略,将所述关键字段名称和对应的至少一个提取策略配置到提取模型中;基于所述提取模型,从所述电子文档中提取关键字段取值,得到所述电子文档的关键信息,输出所述电子文档的关键信息;
所述存储单元,用于存储提取模型。
优选的,所述第一指令中还携带所述提取模型的第一属性,所述第一属性可以为私有模型、有限公有模型、公有模型。
所述装置还包括:同步单元,用于根据第二获取单元的触发而执行相应操作,具体的,在用户的第一指令中携带的第一属性为有限公有模型时,所述第二获取单元触发所述同步单元根据所述第一指令中携带的有限公有范围,向属于所述有限公有范围的其他装置发送所述模型,在用户的第一指令中携带的第一属性为公有模型时,所述第二获取单元触发所述同步单元将所述模型上传到云服务器。
优选的,所述装置还包括更新单元,用于基于更新前后的电子文档更新提取模型,具体的,获取更新前电子文档和更新后电子文档;标注所述更新前电子文档的关键特征,识别所述更新前电子文档中表格的至少一个属性,基于所述关键特征和所述表格的至少一个属性,确定与所述更新前电子文档对应的提取模型;加载所述提取模型,基于所述提取模型提取所述更新前电子文档的关键信息;确定所述关键信息在更新后电子文档中的第一位置信息,基于所述第一位置信息更新所述提取模型中的提取策略;将所述更新后的提取模型存储在存储单元中,
优选的,所述更新单元,还用于获取所述关键信息对应的关键字段名称在所述更新后电子文档中的第二位置信息,基于所述第一位置信息和第二位置信息更新所述提取模型中的提取策略。
本发明还提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有可在处理器上运行的计算机程序、所述计算机程序在被执行时实现如上所述的方法。
本发明还提供了一种提取电子文档关键信息的装置,包括处理器和存储器,所述存储器中存储有可在处理器上运行的计算机程序,所述计算机程序在被所述处理器执行时实现如上所述的方法。
通过本发明的方法及装置,针对新出现的电子文档类型,不需要重新开发提取程序,通过设计和配置提取参数,就能够精确、快速地提取电子文档中指定关键字段的内容,实现非结构化电子文档的结构化存储,最大程度的节约了设备的处理能力,且模型构建过程简单,功能完善,在模型构建过程中,通过配置过滤策略,提取内容可以根据用户需求进行在线修正。
通过本发明的方法及装置,通过将特定用户构建的提取模型在有限范围内公开或者完全公开,使得构建的模型能够在多个用户之间共享,避免了针对特定类型的电子文档重复构建提取模型。
通过本发明的方法及装置,基于更新前电子文档获取关键信息,并基于该关键信息在更新后电子文档中的位置来对提取模型进行自动地更新,减少了模型更新的工作量。此外,根据电子文档的第一属性,对有限公有范围的其他装置、云服务器中存储的相应提取模型进行同步更新,确保了不同装置间模型的统一性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例中的提取电子文档关键信息的方法。
图2是本发明一个实施例中的基于更新前后电子文档更新模型的方法。
图3是本发明一个实施例中的提取电子文档关键信息的装置。
图4是本发明一个实施例中的基于更新前后电子文档更新模型的装置。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。本发明的实施例以及实施例的具体特征是对本发明实施例技术方案的详细说明,而非对本发明说明书技术方案的限定,在不冲突的情况下,本发明的实施例以及实施例的技术特征可以相互结合。
本发明提供一种提取电子文档关键信息的方法,参见图1,该方法包括如下步骤:
S101,获取待提取关键信息的电子文档;
优选的,获取待提取关键信息的电子文档,可以是通过GUI界面获取用户上传的电子文档,也可以是从第三方系统如信息系统接收电子文档。
S102,标注所述电子文档的关键特征,识别所述的电子文档中表格的至少一个属性;
优选的,所述电子文档的关键特征是所述电子文档所属的电子文档类型中固定不变的内容,例如,电子文档的关键特征可以为调研报告、设备借用申请单等。本发明方法所针对的电子文档中包括至少一个表格,所述表格的至少一个属性是指所述表格特有的特征,基于所述至少一个属性能够区分不同表格,例如,表格的行数、列数等。其中,可采用人工智能程序自动识别所述电子文档中表格的至少一个属性。
S103,基于所述关键特征和所述表格的至少一个属性,判断是否存在与所述电子文档对应的提取模型,如果是,执行S104,否则,执行步骤S105;
优选的,基于电子文档的关键特征和电子文档中表格的至少一个属性能够唯一的确定电子文档对应的提取模型,若在步骤S101之前,已经存在至少一个提取模型,且经过判断,其中包括了步骤S101中获取的电子文档对应的模型,则执行步骤104。若在步骤S101之前,不存在提取模型,或者已有的提取模型中没有与步骤101获取的电子文档对应的提取模型,则执行步骤105。
S104,加载所述提取模型,基于所述提取模型提取所述电子文档的关键信息;
优选的,所述提取模型中包括至少一个关键字段名称、与所述至少一个关键字段名称中的每一个关键字段名称对应的至少一个提取策略。所述提取策略定义了所述电子文档中所述关键字段名称和关键字段取值的相对位置(如上下关系或左右关系)或特定样式,所述提取策略中还可以具体定义关键字段取值相对于关键字段的坐标偏移值。优选的,所述提取模型还可以包括与所述至少一个关键字段名称中的每一个关键字段名称对应的至少一个过滤策略,如表1所示。具体的,优选使用第一提取策略进行提取,若第一提取策略的提取结果不理想或不正确,则继续使用第二提取策略进行提取,以此类推。针对上述至少一个提取策略提取的关键字段取值,使用上述至少一个提取策略进行修正、规范,得到电子文档的关键信息。将所述电子文档的关键信息提供给用户或第三方系统。
表1 提取模型
优选的,基于所述提取模型提取所述电子文档的关键信息,具体为,使用对应的提取策略提取所述至少一个关键字段名称对应的关键字段取值,得到所述电子文档的关键信息。
优选的,在提取到上述至少一个关键字段名称对应的关键字段取值后,使用对应的过滤策略对提取到的关键字段取值进行过滤,得到所述电子文档的关键信息。
S105,进入模型构建流程,基于模型构建流程所构建的模型,输出电子文档的关键信息;
S106,获取用户的第一指令,基于所述第一指令存储所述模型。
优选的,在步骤S105之前,执行步骤S105a,显示提示信息,所述提示信息用于提示用户没有与所述电子文档对应的提取模型,将进入模型构建流程。
优选的,所述步骤S105具体为:
S1051,获取用户标注的所述电子文档的关键特征,提取所述电子文档中表格的至少一个属性,基于所述关键特征和所述表格的至少一个属性,构建提取模型;
S1052,获取用户新建的关键字段名称以及与该关键字段名称对应的至少一个提取策略,将所述关键字段名称和对应的至少一个提取策略配置到提取模型中;
S1053,基于所述提取模型,从所述电子文档中提取关键字段取值,得到所述电子文档的关键信息,输出所述电子文档的关键信息。
优选的,在S1053之后,还执行S1054,获取用户配置的至少一个过滤策略,将所述过滤策略配置到提取模型中,根据所述过滤策略对上述提取到的关键字段取值进行过滤,得到所述电子文档的关键信息,输出所述电子文档的关键信息。
优选的,所述步骤S1053和步骤S1054可以执行至少一次,以配置至少一个关键字段名称以及与该关键字段名称对应的提取策略和过滤策略。
优选的,所述步骤S106具体为,获取用户的第一指令,基于所述第一指令存储所述模型,其中,所述第一指令中携带所述模型的第一属性,所述第一属性可以为私有模型、有限公有模型、公有模型。若用户的第一指令中携带的第一属性为私有模型,则将所述模型存储在本地,若用户的第一指令中携带的第一属性为有限公有模型,则将所述模型存储在本地后,根据所述第一指令中携带的有限公有范围,向属于所述有限公有范围的其他装置发送所述模型。若用户的第一指令中携带的第一属性为公有模型,则将所述模型存储在本地后,还将其上传到云服务器。
优选的,在步骤106之后,还包括步骤107,将S1053或S1054的得到的电子文档的关键信息提供给第三方系统。
优选的,所述步骤S103中基于所述关键特征和所述表格的至少一个属性,判断是否存在与所述电子文档对应的提取模型,具体为:判断本地是否存在与所述电子文档对应的提取模型。其中,所述本地存在的提取模型包括本地创建的提取模型,从云服务器下载的提取模型,从其他装置处接收的第一属性为有限公有或公有的模型。
优选的,所述步骤S103中基于所述关键特征和所述表格的至少一个属性,判断是否存在与所述电子文档对应的提取模型,具体为:判断本地是否存在与所述电子文档对应的提取模型,如果否,则将所述关键特征和所述表格的至少一个属性发送给云服务器,并接收云服务器的响应,如果所述响应为肯定响应,则从云服务器下载相应的提取模型,存储所述提取模型,随后,执行步骤S104,如果所述响应为否定响应,则执行步骤S105。
优选的,所述提取策略可以为以下一种或多种:上下结构提取策略、下上结构提取策略、右左结构提取策略、左右结构提取策略、行提取提取策略、列提取提取策略、key/value同框提取策略、表格提取策略、全文搜索提取策略等。
优选的,所述过滤策略可以为以下一种或多种:正则表达式过滤、边界词过滤、屏蔽词过滤、字典过滤等。
本发明的上述方法,针对新出现的电子文档类型,不需要重新开发提取程序,通过设计和配置提取参数,就能够精确、快速地提取电子文档中指定关键字段的内容,实现非结构化电子文档的结构化存储,最大程度的节约了设备的处理能力,且模型构建过程简单,功能完善,在模型构建过程中,通过配置过滤策略,提取内容可以根据用户需求进行在线修正。
此外,本发明的上述方法,通过将特定用户构建的提取模型在有限范围内公开或者完全公开,使得构建的模型能够在多个用户之间共享,避免了针对特定类型的电子文档重复构建提取模型。
在创建的提取模型并使用一段时间之后,电子文档可能会进行修改,例如,修改其中表格的样式,针对此种情况,本发明还提供一种基于更新前后电子文档更新模型的方法,参见图2,包括如下步骤:
S201,获取更新前电子文档和更新后电子文档;
S202,标注所述更新前电子文档的关键特征,识别所述更新前电子文档中表格的至少一个属性,基于所述关键特征和所述表格的至少一个属性,确定与所述更新前电子文档对应的提取模型;
S203,加载所述提取模型,基于所述提取模型提取所述更新前电子文档的关键信息;
S204,确定所述关键信息在更新后电子文档中的第一位置信息,基于所述第一位置信息更新所述提取模型中的提取策略;
S205,保存所述更新后的提取模型。
优选的,确定与所述更新前电子文档对应的提取模型,具体为,确定本地存在的与所述更新前电子文档对应的提取模型。
优选的,步骤204中,还获取所述关键信息对应的关键字段名称在所述更新后电子文档中的第二位置信息,基于所述第一位置信息和第二位置信息更新所述提取模型中的提取策略。
优选的,在步骤S205之后,执行步骤206,根据所述提取模型的第一属性,对有限公有范围的其他装置、云服务器中存储的提取策略进行更新。
通过上述方法,基于更新前电子文档获取关键信息,并基于该关键信息在更新后电子文档中的位置来对提取模型进行自动地更新,减少了模型更新的工作量。此外,根据电子文档的第一属性,对有限公有范围的其他装置、云服务器中存储的相应提取模型进行同步更新,确保了不同装置间模型的统一性。
本发明还提供一种提取电子文档关键信息的装置,参见图3,所述装置包括:
第一获取单元,用于获取待提取关键信息的电子文档;
标注识别单元,用于标注所述电子文档的关键特征,还用于识别所述的电子文档中表格的至少一个属性;
判断单元,用于基于所述关键特征和所述表格的至少一个属性,判断是否存在与所述电子文档对应的提取模型,如果是,触发提取单元,否则,触发模型构建单元;
所述提取单元,用于加载所述提取模型,基于所述提取模型提取所述电子文档的关键信息;
所述模型构建单元,用于执行模型构建流程,基于模型构建流程所构建的模型,输出电子文档的关键信息;
第二获取单元,用于获取用户的第一指令,触发所述模型构建单元。
所述模型构建单元,还用于响应于第二获取单元的触发,基于所述第一指令将所述模型存储到存储单元中;
所述模型构建单元所执行的模型构建流程,具体为:获取用户标注的所述电子文档的关键特征,提取所述电子文档中表格的至少一个属性,基于所述关键特征和所述表格的至少一个属性,构建提取模型;获取用户新建的关键字段名称以及与该关键字段名称对应的至少一个提取策略,将所述关键字段名称和对应的至少一个提取策略配置到提取模型中;基于所述提取模型,从所述电子文档中提取关键字段取值,得到所述电子文档的关键信息,输出所述电子文档的关键信息。
所述存储单元,用于存储提取模型。
优选的,所述存储单元存储的提取模型包括至少一个关键字段名称、与所述至少一个关键字段名称中的每一个关键字段名称对应的至少一个提取策略;所述提取单元所执行的基于所述提取模型提取所述电子文档的关键信息,具体为,所述提取单元使用对应的提取策略提取所述至少一个关键字段名称对应的关键字段取值,得到所述电子文档的关键信息。
优选的,所述提取模型还包括与所述至少一个关键字段名称中的每一个关键字段名称对应的至少一个过滤策略;所述提取单元所执行的基于所述提取模型提取所述电子文档的关键信息,具体为,所述提取单元使用对应的提取策略提取所述至少一个关键字段名称对应的关键字段取值,使用对应的过滤策略对提取到的关键字段取值进行过滤,得到所述电子文档的关键信息。
优选的,所述装置还包括:显示单元,用于接收并显示模型构建单元输出的电子文档的关键信息,以用于用户判断所述电子文档的关键信息是否满足其要求。
所述判断单元在判断出不存在与所述电子文档对应的提取模型时,还触发所述显示单元显示提示信息,所述提示信息用于提示用户没有与所述电子文档对应的提取模型,将进入模型构建流程。
优选的,所述模型构建单元所执行的模型构建流程还包括:获取用户配置的至少一个过滤策略,将所述过滤策略配置到提取模型中,根据所述过滤策略对上述提取到的关键字段取值进行过滤,得到所述电子文档的关键信息,输出所述电子文档的关键信息。所述显示单元,还用于接收并显示模型构建单元输出的所述提取到的关键字段取值。
优选的,所述模型构建流程中,获取用户新建的关键字段名称以及与该关键字段名称对应的至少一个提取策略并将所述关键字段名称和对应的至少一个提取策略配置到提取模型中、获取用户配置的至少一个过滤策略,将所述过滤策略配置到提取模型中可以执行至少一次,以配置至少一个关键字段名称以及与该关键字段名称对应的提取策略和过滤策略。
优选的,所述第一指令中还携带所述模型的第一属性,所述第一属性可以为私有模型、有限公有模型、公有模型。
所述装置还包括:同步单元,用于根据第二获取单元的触发而执行相应操作,具体的,在用户的第一指令中携带的第一属性为有限公有模型时,所述第二获取单元触发所述同步单元根据所述第一指令中携带的有限公有范围,向属于所述有限公有范围的其他装置发送所述模型。在用户的第一指令中携带的第一属性为公有模型时,所述第二获取单元触发所述同步单元将所述模型上传到云服务器。
优选的,所述判断单元,判断是否存在与所述电子文档对应的提取模型,具体为:判断本地是否存在与所述电子文档对应的提取模型。其中,所述本地存在的提取模型包括本地创建的提取模型,从云服务器下载的提取模型,从其他装置处接收的属性为有限公有的模型。
优选的,所述判断单元,判断是否存在与所述电子文档对应的提取模型,具体为:判断本地是否存在与所述电子文档对应的提取模型,如果否,则将所述关键特征和所述至少一个属性发送给云服务器,并接收云服务器的响应,如果所述响应为肯定响应,则从云服务器下载相应的提取模型,存储所述提取模型,随后,触发提取单元,如果所述响应为否定响应,则触发模型构建单元。
优选的,所述提取策略可以为以下一种或多种:上下结构提取策略、下上结构提取策略、右左结构提取策略、左右结构提取策略、行提取提取策略、列提取提取策略、key/value同框提取策略、表格提取策略、全文搜索提取策略等。
优选的,所述过滤策略可以为以下一种或多种:正则表达式过滤、边界词过滤、屏蔽词过滤、字典过滤等。
优选的,所述装置还包括:字典管理单元,用于管理字典过滤策略中所需要的业务字典。
优选的,所述装置还包括发送单元,用于将提取单元得到的电子文档的关键信息发送给第三方系统,将模型构建单元得到的电子文档的关键信息发送给第三方系统。
本发明还提供一种基于更新前后电子文档更新提取模型的装置,参见图4,所述装置包括:存储单元和更新单元,所述存储单元,用于存储提取模型;所述更新单元,用于基于更新前后的电子文档更新提取模型,具体的,获取更新前电子文档和更新后电子文档;标注所述更新前电子文档的关键特征,识别所述更新前电子文档中表格的至少一个属性,基于所述关键特征和所述表格的至少一个属性,确定与所述更新前电子文档对应的提取模型;加载所述提取模型,基于所述提取模型提取所述更新前电子文档的关键信息;确定所述关键信息在更新后电子文档中的第一位置信息,基于所述第一位置信息更新所述提取模型中的提取策略;将所述更新后的提取模型存储在存储单元中。
所述更新单元具体包括:
第三获取单元,获取更新前电子文档和更新后电子文档;
待更新提取模型确定单元,用于标注所述更新前电子文档的关键特征,识别所述更新前电子文档中表格的至少一个属性,基于所述关键特征和所述表格的至少一个属性,确定与所述更新前电子文档对应的提取模型;
更新执行单元,用于加载所述提取模型,基于所述提取模型提取所述更新前电子文档的关键信息,确定所述关键信息在更新后电子文档中的第一位置信息,基于所述第一位置信息更新所述提取模型中的提取策略,将所述更新后的提取模型存储在存储单元中。
优选的,所述更新执行单元,还用于获取所述关键信息对应的关键字段名称在所述更新后电子文档中的第二位置信息,基于所述第一位置信息和第二位置信息更新所述提取模型中的提取策略。
优选的,所述装置还包括同步单元,所述更新执行单元还用于触发所述同步单元,以使得所述同步单元根据所述提取模型的第一属性,对有限公有范围的其他装置、云服务器中存储的提取策略进行更新。
优选的,提取电子文档关键信息的装置包括所述基于更新前后电子文档更新提取模型的装置,其中,提取电子文档关键信息的装置中包括的存储单元与基于更新前后电子文档更新提取模型的装置中包括的存储单元为同一个单元,提取电子文档关键信息的装置中包括的同步单元与基于更新前后电子文档更新提取模型的装置中包括的同步单元为同一个单元。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有可在处理器上运行的计算机程序、所述计算机程序在被执行时实现如上所述的方法。
本发明还提供一种提取电子文档关键信息的装置,包括处理器和存储器,所述存储器中存储有可在处理器上运行的计算机程序,所述计算机程序在被所述处理器执行时实现如上所述的方法。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质可以包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、闪存、可擦式可编程只读存储器(EPROM)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码。
以上说明只是为了方便理解本发明而举出的例子,不用于限定本发明的范围。在具体实现时,本领域技术人员可以根据实际情况对装置的部件进行变更、增加、减少,在不影响方法所实现的功能的基础上可以根据实际情况对方法的步骤进行变更、增加、减少或改变顺序。
尽管已经示出和描述了本发明的实施例,本领域技术人员应当理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同替换所限定,在未经创造性劳动所作的改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种提取电子文档关键信息的方法,其特征在于,所述方法包括:
S101,获取待提取关键信息的电子文档;
S102,标注所述电子文档的关键特征,识别所述的电子文档中表格的至少一个属性;
S103,基于所述关键特征和所述表格的至少一个属性,判断是否存在与所述电子文档对应的提取模型,如果是,执行S104,否则,执行步骤S105;
S104,加载所述提取模型,基于所述提取模型提取所述电子文档的关键信息;
S105,进入模型构建流程,基于模型构建流程所构建的模型,输出电子文档的关键信息;
S106,获取用户的第一指令,基于所述第一指令存储所述模型;
所述步骤S105具体为:
S1051,获取用户标注的所述电子文档的关键特征,提取所述电子文档中表格的至少一个属性,基于所述关键特征和所述表格的至少一个属性,构建提取模型;
S1052,获取用户新建的关键字段名称以及与该关键字段名称对应的至少一个提取策略,将所述关键字段名称和对应的至少一个提取策略配置到提取模型中;
S1053,基于所述提取模型,从所述电子文档中提取关键字段取值,得到所述电子文档的关键信息,输出所述电子文档的关键信息。
2.根据权利要求1所述的方法,其特征在于,所述提取模型中包括至少一个关键字段名称、与所述至少一个关键字段名称中的每一个关键字段名称对应的至少一个提取策略;所述S104中的基于所述提取模型提取所述电子文档的关键信息,具体为,使用对应的提取策略提取所述至少一个关键字段名称对应的关键字段取值,得到所述电子文档的关键信息。
3.根据权利要求2所述的方法,其特征在于,所述提取模型还包括与所述至少一个关键字段名称中的每一个关键字段名称对应的至少一个过滤策略;所述S104中的基于所述提取模型提取所述电子文档的关键信息,具体为,使用对应的提取策略提取所述至少一个关键字段名称对应的关键字段取值,使用对应的过滤策略对提取到的关键字段取值进行过滤,得到所述电子文档的关键信息。
4.根据权利要求1所述的方法,其特征在于,在S1053之后,还执行S1054,获取用户配置的至少一个过滤策略,将所述过滤策略配置到提取模型中,根据所述过滤策略对上述提取到的关键字段取值进行过滤,得到所述电子文档的关键信息,输出所述电子文档的关键信息。
5.一种提取电子文档关键信息的装置,其特征在于,所述装置包括:
第一获取单元,用于获取待提取关键信息的电子文档;
标注识别单元,用于标注所述电子文档的关键特征,还用于识别所述的电子文档中表格的至少一个属性;
判断单元,用于基于所述关键特征和所述表格的至少一个属性,判断是否存在与所述电子文档对应的提取模型,如果是,触发提取单元,否则,触发模型构建单元;
所述提取单元,用于加载所述提取模型,基于所述提取模型提取所述电子文档的关键信息;
所述模型构建单元,用于执行模型构建流程,基于模型构建流程所构建的模型,输出电子文档的关键信息;
第二获取单元,用于获取用户的第一指令,触发所述模型构建单元;
所述模型构建单元,还用于响应于第二获取单元的触发,基于所述第一指令将所述模型存储到存储单元中;
所述模型构建单元所执行的模型构建流程,具体为:获取用户标注的所述电子文档的关键特征,提取所述电子文档中表格的至少一个属性,基于所述关键特征和所述表格的至少一个属性,构建提取模型;获取用户新建的关键字段名称以及与该关键字段名称对应的至少一个提取策略,将所述关键字段名称和对应的至少一个提取策略配置到提取模型中;基于所述提取模型,从所述电子文档中提取关键字段取值,得到所述电子文档的关键信息,输出所述电子文档的关键信息;
所述存储单元,用于存储提取模型。
6.根据权利要求5所述的装置,其特征在于,所述存储单元存储的提取模型包括至少一个关键字段名称、与所述至少一个关键字段名称中的每一个关键字段名称对应的至少一个提取策略;所述提取单元所执行的基于所述提取模型提取所述电子文档的关键信息,具体为,所述提取单元使用对应的提取策略提取所述至少一个关键字段名称对应的关键字段取值,得到所述电子文档的关键信息。
7.根据权利要求6所述的装置,其特征在于,所述提取模型还包括与所述至少一个关键字段名称中的每一个关键字段名称对应的至少一个过滤策略;所述提取单元所执行的基于所述提取模型提取所述电子文档的关键信息,具体为,所述提取单元使用对应的提取策略提取所述至少一个关键字段名称对应的关键字段取值,使用对应的过滤策略对提取到的关键字段取值进行过滤,得到所述电子文档的关键信息。
8.根据权利要求5所述的装置,其特征在于,所述模型构建单元所执行的模型构建流程还包括:获取用户配置的至少一个过滤策略,将所述过滤策略配置到提取模型中,根据所述过滤策略对上述提取到的关键字段取值进行过滤,得到所述电子文档的关键信息,输出所述电子文档的关键信息。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有可在处理器上运行的计算机程序、所述计算机程序在被执行时实现如权利要求1至4任一项所述的方法。
10.一种提取电子文档关键信息的装置,包括处理器和存储器,所述存储器中存储有可在处理器上运行的计算机程序,所述计算机程序在被所述处理器执行时实现如权利要求1至4任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010276725.9A CN111506588A (zh) | 2020-04-10 | 2020-04-10 | 一种提取电子文档关键信息的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010276725.9A CN111506588A (zh) | 2020-04-10 | 2020-04-10 | 一种提取电子文档关键信息的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111506588A true CN111506588A (zh) | 2020-08-07 |
Family
ID=71874637
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010276725.9A Pending CN111506588A (zh) | 2020-04-10 | 2020-04-10 | 一种提取电子文档关键信息的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111506588A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114692383A (zh) * | 2021-11-16 | 2022-07-01 | 国家电投集团科学技术研究院有限公司 | 全范围模拟机仿真对象的建模方法、装置及计算机设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1808424A (zh) * | 2005-01-21 | 2006-07-26 | 北京软件产品质量检测检验中心 | 一种从文档中提取关键信息的方法 |
CN101221530A (zh) * | 2008-01-22 | 2008-07-16 | 中兴通讯股份有限公司 | 一种测试用例自动导入方法 |
CN104217036A (zh) * | 2014-10-08 | 2014-12-17 | 广州华多网络科技有限公司 | 一种网页内容提取方法和设备 |
US20160117303A1 (en) * | 2014-10-22 | 2016-04-28 | Accenture Global Services Limited | Electronic document system |
US20170169103A1 (en) * | 2015-12-10 | 2017-06-15 | Agile Data Decisions LLC | Method and system for extracting, verifying and cataloging technical information from unstructured documents |
CN107368592A (zh) * | 2017-07-26 | 2017-11-21 | 成都科来软件有限公司 | 一种用于网络安全报告的文本特征模型建模方法及装置 |
CN107562707A (zh) * | 2017-08-31 | 2018-01-09 | 湖北灰科信息技术有限公司 | 电子取证方法及装置 |
CN110163257A (zh) * | 2019-04-23 | 2019-08-23 | 百度在线网络技术(北京)有限公司 | 抽取结构化信息的方法、装置、设备和计算机存储介质 |
CN110888965A (zh) * | 2019-10-22 | 2020-03-17 | 深圳市迪博企业风险管理技术有限公司 | 一种文档数据提取方法及装置 |
-
2020
- 2020-04-10 CN CN202010276725.9A patent/CN111506588A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1808424A (zh) * | 2005-01-21 | 2006-07-26 | 北京软件产品质量检测检验中心 | 一种从文档中提取关键信息的方法 |
CN101221530A (zh) * | 2008-01-22 | 2008-07-16 | 中兴通讯股份有限公司 | 一种测试用例自动导入方法 |
CN104217036A (zh) * | 2014-10-08 | 2014-12-17 | 广州华多网络科技有限公司 | 一种网页内容提取方法和设备 |
US20160117303A1 (en) * | 2014-10-22 | 2016-04-28 | Accenture Global Services Limited | Electronic document system |
US20170169103A1 (en) * | 2015-12-10 | 2017-06-15 | Agile Data Decisions LLC | Method and system for extracting, verifying and cataloging technical information from unstructured documents |
CN107368592A (zh) * | 2017-07-26 | 2017-11-21 | 成都科来软件有限公司 | 一种用于网络安全报告的文本特征模型建模方法及装置 |
CN107562707A (zh) * | 2017-08-31 | 2018-01-09 | 湖北灰科信息技术有限公司 | 电子取证方法及装置 |
CN110163257A (zh) * | 2019-04-23 | 2019-08-23 | 百度在线网络技术(北京)有限公司 | 抽取结构化信息的方法、装置、设备和计算机存储介质 |
CN110888965A (zh) * | 2019-10-22 | 2020-03-17 | 深圳市迪博企业风险管理技术有限公司 | 一种文档数据提取方法及装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114692383A (zh) * | 2021-11-16 | 2022-07-01 | 国家电投集团科学技术研究院有限公司 | 全范围模拟机仿真对象的建模方法、装置及计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9977672B2 (en) | Attributing authorship to segments of source code | |
CN109145047B (zh) | 用户标签画像的配置方法、数据处理装置及存储介质 | |
CN108536745B (zh) | 基于Shell的数据表提取方法、终端、设备及存储介质 | |
CN106874281B (zh) | 实现数据库读写分离的方法和装置 | |
CN108205560B (zh) | 一种数据同步方法以及装置 | |
US20150154243A1 (en) | Incremental schema consistency validation on geographic features | |
CN109739828B (zh) | 一种数据处理方法、设备及计算机可读存储介质 | |
CN110580284B (zh) | 一种实体消歧方法、装置、计算机设备及存储介质 | |
CN112084270A (zh) | 一种数据血缘处理方法、装置、存储介质及设备 | |
CN113434557B (zh) | 一种标签数据的范围查询方法、装置、设备及存储介质 | |
JPH07244605A (ja) | データベースシステム及びその更新方法 | |
CN113010476B (zh) | 元数据查找方法、装置、设备及计算机可读存储介质 | |
CN106648679A (zh) | 一种结构化数据的版本管理方法 | |
JP2018136939A (ja) | 更新データ別の最適クエリ文を生成するスプレッドシートに基づいたデータベースの更新方法 | |
CN110799961A (zh) | 在数据库中创建和删除租户的系统和方法 | |
CN110442585B (zh) | 数据更新方法、数据更新装置、计算机设备及存储介质 | |
CN109815240A (zh) | 用于管理索引的方法、装置、设备和存储介质 | |
CN106354775A (zh) | 一种基于自定义字段的数据动态配置系统及配置方法 | |
CN112463986A (zh) | 信息存储的方法及装置 | |
CN105426128A (zh) | 一种索引的维护方法及装置 | |
CN111506588A (zh) | 一种提取电子文档关键信息的方法及装置 | |
CN113553458A (zh) | 图数据库中的数据导出方法及装置 | |
CN107943912A (zh) | 一种响应式资源目录数据可视化管理方法、终端及装置 | |
CN110851543A (zh) | 一种数据建模的方法、装置、设备以及存储介质 | |
CN110659281A (zh) | 基于Hive的数据处理方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |