CN114861641B - 一种数据提取方法、装置、电子设备和存储介质 - Google Patents
一种数据提取方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN114861641B CN114861641B CN202210780916.8A CN202210780916A CN114861641B CN 114861641 B CN114861641 B CN 114861641B CN 202210780916 A CN202210780916 A CN 202210780916A CN 114861641 B CN114861641 B CN 114861641B
- Authority
- CN
- China
- Prior art keywords
- natural
- content
- article
- segment
- title
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Abstract
本申请提供了一种数据提取方法、装置、电子设备和存储介质,包括:依次对接收到待解析文章中的每个自然段进行第一排序;针对标题自然段在待解析文章中的位置、标题内容,确定各标题自然段之间的第一层级关系,并确定标题自然段与内容自然段之间的第二层级关系;根据标点符号将每个内容自然段中拆解为短语,并分别对短语、由短语组成的句子进行第二排序和第三排序;基于第一排序、第二排序、第三排序、第一层级关系、第二层级关系,构建结构化解析内容;根据为待解析文章的文章类别预设的提取格式,从结构化解析内容中提取出目标数据,以在显示终端展示目标数据或导出为目标文件格式。通过上述方法,有助于提高特殊领域文章的内容提取精度。
Description
技术领域
本申请涉及数据提取技术领域,具体而言,涉及一种数据提取方法、装置、电子设备和存储介质。
背景技术
数据提取指根据一定的目的,从原始文献中摘录所需要的信息,以作进一步存储、换算和分析的过程。
发明人在研究中发现,现有技术中是依靠训练模型完成对内容的通用识别和提取,需要将文章内容统一标注作为训练集和数据集对模型进行训练,能够实现机器对特定内容的识别和提取。
这就使得针对工作报告文件这种特殊领域的文章,由于每年都会新增内容,容易由于训练样本未及时标注和更新造成训练模型更新较慢,进而导致无法保证数据提取的精度。
发明内容
有鉴于此,本申请实施例提供了一种数据提取方法、装置、电子设备和存储介质,以提高特殊领域文章的内容提取精度。
第一方面,本申请实施例提供了一种数据提取方法,所述方法包括:
基于接收到的待解析文章中的每个自然段在所述待解析文章中的位置,依次对每个所述自然段进行第一排序;所述自然段包括标题自然段和内容自然段;
针对每个所述标题自然段,基于各所述标题自然段在所述待解析文章中的位置、所述标题自然段中的标题内容,确定各所述标题自然段之间的第一层级关系,以及基于所述标题自然段与所述内容自然段之间的位置关系确定所述标题自然段与所述内容自然段之间的第二层级关系;
针对每个所述内容自然段,根据所述内容自然段中的每个标点符号将所述内容自然段拆解为至少一个短语,并在所述内容自然段中分别对所述短语、由至少一个短语组成的句子进行第二排序和第三排序;
基于所述第一排序、所述第二排序、所述第三排序、所述第一层级关系、所述第二层级关系,构建结构化解析内容;所述结构化解析内容中包含每个存储元素、归属文件名、归属副标题、所述存储元素所在目标自然段的第一排序、所述存储元素的第二顺序、所述存储元素所属句子的第三顺序、所述目标自然段的级别、基于所述级别确定的所述目标自然段的上级和下级、所述存储元素在所述待解析文章中对应的原始语句,所述存储元素为所述短语/所述标题内容,所述目标自然段的级别是根据所述第一层级关系确定的;
确定所述待解析文章归属的文章类别,基于为所述文章类别预设的提取格式,从所述结构化解析内容中提取出目标数据并发送到显示终端,以在所述显示终端显示。
在一个可行的实施方案中,在基于所述待解析文章中的每个自然段在所述待解析文章中的位置,依次对每个所述自然段进行第一排序之前,还包括:
针对每个预先指定的自然段,当判断所述自然段中存在满足预设标题格式的内容时,将所述自然段拆分为第一自然段和第二自然段;所述第一自然段中的标题内容为所述内容;
当所述内容中未携带有可识别的顺序标识时,为该内容添加特定标识;
将所述待解析文章中的第一自然段、预先识别出的第三自然段确定为所述标题自然段,以及将所述待解析文章中除所述标题自然段的其他自然段确定为内容自然段;所述第三自然段中携带有可识别的顺序标识;所述内容自然段包括所述第二自然段。
在一个可行的实施方案中,在为该内容添加特定标识之后,还包括:
根据每个所述标题自然段携带的标识,将具有相同格式的标识的标题自然段划分到同一分组;所述标识包括所述顺序标识和所述特定标识;所述分组中包括所述标题自然段在所述第一排序时确定的段落号;
基于所述标题自然段在所述待解析文章的目录中的层级,确定所述第一层级关系,并基于所述第一层级关系确定各分组包含的标题自然段的级别;所述目录包含所述标识以及所述标识代表的标题自然段在所述待解析文章中的位置。
在一个可行的实施方案中,在构建结构化解析内容后,还包括:
向显示终端发送显示所述结构化解析内容第一显示指令,以在所述显示终端显示所述结构化解析内容;
响应所述显示终端的内容查找指令,针对所述内容查找指令中的目标命令以及为该目标命令指定的段落号,向所述显示终端发送用于显示所述目标命令对应的目标内容的第二显示指令,以在所述显示终端显示所述目标内容;所述段落号在对所述自然段进行所述第一排序后得到的;每个段落号用于唯一对应一个所述自然段;所述目标命令包括获取上级内容、获取下级内容、获取与该指定的段落号属于同一标题自然段的段落号。
在一个可行的实施方案中,在所述显示终端显示所述结构化解析内容后,还包括:
响应于所述显示终端发送的用于修改所述结构化解析内容的第一修改指令,对所述结构化解析内容进行修改,并将修改后的结构化解析内容发送给所述显示终端,以在所述显示终端进行显示;所述第一修改指令包括:将指定句子设置为标题、为指定内容自然段添加自定义标题、为指定内容设置删除标识。
在一个可行的实施方案中,所述文章类别包括工作报告、会议内容和工作分工意见;所述目标数据中包括原始语句、根据所述第一排序确定的原始语句所属的自然段的段落号、自然段的上下级关系;所述上下级关系是基于所述级别确定的;
基于为所述文章类别预设的提取格式,从所述结构化解析内容中提取出目标数据,包括:
当所述待解析文章的文章类别为所述工作报告时,从所述结构化解析数据中提取出用于描述工作任务的第一数据,并根据所述第一数据、所述第一数据对应的目标自然段确定所述目标数据;
当所述待解析文章的文章类别为所述会议内容时,从所述结构化解析数据中提取出用于描述会议关键点的第二数据,并根据所述第二数据、所述第二数据对应的自然段确定所述目标数据;所述会议关键点是根据所述会议内容中可识别的顺序标号确定的;
当所述待解析文章的文章类别为所述工作分工意见时,从所述结构化解析数据中提取出包含为每个执行部门安排的待执行任务的第三数据,以根据所述第三数据、所述第三数据对应的自然段确定所述目标数据。
在一个可行的实施方案中,当所述文章类别为所述工作报告时,所述方法还包括:
基于预先设定的每个部门的职责、该部门的负责人,为所述目标数据中的每个工作任务确定任务主管、承担部门、该承担部门的负责人,并生成包含每个工作任务的督查任务;所述任务主管是从预先存储的主管名单中确定的用于督查所述工作任务完成情况的督查人员;
向显示终端发送用于显示所述督查任务的第三显示指令,以在所述显示终端显示所述督查任务;
响应于所述显示终端发送的用于修改的所述督查任务的第二修改指令,针对所述第二修改指令中的修改命令对所述督查任务进行修改,并将修改后的所述督查任务发送到所述显示终端进行显示;所述修改命令包括:修改所述工作任务,和/或所述任务主管,和/或所述承担部门,和/或所述承担部门的负责人。
第二方面,本申请实施例还提供了一种数据提取装置,所述装置包括:
第一排序单元,用于基于接收到的待解析文章中的每个自然段在所述待解析文章中的位置,依次对每个所述自然段进行第一排序;所述自然段包括标题自然段和内容自然段;
关系确定单元,用于针对每个所述标题自然段,基于各所述标题自然段在所述待解析文章中的位置、所述标题自然段中的标题内容,确定各所述标题自然段之间的第一层级关系,以及基于所述标题自然段与所述内容自然段之间的位置关系确定所述标题自然段与所述内容自然段之间的第二层级关系;
第二排序单元,用于针对每个所述内容自然段,根据所述内容自然段中的每个标点符号将所述内容自然段拆解为至少一个短语,并在所述内容自然段中分别对所述短语、由至少一个短语组成的句子进行第二排序和第三排序;
内容构建单元,用于基于所述第一排序、所述第二排序、所述第三排序、所述第一层级关系、所述第二层级关系,构建结构化解析内容;所述结构化解析内容中包含每个存储元素、归属文件名、归属副标题、所述存储元素所在目标自然段的第一排序、所述存储元素的第二顺序、所述存储元素所属句子的第三顺序、所述目标自然段的级别、基于所述级别确定的所述目标自然段的上级和下级、所述存储元素在所述待解析文章中对应的原始语句,所述存储元素为所述短语/所述标题内容,所述目标自然段的级别是根据所述第一层级关系确定的;
数据提取单元,用于确定所述待解析文章归属的文章类别,基于为所述文章类别预设的提取格式,从所述结构化解析内容中提取出目标数据并发送到显示终端,以在所述显示终端显示。
在一个可行的实施方案中,所述装置还包括:
段落拆分单元,用于在基于所述待解析文章中的每个自然段在所述待解析文章中的位置,依次对每个所述自然段进行第一排序之前,针对每个预先指定的自然段,当判断所述自然段中存在满足预设标题格式的内容时,将所述自然段拆分为第一自然段和第二自然段;所述第一自然段中的标题内容为所述内容;
标识添加单元,用于当所述内容中未携带有可识别的顺序标识时,为该内容添加特定标识;
段落分类单元,用于将所述待解析文章中的第一自然段、预先识别出的第三自然段确定为所述标题自然段,以及将所述待解析文章中除所述标题自然段的其他自然段确定为内容自然段;所述第三自然段中携带有可识别的顺序标识;所述内容自然段包括所述第二自然段。
在一个可行的实施方案中,所述装置还包括:
分组单元,用于在为该内容添加特定标识之后,根据每个所述标题自然段携带的标识,将具有相同格式的标识的标题自然段划分到同一分组;所述标识包括所述顺序标识和所述特定标识;所述分组中包括所述标题自然段在所述第一排序时确定的段落号;
层级确定单元,用于基于所述标题自然段在所述待解析文章的目录中的层级,确定所述第一层级关系,并基于所述第一层级关系确定各分组包含的标题自然段的级别;所述目录包含所述标识以及所述标识代表的标题自然段在所述待解析文章中的位置。
在一个可行的实施方案中,所述装置还包括:
第一显示单元,用于在构建结构化解析内容后,向显示终端发送显示所述结构化解析内容第一显示指令,以在所述显示终端显示所述结构化解析内容;
第一响应单元,用于响应所述显示终端的内容查找指令,针对所述内容查找指令中的目标命令以及为该目标命令指定的段落号,向所述显示终端发送用于显示所述目标命令对应的目标内容的第二显示指令,以在所述显示终端显示所述目标内容;所述段落号在对所述自然段进行所述第一排序后得到的;每个段落号用于唯一对应一个所述自然段;所述目标命令包括获取上级内容、获取下级内容、获取与该指定的段落号属于同一标题自然段的段落号。
在一个可行的实施方案中,所述装置还包括:
第二响应单元,用于在所述显示终端显示所述结构化解析内容后,响应于所述显示终端发送的用于修改所述结构化解析内容的第一修改指令,对所述结构化解析内容进行修改,并将修改后的结构化解析内容发送给所述显示终端,以在所述显示终端进行显示;所述第一修改指令包括:将指定句子设置为标题、为指定内容自然段添加自定义标题、为指定内容设置删除标识。
在一个可行的实施方案中,所述文章类别包括工作报告、会议内容和工作分工意见;所述目标数据中包括原始语句、根据所述第一排序确定的原始语句所属的自然段的段落号、自然段的上下级关系;所述上下级关系是基于所述级别确定的;
所述数据提取单元用于:
当所述待解析文章的文章类别为所述工作报告时,从所述结构化解析数据中提取出用于描述工作任务的第一数据,并根据所述第一数据、所述第一数据对应的目标自然段确定所述目标数据;
当所述待解析文章的文章类别为所述会议内容时,从所述结构化解析数据中提取出用于描述会议关键点的第二数据,并根据所述第二数据、所述第二数据对应的自然段确定所述目标数据;所述会议关键点是根据所述会议内容中可识别的顺序标号确定的;
当所述待解析文章的文章类别为所述工作分工意见时,从所述结构化解析数据中提取出包含为每个执行部门安排的待执行任务的第三数据,以根据所述第三数据、所述第三数据对应的自然段确定所述目标数据。
在一个可行的实施方案中,所述装置还包括:
任务生成单元,用于当所述文章类别为所述工作报告时,基于预先设定的每个部门的职责、该部门的负责人,为所述目标数据中的每个工作任务确定任务主管、承担部门、该承担部门的负责人,并生成包含每个工作任务的督查任务;所述任务主管是从预先存储的主管名单中确定的用于督查所述工作任务完成情况的督查人员;
发送单元,用于向显示终端发送用于显示所述督查任务的第三显示指令,以在所述显示终端显示所述督查任务;
第三响应单元,用于响应于所述显示终端发送的用于修改的所述督查任务的第二修改指令,针对所述第二修改指令中的修改命令对所述督查任务进行修改,并将修改后的所述督查任务发送到所述显示终端进行显示;所述修改命令包括:修改所述工作任务,和/或所述任务主管,和/或所述承担部门,和/或所述承担部门的负责人。
第三方面,本申请实施例还提供了一种电子设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如第一方面中任一项所述数据提取方法的步骤。
第四方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如第一方面中任一项所述数据提取方法的步骤。
本申请实施例提供的一种数据提取方法、装置、电子设备和存储介质,通过对待解析文章中的每个自然段进行第一排序得到每个自然段的段落号,通过区分标题自然段和内容自然段进行分别处理,根据标题自然段之间的位置关系确定各所述标题自然段之间的第一层级关系,根据标题自然段和内容自然段之间的位置关系确定第二层级关系。并将内容自然段拆解为多个短语和句子,有利于构建结构化解析内容,并从结构化解析内容中提取出目标数据。
与现有技术中需要对训练样本大量标注的方案相比,本申请实施例在不需要大量批注的前提下,能够构建每个自然段之间的层级关系,对自然段中的内容进行拆解,并根据为特定文章类别设置的提取格式进行提取,能够针对不同文章类别提取更加具有针对性的内容,有助于提高对该特殊领域的文章的提取精度。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种数据提取方法的流程图。
图2示出了本申请实施例所提供的一种修改方法的流程图。
图3示出了本申请实施例所提供的一种数据提取装置的结构示意图。
图4示出了本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要提前说明的是,本申请实施例中将会用到术语“包括”,用于指出其后所声明的特征的存在,但并不排除增加其它的特征。
需要提前说明的是,本申请实施例涉及到的装置或电子设备等可以执行在单个服务器上,也可以执行在服务器组。服务器组可以是集中式的,也可以是分布式的。在一些实施例中,服务器相对于终端,可以是本地的,也可以是远程的。例如,服务器可以经由网络访问存储在服务请求方终端、服务提供方终端、或数据库、或其任意组合中的信息和/或数据。作为另一示例,服务器可以直接连接到服务请求方终端、服务提供方终端和数据库中至少一个,以访问存储的信息和/或数据。在一些实施例中,服务器可以在云平台上实现;仅作为示例,云平台可以包括私有云、公有云、混合云、社区云(community cloud)、分布式云、跨云(inter-cloud)、多云(multi-cloud)等,或者它们的任意组合。
图1示出了本申请实施例所提供的一种数据提取方法的流程图,如图1所示,所述方法包括以下步骤:
步骤101,基于接收到的待解析文章中的每个自然段在所述待解析文章中的位置,依次对每个所述自然段进行第一排序;所述自然段包括标题自然段和内容自然段。
具体的,待解析文章可以是指定文章类别的文章、也可以是其他类别的任意文章,文章中包含至少一个自然段,自然段可以是由文字、数字、符号单独或组合构成的。本申请实施例中预设的文章类别,包括工作报告、会议内容和工作分工意见三种。
在接收到待解析文章之后,确定待解析文章中的每个自然段,从而对待解析文章中的自然段进行第一排序,确定出每个自然段的段落号。自然段包括标题自然段和内容自然段,当自然段中描述的内容为标题时,该自然段为标题自然段,当自然段中描述的内容不是标题而是正文时,该自然段为内容自然段。
在本申请实施例中,判断自然段中描述的内容是否是标题的方法是通过预设的多种预设标题格式对自然段中的内容进行识别,当自然段中的内容满足至少一种预设标题格式的时候,确定该自然段为标题自然段。或者,当待解析文件为预设的文章类别中的任意一种时,由于工作报告、会议内容和工作分工意见等类别下的文章通常为特定格式、存在文章规范和统一标准的文章,因此可以根据自然段中文字的格式、字号大小去判断该自然段描述的内容是否为标题。
步骤102,针对每个所述标题自然段,基于各所述标题自然段在所述待解析文章中的位置、所述标题自然段中的标题内容,确定各所述标题自然段之间的第一层级关系,以及基于所述标题自然段与所述内容自然段之间的位置关系确定所述标题自然段与所述内容自然段之间的第二层级关系。
具体的,在通过步骤102对待解析文章中的每个自然段进行第一排序之后,得到每个自然段的段落号,由于第一排序是根据每个自然段在待解析文章中的位置依次排列的,因此待解析文章中的第一个自然段经过第一排序确定的段落号为1,第二个自然段经过第一排序确定的段落号为2,第三个自然段经过第一排序确定的段落号为3,……。通过识别自然段中的格式或者内容确定出识别自然段确定每个自然段是标题自然段还是内容自然段,此时待解析文章中的各自然段通常是标题自然段和内容自然段交替排列的,例如段落号为3的自然段为内容自然段,段落号为2的自然段为标题自然段。
第一层级关系指代各个标题自然段之间的归属关系,例如待解析文章中包括大标题A、大标题B,大标题B下包括小标题1和小标题2,则第一层级关系中,大标题A和大标题B属于同一级别,例如级别一,小标题1和小标题2属于同一级别,例如级别二,大标题B为小标题1和小标题2的上级、小标题1和小标题2为大标题B的下级,同理,级别二为级别一的下级。则第一层级关系包括以下对应关系:
级别一:大标题A、大标题B;
级别二:小标题1、小标题2;
大标题B包括:小标题1、小标题2;
级别一是级别二的上级。
第二层级关系是标题自然段与内容自然段之间的关系。每两个相邻的标题自然段之间的自然段为内容自然段,该内容自然段归属于第一个标题自然段,建立第一个标题自然段与这些内容自然段之间的第二层级关系。例如,小标题1和小标题2为相邻自然段,小标题1和小标题2之间存在自然段一、自然段二、自然段三,对应的段落号分别为8、9、10。那么自然段一、自然段二、自然段三均为内容自然段,且自然段一、自然段二、自然段三均属与小标题1,则第二层级关系中包括:小标题1与自然段一、自然段二、自然段三(段落号为8、9、10的自然段)。
步骤103,针对每个所述内容自然段,根据所述内容自然段中的每个标点符号将所述内容自然段拆解为至少一个短语,并在所述内容自然段中分别对所述短语、由至少一个短语组成的句子进行第二排序和第三排序。
具体的,针对每个内容自然段,识别内容自然段中的每个标点符号,以逗号、句号、分号、冒号作为划分标识,对内容自然段进行拆解。第二排序和第三排序均为在该内容自然段中的排序,各内容自然段中的第二排序和第三排序不连贯。
举例说明,例1,假设内容自然段的内容为:
多措并举、持续攻坚,累计实施2639个产业建设项目,带动23.8万建档立卡人口进行建设。建设任务基本完成。
那么划分之后得到:
短语1:“多措并举、持续攻坚,”
短语2:“累计实施2639个产业建设项目,”
短语3:“带动23.8万建档立卡人口进行建设。”
短语4:“建设任务基本完成。”
短语1、短语2、短语3、短语4在该内容自然段中的第二排序分别为:1、2、3、4。
其中短语1、短语2、短语3组成句子1,短语4组成句子2。则句子1、句子2在该内容自然段中对应的第三排序分别为1、2。
步骤104,基于所述第一排序、所述第二排序、所述第三排序、所述第一层级关系、所述第二层级关系,构建结构化解析内容;所述结构化解析内容中包含每个存储元素、归属文件名、归属副标题、所述存储元素所在目标自然段的第一排序、所述存储元素的第二顺序、所述存储元素所属句子的第三顺序、所述目标自然段的级别、基于所述级别确定的所述目标自然段的上级和下级、所述存储元素在所述待解析文章中对应的原始语句,所述存储元素为所述短语/所述标题内容,所述目标自然段的级别是根据所述第一层级关系确定的。
具体的,结构化解析内容是根据待解析文章整理出来的,是以每个存储元素作为最小单位进行整理的,针对待解析文章中包含的每个自然段,当自然段为标题自然段时,该标题自然段对应的存储元素的个数为1,存储元素为该标题自然段中的所有内容,即标题内容;当自然段为内容自然段时,内容自然段中的存储元素的个数取决于该内容自然段中短语的个数。
例2,以例1为准进行说明,根据内容自然段解析出短语1、短语2、短语3和短语4四个短语之后,那么该内容自然段的存储元素的个数为4,分别将短语1中的“多措并举、持续攻坚,”作为该内容自然段对应的第一个存储元素,将短语2中的“累计实施2639个产业建设项目,”作为该内容自然段对应的第二个存储元素,将短语3中的“带动23.8万建档立卡人口进行建设。”作为该内容自然段对应的第三个存储元素,将短语4中的“建设任务基本完成。”作为该内容自然段对应的第四个存储元素。
在确定出存储元素后,确定该存储元素对应的待解析文件的文件名并作为归属文件名,将该存储元素对应的待解析文件中识别出的与正标题同等级的副标题确定为归属副标题,所述存储元素所在目标自然段的第一排序指代的是该存储元素对应的原句对应的自然段的段落号。
例3,以上述例1和例2为准进行说明,当例2中的内容自然段经过第一排序确定的段落号为45时,那么短语4中的“建设任务基本完成。”对应的存储元素所在目标自然段的第一排序为45。
同理,短语4中的“建设任务基本完成。”对应的存储元素的第二顺序即为短语4在内容自然段(段落号为45)中的第二排序为:4,短语4中的“建设任务基本完成。”对应的存储元素属于句子2,对应的第三排序为:2。
所述目标自然段的级别是根据第一层级关系确定的,在本申请实施例中每个内容自然段的级别默认为0,如上述例子进行介绍:
例子:级别一:大标题A、大标题B;级别二:小标题1、小标题2;大标题B包括:小标题1、小标题2;级别一是级别二的上级。
则:大标题A和大标题B的级别一为1,小标题1、小标题2对应的级别二的级别为2,数字越小代表的级别越高。
根据上述例子结合以下例子说明目标自然段的上级和下级:自然段一、自然段二、自然段三(对应的段落号为8、9、10)均属与小标题1。
那么,若小标题1为存储元素,小标题1的上级为大标题B所在的自然段的段落号(假设为6),则该存储元素“小标题1”所在的目标自然段的上级为6(显示段落号);小标题1的下级没有标题,只有正文,则该小标题1所在的目标自然段的下级为8、9、10。
步骤105,确定所述待解析文章归属的文章类别,基于为所述文章类别预设的提取格式,从所述结构化解析内容中提取出目标数据并发送到显示终端,以在所述显示终端显示。
具体的,文章类别可以是根据文章名称确定的,也可以是根据文章的来源和渠道确定的,还可以为待解析文章预先标记的。
通过上述方法确定出待解析文章的文章类别之后,由于事先为每种文章类别预设了提取格式,根据该待解析文章的文章类别对应的提取格式,从结构化解析内容中提取出目标数据,将目标数据发送到显示终端,从而在显示终端显示该目标数据。
在本申请实施例中,用户可以通过显示终端将该目标数据导出为任意文件格式,包括但不限于:excel(一款电子表格软件)、word(一个文字处理器应用程序)等等。
本申请实施例提供的一种数据提取方法,通过对待解析文章中的每个自然段进行第一排序得到每个自然段的段落号,通过区分标题自然段和内容自然段进行分别处理,根据标题自然段之间的位置关系确定各所述标题自然段之间的第一层级关系,根据标题自然段和内容自然段之间的位置关系确定第二层级关系。并将内容自然段拆解为多个短语和句子,有利于构建结构化解析内容,并从结构化解析内容中提取出目标数据。
与现有技术中需要对训练样本大量标注的方案相比,本申请实施例在不需要大量批注的前提下,能够构建每个自然段之间的层级关系,对自然段中的内容进行拆解,并根据为特定文章类别设置的提取格式进行提取,能够针对不同文章类别提取更加具有针对性的内容,有助于提高对该特殊领域的文章的提取精度。
在一个可行的实施方案中,在执行步骤101基于所述待解析文章中的每个自然段在所述待解析文章中的位置,依次对每个所述自然段进行第一排序之前,所述方法还包括以下步骤:
步骤110,针对每个预先指定的自然段,当判断所述自然段中存在满足预设标题格式的内容时,将所述自然段拆分为第一自然段和第二自然段;所述第一自然段中的标题内容为所述内容。
具体的,预先指定的自然段可以是人工指定的,也可以是根据算法自动识别出的,在对待解析文章进行解析前,可以为待解析文章中的自然段进行手动/自动标记,从而将标记的自然段作为预先指定的自然段。预先指定的自然段是包含标题但未被确定为标题自然段的自然段,或者是对该自然段存在特殊修改要求的自然段(例如添加自定义标题等)。
确定出预先指定的自然段之后,判断自然段中是否存在满足预设标题格式的内容,如果出现则判断该自然段中存在标题,将满足该预设标题格式的内容拆分为单独的第一自然段,将剩下的内容确定为第二自然段。即将原自然段拆分为两个自然段,将标题内容单独拆分为一个独立自然段。
在本申请实施例中,预设标题格式为:自然段中有多个句子,第一句中存在可识别的顺序排序的描述(例如第一章、第一节、(1)、第一条、一是、二是、A、B、C等等),或者是自然段的开头不存在可识别的顺序排序,且在段落结尾没有标点符合(例如自然段为:‘加快过期资产整改’),或者是自然段的开头不存在可识别的顺序排序,且在段落结尾为冒号(例如自然段为:‘加快过期资产整改:’)。
步骤111,当所述内容中未携带有可识别的顺序标识时,为该内容添加特定标识。
具体的,顺序标识是任意携带有顺序含义的标识,可以是文字、数字、字母、符号等等。根据步骤111得到第一自然段之后,当第一自然段中的内容未携带有可识别的顺序标识时,在该第一自然段的开头增加特定标识。本申请实施例不对特定标识进行限制,特定标识可以是任意的,但应当与待解析文章中的其他标识构成区别。
步骤112,将所述待解析文章中的第一自然段、预先识别出的第三自然段确定为所述标题自然段,以及将所述待解析文章中除所述标题自然段的其他自然段确定为内容自然段;所述第三自然段中携带有可识别的顺序标识;所述内容自然段包括所述第二自然段。
具体的,将拆分出的仅含有标题内容的第一自然段作为标题内容段,且将预先识别出的第三自然段确定为标题自然段,第三自然段是根据内容中携带的可识别的顺序标识确定的。则待解析文章中的其余自然段均为内容自然段,内容自然段包括第二自然段。
在一个可行的实施方案中,在执行步骤111为该内容添加特定标识之后,还包括以下步骤:
步骤120,根据每个所述标题自然段携带的标识,将具有相同格式的标识的标题自然段划分到同一分组;所述标识包括所述顺序标识和所述特定标识;所述分组中包括所述标题自然段在所述第一排序时确定的段落号。
具体的,相同格式是指编号的格式相同,例如1、2、3、4的编号格式相同,(1)、(2)、(3)的编号格式相同,1、(1)的编号格式不同。通常来说,同一级别的自然段标识的格式是相同的,则划分为同一个分组下。
例4,假设内容自然段的段落号分别为:1、2、3、4、5,对应以下内容:
(段落号1)一、比赛项目:
(段落号2)1、游泳
(段落号3)2、短跑
(段落号4)二、比赛场地:
(段落号5)中心广场
可知,段落号2和段落号3对应的“1、游泳”、 “2、短跑” 中的标识为“1”“2”是相同格式,则将段落号2和段落号3划分为同一个分组;同理,段落号1和段落号4的标识“一”、“二”为相同格式,则将段落号1和段落号4划分为同一个分组。通过上述方法能够将相同级别等级的自然段的段落号集中到同一分组中。
步骤121,基于所述标题自然段在所述待解析文章的目录中的层级,确定所述第一层级关系,并基于所述第一层级关系确定各分组包含的标题自然段的级别;所述目录包含所述标识以及所述标识代表的标题自然段在所述待解析文章中的位置。
具体的,目录中的层级是在编辑该文章的时候自动生成的,且当待解析文章的文章类别为预设的三种文章类别时,该文章具有严格的规范,目录的层级能够唯一的定出第一层级关系,并依次确定每个层级下的分组对应的级别。
例5,假设目录为:
一、大标题A
二、大标题B
(一)小标题1
(二)小标题2
那么假设大标题A的段落号为1、大标题B的段落号为6、小标题1的段落号为7、小标题2的段落号为11。则根据步骤120和每个自然段中的标识,将大标题A和大标题B划分到分组一,将小标题1和小标题2划分到分组二。根据上述目录中的层级可知,分组一的级别高于分组二的级别。从而确定该第一层级关系。第一层级关系中包括以下对应关系:
级别一:大标题A、大标题B;
级别二:小标题1、小标题2;
大标题B包括:小标题1、小标题2;
级别一是级别二的上级。
在一个可行的实施方案中,在执行步骤104构建结构化解析内容后,所述方法还包括以下步骤:
向显示终端发送显示所述结构化解析内容第一显示指令,以在所述显示终端显示所述结构化解析内容。响应所述显示终端的内容查找指令,针对所述内容查找指令中的目标命令以及为该目标命令指定的段落号,向所述显示终端发送用于显示所述目标命令对应的目标内容的第二显示指令,以在所述显示终端显示所述目标内容;所述段落号在对所述自然段进行所述第一排序后得到的;每个段落号用于唯一对应一个所述自然段;所述目标命令包括获取上级内容、获取下级内容、获取与该指定的段落号属于同一标题自然段的段落号。
具体的,显示终端为包含图形用户界面的终端,能够对结构化解析内容进行显示。用户在显示终端可以进行相应操作,包括对文章中的内容进行查找的查找指令。在内容查找指令中输入段落号以及选中要执行的目标命令。
例6,以例5为例,当目标命令为获取上级内容时,若输入的段落号为7(小标题1),那么小标题1对应的上级为大标题B,则目标内容为大标题B的段落号6,还可以附加大标题B的原文。
当目标命令为获取下级内容时,若输入的段落号为6(大标题B),则目标内容为大标题B下的小标题1和小标题2的段落号(7、11)。还可以附加每个小标题对应的原文。
当目标命令为获取与该指定的段落号属于同一标题自然段的段落号时,若输入的段落号为7(小标题1),那么目标内容为大标题B的段落号6。需要注意的是指定的段落号可以是标题段落号也可以是内容段落号。
在一个可行的实施方案中,在所述显示终端显示所述结构化解析内容后,还包括以下步骤:
响应于所述显示终端发送的用于修改所述结构化解析内容的第一修改指令,对所述结构化解析内容进行修改,并将修改后的结构化解析内容发送给所述显示终端,以在所述显示终端进行显示;所述第一修改指令包括:将指定句子设置为标题、为指定内容自然段添加自定义标题、为指定内容设置删除标识。
具体的,当显示终端显示有该结构化解析内容时,对该结构化解析内容可以进行修改,在显示终端操作并生成第一修改指令。
当第一修改指令为将指定句子设置为标题,将该句子单独拆分为标题自然段,并适应性调整所述第一排序。当第一修改指令是为指定内容自然段添加自定义标题时,根据第一修改指令中输入的标题,将该标题独立为单独的标题自然段,并建立标题自然段和内容自然段的第二层级关系。当第一修改指令是为指定内容设置删除标识时,不对结构化解析内容中的内容进行删除,而是在执行步骤105时,不提取携带有删除标识的数据。
目标命令还可以是段落拆解,例如输入段落号和预设规则,将该段落号对应的自然段自动转化为多个区间,从而划分成多个段落。
在一个可行的实施方案中,所述文章类别包括工作报告、会议内容和工作分工意见;所述目标数据中包括原始语句、根据所述第一排序确定的原始语句所属的自然段的段落号、自然段的上下级关系;所述上下级关系是基于所述级别确定的。
具体的,自然段的上下级关系就是自然段的上级和下级对应的段落号。目标数据能够表明不同任务或者内容对应的上级、下级的段落号,所属原句的段落号等等各种信息,从而使得数据一目了然。
在执行步骤105基于为所述文章类别预设的提取格式,从所述结构化解析内容中提取出目标数据,包括以下三种情况:
情况一、当所述待解析文章的文章类别为所述工作报告时,从所述结构化解析数据中提取出用于描述工作任务的第一数据,并根据所述第一数据、所述第一数据对应的目标自然段确定所述目标数据。
具体的,工作报告是指根据统一标准和规则撰写的说明工作计划、工作目标、汇报工作成果等的文章,当所述待解析文章的文章类别为所述工作报告时,根据步骤101-105能够提取出的目标数据是工作报告中描述的具体计划、目标、指标,任务。例如“片区跨市整体搬迁入住6840人”、“金融机构银行机构不良贷款率0.54%”、“完成50%的林权制度和草场承包经营权建设”等等。
情况二、当所述待解析文章的文章类别为所述会议内容时,从所述结构化解析数据中提取出用于描述会议关键点的第二数据,并根据所述第二数据、所述第二数据对应的自然段确定所述目标数据;所述会议关键点是根据所述会议内容中可识别的顺序标号确定的。
具体的,会议内容是记录会议精神、传达会议关键点的文章,会议内容中的内容层次分明,根据步骤101-105能够提取出会议关键点,将会议关键点作为目标数据进行显示。
情况三、当所述待解析文章的文章类别为所述工作分工意见时,从所述结构化解析数据中提取出包含为每个执行部门安排的待执行任务的第三数据,以根据所述第三数据、所述第三数据对应的自然段确定所述目标数据。
具体的,工作分工意见主要写明了负责每个待执行任务的执行部门,主要介绍了任务分工情况,根据步骤101-105能够提取出为每个执行部门安排的待执行任务,从而将目标数据进行显示。
图2示出了本申请实施例所提供的一种修改方法的流程图,如图2所示,在一个可行的实施方案中,当所述文章类别为所述工作报告时,所述方法还包括以下步骤:
步骤201,基于预先设定的每个部门的职责、该部门的负责人,为所述目标数据中的每个工作任务确定任务主管、承担部门、该承担部门的负责人,并生成包含每个工作任务的督查任务;所述任务主管是从预先存储的主管名单中确定的用于督查所述工作任务完成情况的督查人员。
具体的,当所述文章类别为所述工作报告时,工作报告中包含工作任务目标,则根据预先设定的每个部门的职责、该部门的负责人,为每个工作任务安排一个督察人员,确保任务的完成进度,安排执行部门在督察人员的监督下完成该项任务目标、安排执行部门的负责人负责管理执行部门的执行情况。通过上述方法,将工作报告转化为具体的工作任务,有理由工作报告中每个任务的推动。
步骤202,向显示终端发送用于显示所述督查任务的第三显示指令,以在所述显示终端显示所述督查任务。
具体的,在根据不好走201确定出督查任务之后,在显示终端显示根据该工作报告生成的督查任务。在本申请实施例中,是在显示终端的网页中显示该督查任务,本申请实施例不对具体显示方式进行限制。
步骤203,响应于所述显示终端发送的用于修改的所述督查任务的第二修改指令,针对所述第二修改指令中的修改命令对所述督查任务进行修改,并将修改后的所述督查任务发送到所述显示终端进行显示;所述修改命令包括:修改所述工作任务,和/或所述任务主管,和/或所述承担部门,和/或所述承担部门的负责人。
具体的,用户在显示终端看到该督查任务的时候,可以对其中的任一项内容进行手动修改,从而提高纠错能力,并及时显示纠错或修改后的内容。
图3示出了本申请实施例所提供的一种数据提取装置的结构示意图,如图3所示,所述装置包括:第一排序单元301、关系确定单元302、第二排序单元303、内容构建单元304、数据提取单元305。
第一排序单元301,用于基于接收到的待解析文章中的每个自然段在所述待解析文章中的位置,依次对每个所述自然段进行第一排序;所述自然段包括标题自然段和内容自然段。
关系确定单元302,用于针对每个所述标题自然段,基于各所述标题自然段在所述待解析文章中的位置、所述标题自然段中的标题内容,确定各所述标题自然段之间的第一层级关系,以及基于所述标题自然段与所述内容自然段之间的位置关系确定所述标题自然段与所述内容自然段之间的第二层级关系。
第二排序单元303,用于针对每个所述内容自然段,根据所述内容自然段中的每个标点符号将所述内容自然段拆解为至少一个短语,并在所述内容自然段中分别对所述短语、由至少一个短语组成的句子进行第二排序和第三排序。
内容构建单元304,用于基于所述第一排序、所述第二排序、所述第三排序、所述第一层级关系、所述第二层级关系,构建结构化解析内容;所述结构化解析内容中包含每个存储元素、归属文件名、归属副标题、所述存储元素所在目标自然段的第一排序、所述存储元素的第二顺序、所述存储元素所属句子的第三顺序、所述目标自然段的级别、基于所述级别确定的所述目标自然段的上级和下级、所述存储元素在所述待解析文章中对应的原始语句,所述存储元素为所述短语/所述标题内容,所述目标自然段的级别是根据所述第一层级关系确定的。
数据提取单元305,用于确定所述待解析文章归属的文章类别,基于为所述文章类别预设的提取格式,从所述结构化解析内容中提取出目标数据并发送到显示终端,以在所述显示终端显示。
在一个可行的实施方案中,所述装置还包括:
段落拆分单元,用于在基于所述待解析文章中的每个自然段在所述待解析文章中的位置,依次对每个所述自然段进行第一排序之前,针对每个预先指定的自然段,当判断所述自然段中存在满足预设标题格式的内容时,将所述自然段拆分为第一自然段和第二自然段;所述第一自然段中的标题内容为所述内容。
标识添加单元,用于当所述内容中未携带有可识别的顺序标识时,为该内容添加特定标识。
段落分类单元,用于将所述待解析文章中的第一自然段、预先识别出的第三自然段确定为所述标题自然段,以及将所述待解析文章中除所述标题自然段的其他自然段确定为内容自然段;所述第三自然段中携带有可识别的顺序标识;所述内容自然段包括所述第二自然段。
在一个可行的实施方案中,所述装置还包括:
分组单元,用于在为该内容添加特定标识之后,根据每个所述标题自然段携带的标识,将具有相同格式的标识的标题自然段划分到同一分组;所述标识包括所述顺序标识和所述特定标识;所述分组中包括所述标题自然段在所述第一排序时确定的段落号。
层级确定单元,用于基于所述标题自然段在所述待解析文章的目录中的层级,确定所述第一层级关系,并基于所述第一层级关系确定各分组包含的标题自然段的级别;所述目录包含所述标识以及所述标识代表的标题自然段在所述待解析文章中的位置。
在一个可行的实施方案中,所述装置还包括:
第一显示单元,用于在构建结构化解析内容后,向显示终端发送显示所述结构化解析内容第一显示指令,以在所述显示终端显示所述结构化解析内容。
第一响应单元,用于响应所述显示终端的内容查找指令,针对所述内容查找指令中的目标命令以及为该目标命令指定的段落号,向所述显示终端发送用于显示所述目标命令对应的目标内容的第二显示指令,以在所述显示终端显示所述目标内容;所述段落号在对所述自然段进行所述第一排序后得到的;每个段落号用于唯一对应一个所述自然段;所述目标命令包括获取上级内容、获取下级内容、获取与该指定的段落号属于同一标题自然段的段落号。
在一个可行的实施方案中,所述装置还包括:
第二响应单元,用于在所述显示终端显示所述结构化解析内容后,响应于所述显示终端发送的用于修改所述结构化解析内容的第一修改指令,对所述结构化解析内容进行修改,并将修改后的结构化解析内容发送给所述显示终端,以在所述显示终端进行显示;所述第一修改指令包括:将指定句子设置为标题、为指定内容自然段添加自定义标题、为指定内容设置删除标识。
在一个可行的实施方案中,所述文章类别包括工作报告、会议内容和工作分工意见;所述目标数据中包括原始语句、根据所述第一排序确定的原始语句所属的自然段的段落号、自然段的上下级关系;所述上下级关系是基于所述级别确定的。
所述数据提取单元用于:
当所述待解析文章的文章类别为所述工作报告时,从所述结构化解析数据中提取出用于描述工作任务的第一数据,并根据所述第一数据、所述第一数据对应的目标自然段确定所述目标数据。
当所述待解析文章的文章类别为所述会议内容时,从所述结构化解析数据中提取出用于描述会议关键点的第二数据,并根据所述第二数据、所述第二数据对应的自然段确定所述目标数据;所述会议关键点是根据所述会议内容中可识别的顺序标号确定的。
当所述待解析文章的文章类别为所述工作分工意见时,从所述结构化解析数据中提取出包含为每个执行部门安排的待执行任务的第三数据,以根据所述第三数据、所述第三数据对应的自然段确定所述目标数据。
在一个可行的实施方案中,所述装置还包括:
任务生成单元,用于当所述文章类别为所述工作报告时,基于预先设定的每个部门的职责、该部门的负责人,为所述目标数据中的每个工作任务确定任务主管、承担部门、该承担部门的负责人,并生成包含每个工作任务的督查任务;所述任务主管是从预先存储的主管名单中确定的用于督查所述工作任务完成情况的督查人员。
发送单元,用于向显示终端发送用于显示所述督查任务的第三显示指令,以在所述显示终端显示所述督查任务。
第三响应单元,用于响应于所述显示终端发送的用于修改的所述督查任务的第二修改指令,针对所述第二修改指令中的修改命令对所述督查任务进行修改,并将修改后的所述督查任务发送到所述显示终端进行显示;所述修改命令包括:修改所述工作任务,和/或所述任务主管,和/或所述承担部门,和/或所述承担部门的负责人。
本申请实施例提供的一种数据提取装置,通过对待解析文章中的每个自然段进行第一排序得到每个自然段的段落号,通过区分标题自然段和内容自然段进行分别处理,根据标题自然段之间的位置关系确定各所述标题自然段之间的第一层级关系,根据标题自然段和内容自然段之间的位置关系确定第二层级关系。并将内容自然段拆解为多个短语和句子,有利于构建结构化解析内容,并从结构化解析内容中提取出目标数据。
与现有技术中需要对训练样本大量标注的方案相比,本申请实施例在不需要大量批注的前提下,能够构建每个自然段之间的层级关系,对自然段中的内容进行拆解,并根据为特定文章类别设置的提取格式进行提取,能够针对不同文章类别提取更加具有针对性的内容,有助于提高对该特殊领域的文章的提取精度。
图4示出了本申请实施例所提供的一种电子设备的结构示意图,包括:处理器401、存储介质402和总线403,所述存储介质402存储有所述处理器401可执行的机器可读指令,当电子设备运行如实施例中的数据提取方法时,所述处理器401与所述存储介质402之间通过总线403通信,所述处理器401执行所述机器可读指令,以执行如实施例中的步骤。
在实施例中,所述存储介质402还可以执行其它机器可读指令,以执行如实施例中其它所述的方法,关于具体执行的方法步骤和原理参见实施例的说明,在此不再详细赘述。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行,以执行如实施例中的步骤。
在本申请实施例中,该计算机程序被处理器运行时还可以执行其它机器可读指令,以执行如实施例中其它所述的方法,关于具体执行的方法步骤和原理参见实施例的说明,在此不再详细赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (9)
1.一种数据提取方法,其特征在于,所述方法包括:
基于接收到的待解析文章中的每个自然段在所述待解析文章中的位置,依次对每个所述自然段进行第一排序;所述自然段包括标题自然段和内容自然段;所述第一排序用于确定出每个所述自然段的段落号;
针对每个所述标题自然段,基于各所述标题自然段在所述待解析文章中的位置、所述标题自然段中的标题内容,确定各所述标题自然段之间的第一层级关系,以及基于所述标题自然段与所述内容自然段之间的位置关系确定所述标题自然段与所述内容自然段之间的第二层级关系;所述第一层级关系指代各个所述标题自然段之间的归属关系;所述第二层级关系是所述标题自然段与所述内容自然段之间的归属关系;
针对每个所述内容自然段,根据所述内容自然段中的每个标点符号将所述内容自然段拆解为至少一个短语,并在所述内容自然段中分别对所述短语、由至少一个短语组成的句子进行第二排序和第三排序;所述第二排序为根据各个所述短语在所述内容自然段中的先后顺序,对所述短语进行排序;所述第三排序为根据所述句子在所述内容自然段中的先后顺序,对所述句子进行排序;
基于所述第一排序、所述第二排序、所述第三排序、所述第一层级关系、所述第二层级关系,构建结构化解析内容;所述结构化解析内容中包含每个存储元素、归属文件名、归属副标题、所述存储元素所在目标自然段的第一排序、所述存储元素的第二顺序、所述存储元素所属句子的第三顺序、所述目标自然段的级别、基于所述级别确定的所述目标自然段的上级和下级、所述存储元素在所述待解析文章中对应的原始语句,所述存储元素为所述短语或所述标题内容,所述目标自然段的级别是根据所述第一层级关系确定的;
确定所述待解析文章归属的文章类别,基于为所述文章类别预设的提取格式,从所述结构化解析内容中提取出目标数据并发送到显示终端,以在所述显示终端显示;
所述文章类别是通过以下任意一种方式确定的:待解析文章名称、待解析文章的来源和渠道、待解析文章预先标记的类别;
所述文章类别包括工作报告、会议内容和工作分工意见;所述目标数据中包括原始语句、根据所述第一排序确定的原始语句所属的自然段的段落号、自然段的上下级关系;所述上下级关系是基于所述级别确定的;所述基于为所述文章类别预设的提取格式,从所述结构化解析内容中提取出目标数据并发送到显示终端,包括:
当所述待解析文章的文章类别为所述工作报告时,从所述结构化解析数据中提取出用于描述工作任务的第一数据,并根据所述第一数据、所述第一数据对应的目标自然段确定所述目标数据;
当所述待解析文章的文章类别为所述会议内容时,从所述结构化解析数据中提取出用于描述会议关键点的第二数据,并根据所述第二数据、所述第二数据对应的自然段确定所述目标数据;所述会议关键点是根据所述会议内容中可识别的顺序标号确定的;
当所述待解析文章的文章类别为所述工作分工意见时,从所述结构化解析数据中提取出包含为每个执行部门安排的待执行任务的第三数据,以根据所述第三数据、所述第三数据对应的自然段确定所述目标数据。
2.根据权利要求1所述的方法,其特征在于,在基于所述待解析文章中的每个自然段在所述待解析文章中的位置,依次对每个所述自然段进行第一排序之前,还包括:
针对每个预先指定的自然段,当判断所述自然段中存在满足预设标题格式的内容时,将所述自然段拆分为第一自然段和第二自然段;所述第一自然段中的标题内容为所述内容;
当所述内容中未携带有可识别的顺序标识时,为该内容添加特定标识,与所述待解析文章中的其他标识构成区别;
将所述待解析文章中的第一自然段、预先识别出的第三自然段确定为所述标题自然段,以及将所述待解析文章中除所述标题自然段的其他自然段确定为内容自然段;所述第三自然段中携带有可识别的顺序标识;所述内容自然段包括所述第二自然段。
3.根据权利要求2所述的方法,其特征在于,在为该内容添加特定标识之后,还包括:
根据每个所述标题自然段携带的标识,将具有相同格式的标识的标题自然段划分到同一分组;所述标识包括所述顺序标识和所述特定标识;所述分组中包括所述标题自然段在所述第一排序时确定的段落号;
基于所述标题自然段在所述待解析文章的目录中的层级,确定所述第一层级关系,并基于所述第一层级关系确定各分组包含的标题自然段的级别;所述目录包含所述标识以及所述标识代表的标题自然段在所述待解析文章中的位置。
4.根据权利要求1所述的方法,其特征在于,在构建结构化解析内容后,还包括:
向显示终端发送显示所述结构化解析内容第一显示指令,以在所述显示终端显示所述结构化解析内容;
响应所述显示终端的内容查找指令,针对所述内容查找指令中的目标命令以及为该目标命令指定的段落号,向所述显示终端发送用于显示所述目标命令对应的目标内容的第二显示指令,以在所述显示终端显示所述目标内容;所述段落号在对所述自然段进行所述第一排序后得到的;每个段落号用于唯一对应一个所述自然段;所述目标命令包括获取上级内容、获取下级内容、获取与该指定的段落号属于同一标题自然段的段落号。
5.根据权利要求4所述的方法,其特征在于,在所述显示终端显示所述结构化解析内容后,还包括:
响应于所述显示终端发送的用于修改所述结构化解析内容的第一修改指令,对所述结构化解析内容进行修改,并将修改后的结构化解析内容发送给所述显示终端,以在所述显示终端进行显示;所述第一修改指令包括:将指定句子设置为标题、为指定内容自然段添加自定义标题、为指定内容设置删除标识。
6.根据权利要求1所述的方法,其特征在于,当所述文章类别为所述工作报告时,所述方法还包括:
基于预先设定的每个部门的职责、该部门的负责人,为所述目标数据中的每个工作任务确定任务主管、承担部门、该承担部门的负责人,并生成包含每个工作任务的督查任务;所述任务主管是从预先存储的主管名单中确定的用于督查所述工作任务完成情况的督查人员;
向显示终端发送用于显示所述督查任务的第三显示指令,以在所述显示终端显示所述督查任务;
响应于所述显示终端发送的用于修改的所述督查任务的第二修改指令,针对所述第二修改指令中的修改命令对所述督查任务进行修改,并将修改后的所述督查任务发送到所述显示终端进行显示;所述修改命令包括:修改所述工作任务,和/或所述任务主管,和/或所述承担部门,和/或所述承担部门的负责人。
7.一种数据提取装置,其特征在于,所述装置包括:
第一排序单元,用于基于接收到的待解析文章中的每个自然段在所述待解析文章中的位置,依次对每个所述自然段进行第一排序;所述自然段包括标题自然段和内容自然段;所述第一排序用于确定出每个所述自然段的段落号;
关系确定单元,用于针对每个所述标题自然段,基于各所述标题自然段在所述待解析文章中的位置、所述标题自然段中的标题内容,确定各所述标题自然段之间的第一层级关系,以及基于所述标题自然段与所述内容自然段之间的位置关系确定所述标题自然段与所述内容自然段之间的第二层级关系;所述第一层级关系指代各个所述标题自然段之间的归属关系;所述第二层级关系是所述标题自然段与所述内容自然段之间的归属关系;
第二排序单元,用于针对每个所述内容自然段,根据所述内容自然段中的每个标点符号将所述内容自然段拆解为至少一个短语,并在所述内容自然段中分别对所述短语、由至少一个短语组成的句子进行第二排序和第三排序;所述第二排序为根据各个所述短语在所述内容自然段中的先后顺序,对所述短语进行排序;所述第三排序为根据所述句子在所述内容自然段中的先后顺序,对所述句子进行排序;
内容构建单元,用于基于所述第一排序、所述第二排序、所述第三排序、所述第一层级关系、所述第二层级关系,构建结构化解析内容;所述结构化解析内容中包含每个存储元素、归属文件名、归属副标题、所述存储元素所在目标自然段的第一排序、所述存储元素的第二顺序、所述存储元素所属句子的第三顺序、所述目标自然段的级别、基于所述级别确定的所述目标自然段的上级和下级、所述存储元素在所述待解析文章中对应的原始语句,所述存储元素为所述短语或所述标题内容,所述目标自然段的级别是根据所述第一层级关系确定的;
数据提取单元,用于确定所述待解析文章归属的文章类别,基于为所述文章类别预设的提取格式,从所述结构化解析内容中提取出目标数据并发送到显示终端,以在所述显示终端显示;
所述文章类别是通过以下任意一种方式确定的:待解析文章名称、待解析文章的来源和渠道、待解析文章预先标记的类别;
所述文章类别包括工作报告、会议内容和工作分工意见;所述目标数据中包括原始语句、根据所述第一排序确定的原始语句所属的自然段的段落号、自然段的上下级关系;所述数据提取单元在用于基于为所述文章类别预设的提取格式,从所述结构化解析内容中提取出目标数据并发送到显示终端时,具体用于:
当所述待解析文章的文章类别为所述工作报告时,从所述结构化解析数据中提取出用于描述工作任务的第一数据,并根据所述第一数据、所述第一数据对应的目标自然段确定所述目标数据;
当所述待解析文章的文章类别为所述会议内容时,从所述结构化解析数据中提取出用于描述会议关键点的第二数据,并根据所述第二数据、所述第二数据对应的自然段确定所述目标数据;所述会议关键点是根据所述会议内容中可识别的顺序标号确定的;
当所述待解析文章的文章类别为所述工作分工意见时,从所述结构化解析数据中提取出包含为每个执行部门安排的待执行任务的第三数据,以根据所述第三数据、所述第三数据对应的自然段确定所述目标数据。
8.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如权利要求1至6中任一项所述数据提取方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至6中任一项所述数据提取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210780916.8A CN114861641B (zh) | 2022-07-05 | 2022-07-05 | 一种数据提取方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210780916.8A CN114861641B (zh) | 2022-07-05 | 2022-07-05 | 一种数据提取方法、装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114861641A CN114861641A (zh) | 2022-08-05 |
CN114861641B true CN114861641B (zh) | 2022-09-20 |
Family
ID=82627077
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210780916.8A Active CN114861641B (zh) | 2022-07-05 | 2022-07-05 | 一种数据提取方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114861641B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10180964B1 (en) * | 2014-08-13 | 2019-01-15 | Google Llc | Candidate answer passages |
CN110096710A (zh) * | 2019-05-09 | 2019-08-06 | 董云鹏 | 一种文章分析及自论证的方法 |
CN113822067A (zh) * | 2021-08-17 | 2021-12-21 | 深圳市东信时代信息技术有限公司 | 关键信息提取方法、装置、计算机设备及存储介质 |
CN114118053A (zh) * | 2021-11-26 | 2022-03-01 | 武汉天喻信息产业股份有限公司 | 一种合同信息提取方法及装置 |
CN114239588A (zh) * | 2021-11-24 | 2022-03-25 | 泰康保险集团股份有限公司 | 文章处理方法、装置、电子设备及介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108062291A (zh) * | 2016-11-09 | 2018-05-22 | 上海颐为网络科技有限公司 | 多媒体内容智能转换为词条结构的方法和系统 |
CN111046645A (zh) * | 2019-12-11 | 2020-04-21 | 浙江大搜车软件技术有限公司 | 生成文章的方法、装置、计算机设备和存储介质 |
-
2022
- 2022-07-05 CN CN202210780916.8A patent/CN114861641B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10180964B1 (en) * | 2014-08-13 | 2019-01-15 | Google Llc | Candidate answer passages |
CN110096710A (zh) * | 2019-05-09 | 2019-08-06 | 董云鹏 | 一种文章分析及自论证的方法 |
CN113822067A (zh) * | 2021-08-17 | 2021-12-21 | 深圳市东信时代信息技术有限公司 | 关键信息提取方法、装置、计算机设备及存储介质 |
CN114239588A (zh) * | 2021-11-24 | 2022-03-25 | 泰康保险集团股份有限公司 | 文章处理方法、装置、电子设备及介质 |
CN114118053A (zh) * | 2021-11-26 | 2022-03-01 | 武汉天喻信息产业股份有限公司 | 一种合同信息提取方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN114861641A (zh) | 2022-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8244046B2 (en) | Character string updated degree evaluation program | |
CN112579707B (zh) | 一种日志数据的知识图谱构建方法 | |
US20110202545A1 (en) | Information extraction device and information extraction system | |
CN114168716A (zh) | 基于深度学习的工程造价自动抽取和分析方法及装置 | |
CN107463711B (zh) | 一种数据的标签匹配方法及装置 | |
CN110825805B (zh) | 一种数据的可视化方法及装置 | |
CN114153978A (zh) | 模型训练方法、信息抽取方法、装置、设备及存储介质 | |
CN112686036A (zh) | 风险文本识别方法、装置、计算机设备及存储介质 | |
CN111522901A (zh) | 文本中地址信息的处理方法及装置 | |
CN110750588A (zh) | 面向多源异构的数据融合方法、系统、装置及存储介质 | |
CN111552800A (zh) | 摘要生成方法、装置、电子设备及介质 | |
CN110688407B (zh) | 一种社会关系挖掘的方法 | |
CN110413998B (zh) | 一种面向电力行业的自适应中文分词方法及其系统、介质 | |
WO2020111827A1 (ko) | 프로필 자동생성서버 및 방법 | |
CN110795606A (zh) | 一种日志解析规则的生成方法 | |
CN114861641B (zh) | 一种数据提取方法、装置、电子设备和存储介质 | |
CN117473512A (zh) | 基于网络测绘的漏洞风险评估方法 | |
CN112541713A (zh) | 基于指标体系的政务公开自动评估的方法 | |
CN112015907A (zh) | 一种学科知识图谱快速构建方法、装置及存储介质 | |
CN115658993B (zh) | 一种网页的核心内容的智能化抽取方法及系统 | |
CN116401343A (zh) | 一种数据合规分析方法 | |
CN115795052A (zh) | 一种产业链地图构建方法、装置及电子设备 | |
US20150332148A1 (en) | Failure occurrence cause extraction device, failure occurrence cause extraction method, and failure occurrence cause extraction program | |
CN112948510A (zh) | 一种媒体行业知识图谱的构建方法 | |
JP6817246B2 (ja) | データ処理装置、データ処理方法及びデータ処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |