CN116796707A - 一种文档多样式数据填充及模块化自动生成方法 - Google Patents

一种文档多样式数据填充及模块化自动生成方法 Download PDF

Info

Publication number
CN116796707A
CN116796707A CN202310682063.9A CN202310682063A CN116796707A CN 116796707 A CN116796707 A CN 116796707A CN 202310682063 A CN202310682063 A CN 202310682063A CN 116796707 A CN116796707 A CN 116796707A
Authority
CN
China
Prior art keywords
tag
document
module
content
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310682063.9A
Other languages
English (en)
Inventor
白昱
尤明聪
白帆
王瑞雪
时静
保华荣
徐梦迪
黄刚
杨阳霄
张恒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Baiyining Medical Laboratory Co ltd
Original Assignee
Zhejiang Baiyining Medical Laboratory Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Baiyining Medical Laboratory Co ltd filed Critical Zhejiang Baiyining Medical Laboratory Co ltd
Priority to CN202310682063.9A priority Critical patent/CN116796707A/zh
Publication of CN116796707A publication Critical patent/CN116796707A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/174Form filling; Merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种用于文档多样式数据填充及模块化自动生成的方法,该方法通过Python和Shell编程语言实现为模块算法,该模块算法能够识别、保留、删除以及排序、修改、添加和格式化Word文档中的不同元素,如章节、段落、文档片段、表格、图片、以及表格特定行或特定单元格中的内容。在运行时,算法接收以下文件作为输入:内置tag标签的word母版文档、模块配置文件、标签及源数据对应关系配置文件、各种源数据文件等。可以实现模块化、定制化、自动化输出各种包含不同需求内容的文档,极大的节约工作人员制作以及审核定制化文档的时间,具有显著的应用价值。

Description

一种文档多样式数据填充及模块化自动生成方法
技术领域
本发明涉及文档自动化处理技术领域,具体为一种文档多样式数据填充及模块化自动生成方法。
背景技术
文档自动化技术节省了大量重复文档所花费的巨大人力劳动,更高效完成格式化文档的生成,在现有的自动化应用里,存在着模版文件数量多、匹配模式单一,修改困难、工作量大的问题,自动化过程中只能按照固定顺序填写数据的限制,无法定位或定位方式不精准,对文档元素操作上不可删除、不可调、易出现错位等差错,自动化程度偏低,没有更好的操作粒度,极大的影响了在实际工作生活中的运用。
一个文档自动化系统能够自动地填充文档中的所有条件文本、变量值、和数据。这种系统可以使得企业将数据录入工作最小化,通过计算机高效自动地生成处理这些机构的标准业务文档,使得用户可以简单快速地生成正式、精确、规范的文档文书,减少审阅次数,并降低与人为错误相关的风险。
然而,自动化系统在很多应用场景下处理数据时还需要非固定顺序操作,增、删、改图片、表格等其他非文本元素,以及动态的删减文档内的单元章节,输出符合不同输入需求的文档,这些是无法解决的。
因此,设计实用性强,且高效准确的文档多样式数据填充及模块化自动生成方法是很有必要的。
发明内容
本发明的目的在于提供一种文档多样式数据填充及模块化自动生成方法,以解决上述背景技术中提出的问题。
为了解决上述技术问题,本发明提供如下技术方案:
一种文档多样式数据填充及模块化自动生成方法,基于python与Shell编写构建模块,将tag标签植于初版Word文档内形成Word文档母板,模块通过读取植于Word文档母板内的tag标签,并进行识别与操作,对tag标签所在的各节点位置按需进行Word文档重构,包括以下步骤:
S100、通过tag标签对Word进行添加,且tag标签为自定义标签,使得当前Word文档成为一个母板;
S200、自定义标签属性包含物理位置、功能、模块、属性、编号、以及操作模式,自定义标签元素内置互斥标记,基于互斥标记实现标签对应内容的新增、替换、互斥、自删除、标签自擦除功能;
S300、自定义标签所标记的文本内容包括表格、图片、文字、段落及多个连续的段落,对于表格、图片与文字可进行增加与删减,其可位于段落前、段落中或段落后,图片可位于表格前、表格中或表格后;
S400、基于需求设定,对文本内容进行颜色、是否加粗、字体大小进行渲染与调整;
S500、基于python算法可以对分节、分页符进行操作,即删除多余的空白页与根据属性处理相邻分页及分节符,相邻分页及分节符的处理方式具体包含分页+分页、分页+分节、分节+分页、分节+分节及这四种情况的任意及连续组合;
S600、对自定义标签标记的内容删除或添加内容后,针对剩余的内容按照指定的序号自动重新排序,输出源文件;
S700、对输出源文件的存在性、正确性的检测分析,将检测分析结果通过工作软件进行实时推送。
根据上述技术方案,所述S100具体方法为:
建立报告模版文件中的多段式标签,标签分8段组成,包括物理定位、功能区分、产品模块包含以及元素属性定义:
标签定义的分段采用下划线,即每段标签间采用“_”,规则为:tag_Part_Loc_Func_Module_Property_AgentID_Action_;
以tag固定标识开头,构成Part、Loc、Func、Module、Property、AgentID、Action多维度,并通过上述维度对文档中的需要操作的内容进行描述定义,包括了元素所在物理位置、功能、模块、自身元素属性、产品编号、排斥操作;
各区段编码tag_Str_Num_Str_Str_Chr_Num_Str。
根据上述技术方案,所述S200与S300整合具体方法为对文档进行扫描,引入正则匹配获取全部的多段式标签,通过标签的Part、Func、Module、Property、AgentID、Action属性匹配输入模块进行匹配,筛选出保留部分和删除部分,具体包括如下步骤:
首先根据多段式标签的定义,采用正则匹配:
pat=r"(tag(\_[\u4E00-\u9FA5a-zA-Z0-9\-]+){5}_\d\d\d_[a-zA-Z]+_)"
tagListAll=DocumentRun.get_taglist(docParentModify,pat);
而后扫描获取全部定义的分段式标签列表;
最后进行分类处理,即:
将tag转化成series数据,即通过index:value,在Part,Func,Module,Property,AgentID,Action多维度上对标签列表进行分类处理,同时引入排斥技术,采用Action段,实现当前标签单独增加、大删除和小删除的处理功能;
根据上述技术方案,所述S300的对文档的表格部分可进行如下操作:
表格的定位识别与删除,根据数据动态增加表格,表格内指定单元格内输入文本数据,表格的指定行填充数据,表格的行删除,表格的行高设置,表格内插入图片,单元格的填充色修改、设置,单元格的合并。
根据上述技术方案,所述分段后的tag命名规则,即tag_Part_Loc_Func_Module_Property_AgentID_Action_的明显规则:
tag为标识开始位,固定不变;
Part为物理区域,取值范围为PT、PC、Pi、PM、PS、PD与PA;
Loc为对应Part区域的数字编号,包括两位数,取值范围为01-99,十位部分为当前章节中的段落序号,各位部分从1开始;
Func为功能区,即模板的功能块,取值范围为T、C、i、M、S、D与A;
Module为对应各个功能区的下属子模块,基于不同区的取值范围如下:
T:T通用、HRD-1、HRD-2、USP;
C:C通用、c-MSI;
I:TMB、i-MSI、PD-L1、MMR、im-gene、HLA、Neo;
M:M通用、m-MSI;
上述取值用于系统进行功能和对应模块的初始化;
D通用、S通用、A通用、Cglist、Cginfo,用于目录P、总结S、A章节部分使用;
Property为属性区,取值范围为t、p、g、b,r,其中t为表,p为段落,g为图,b为block,r为表格内的行,其中g与b均为双tag,t、p与r为单tag;
AgentID为编号ID,包含三位数字,构成不同标识代码,指代不同含义;
Action为元素的相斥属性,针对所设的定制时启用:
即保留此tag的基础上,判断本功能区下其他现有tag的删除程度,取值范围为default、add、delPart与delLoc。
根据上述技术方案,所述Action的删除取值范围为default、add、delPart与delLoc,具体如下:
default为默认内容,无判断处理;
add为新增内容,影响范围:0;本功能区下,所有tag不排斥;
delPart为大定制,Part删除:和此tag相同Part,和此tag不同ID或相同ID+action为非delPart的全Part删除;
delLoc为小定制,元素删除:和此tag相同Part+相同Loc+相同Property+不同id的元素。
与现有技术相比,本发明所达到的有益效果是:
通过Python和Shell编程语言实现为模块算法,该模块算法能够识别、保留、删除以及排序、修改、添加和格式化Word文档中的不同元素,如章节、段落、文档片段、表格、图片、以及表格特定行或特定单元格中的内容。在运行时,算法接收以下文件作为输入:内置tag标签的word母版文档、模块配置文件、标签及源数据对应关系配置文件、各种源数据文件等。可以实现模块化、定制化、自动化输出各种包含不同需求内容的文档,极大的节约工作人员制作以及审核定制化文档的时间,具有显著的应用价值。
具体实施方式
下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供技术方案:
一种文档多样式数据填充及模块化自动生成方法,基于python与Shell编写构建模块,将tag标签植于初版Word文档内形成Word文档母板,模块通过读取植于Word文档母板内的tag标签,并进行识别与操作,对tag标签所在的各节点位置按需进行Word文档重构,包括以下步骤:
S100、通过tag标签对Word进行添加,且tag标签为自定义标签,使得当前Word文档成为一个母板;
S200、自定义标签属性包含物理位置、功能、模块、属性、编号、以及操作模式,自定义标签元素内置互斥标记,基于互斥标记实现标签对应内容的新增、替换、互斥、自删除、标签自擦除功能;
S300、自定义标签所标记的文本内容包括表格、图片、文字、段落及多个连续的段落,对于表格、图片与文字可进行增加与删减,其可位于段落前、段落中或段落后,图片可位于表格前、表格中或表格后;
S400、基于需求设定,对文本内容进行颜色、是否加粗、字体大小进行渲染与调整;
S500、基于python算法可以对分节、分页符进行操作,即删除多余的空白页与根据属性处理相邻分页及分节符,相邻分页及分节符的处理方式具体包含分页+分页、分页+分节、分节+分页、分节+分节及这四种情况的任意及连续组合;
S600、对自定义标签标记的内容删除或添加内容后,针对剩余的内容指定的序号自动重新排序,形成整版输出源文件;
S700、对输出源文件的存在性、正确性的检测分析,将检测分析结果通过工作软件进行实时推送。
具体而言,所述S100具体方法为:
建立报告模版文件中的多段式标签,标签分8段组成,包括物理定位、功能区分、产品模块包含以及元素属性定义:
标签定义的分段采用下划线,即每段标签间采用“_”,规则为:tag_Part_Loc_Func_Module_Property_AgentID_Action_;
以tag固定标识开头,构成Part、Loc、Func、Module、Property、AgentID、Action多维度,并通过上述维度对文档中的需要操作的内容进行描述定义,包括了元素所在物理位置、功能、模块、自身元素属性、产品编号、排斥操作;
各区段编码tag_Str_Num_Str_Str_Chr_Num_Str。
具体而言,所述S200与S300整合具体方法为对文档进行扫描,引入正则匹配获取全部的多段式标签,通过标签的Part、Func、Module、Property、AgentID、Action属性匹配输入模块进行匹配,筛选出保留部分和删除部分,具体包括如下步骤:
首先根据多段式标签的定义,采用正则匹配:
pat=r"(tag(\_[\u4E00-\u9FA5a-zA-Z0-9\-]+){5}_\d\d\d_[a-zA-Z]+_)"
tagListAll=DocumentRun.get_taglist(docParentModify,pat);
而后扫描获取全部定义的分段式标签列表;
最后进行分类处理,即:
将tag转化成series数据,即通过index:value,在Part,Func,Module,Property,AgentID,Action多维度上对标签列表进行分类处理,同时引入排斥技术,采用Action段,实现当前标签单独增加、大删除和小删除的处理功能;
具体而言,所述S300的对文档的表格部分可进行如下操作:
表格的定位识别与删除,根据数据动态增加表格,表格内指定单元格内输入文本数据,表格的指定行填充数据,表格的行删除,表格的行高设置,表格内插入图片,单元格的填充色修改、设置,单元格的合并。
具体而言,所述分段后的tag命名规则,即
tag_Part_Loc_Func_Module_Property_AgentID_Action_的明显规则:
tag为标识开始位,固定不变;
Part为物理区域,取值范围为PT、PC、Pi、PM、PS、PD与PA;
Loc为对应Part区域的数字编号,包括两位数,取值范围为01-99,十位部分为当前章节中的段落序号,各位部分从1开始;
Func为功能区,即模板的功能块,取值范围为T、C、i、M、S、D与A;
Module为对应各个功能区的下属子模块,基于不同区的取值范围如下:
T:T通用、HRD-1、HRD-2、USP;
C:C通用、c-MSI;
I:TMB、i-MSI、PD-L1、MMR、im-gene、HLA、Neo;
M:M通用、m-MSI;
上述取值用于系统进行功能和对应模块的初始化;
D通用、S通用、A通用、Cglist、Cginfo,用于目录P、总结S、A章节部分使用;
Property为属性区,取值范围为t、p、g、b,r,其中t为表,p为段落,g为图,b为block,r为表格内的行,其中g与b均为双tag,t、p与r为单tag;
AgentID为编号ID,包含三位数字,构成不同标识代码,指代不同含义;
Action为元素的相斥属性,针对所设的定制时启用:
即保留此tag的基础上,判断本功能区下其他现有tag的删除程度,取值范围为default、add、delPart与delLoc。
具体而言,所述Action的删除取值范围为default、add、delPart与delLoc,具体如下:
default为默认内容,无判断处理;
add为新增内容,影响范围:0;本功能区下,所有tag不排斥;
delPart为大定制,Part删除:和此tag相同Part,和此tag不同ID或相同ID+action为非delPart的全Part删除;
delLoc为小定制,元素删除:和此tag相同Part+相同Loc+相同Property+不同id的元素。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种文档多样式数据填充及模块化自动生成方法,基于python与Shell编写构建模块,其特征在于:将tag标签植于初版Word文档内形成Word文档母板,模块通过读取植于Word文档母板内的tag标签,并进行识别与操作,对tag标签所在的各节点位置按需进行Word文档重构,包括以下步骤:
S100、在Word文档中添加tag标签,且tag标签为自定义标签,使得当前Word文档成为一个母板;
S200、自定义标签属性包含物理位置、功能、模块、属性、编号、以及操作模式,自定义标签元素内置支持互斥标记,基于互斥标记实现标签对应内容的新增、替换、互斥、自删除、标签自擦除功能;
S300、自定义标签所标记的内容包括表格、图片、文字、段落及连续的多个段落,对于表格、图片与文字可进行增加与删减,其可位于段落前、段落中或段落后,图片可位于表格前、表格中或表格后;
S400、基于需求设定,对文本内容进行颜色、是否加粗、字体大小进行渲染与调整;
S500、基于python算法可以对分节、分页符进行操作,即删除多余的空白页与根据属性处理相邻分页及分节符,相邻分页及分节符的处理方式具体包含分页+分页、分页+分节、分节+分页、分节+分节及这四种情况的任意及连续组合;
S600、对自定义标签标记的内容删除或添加内容后,针对剩余的内容按照指定的序号自动重新排序,输出源文件;
S700、对输出源文件的存在性、正确性的检测分析,将检测分析结果通过工作软件进行实时推送。
2.根据权利要求1所述的一种文档多样式数据填充及模块化自动生成方法,其特征在于,所述S100具体方法为:
建立报告模版文件中的多段式标签,标签分8段组成,包括物理定位、功能区分、产品模块包含以及元素属性定义:
标签定义的分段采用下划线,即每段标签间采用“_”,规则为:tag_Part_Loc_Func_Module_Property_AgentID_Action_;
以tag固定标识开头,构成Part、Loc、Func、Module、Property、AgentID、Action多维度,并通过上述维度对文档中的需要操作的内容进行描述定义,包括了元素所在物理位置、功能、模块、自身元素属性、产品编号、排斥操作;
各区段编码tag_Str_Num_Str_Str_Chr_Num_Str。
3.根据权利要求1所述的一种文档多样式数据填充及模块化自动生成方法,其特征在于,所述S200与S300整合具体方法为对文档进行扫描,引入正则匹配获取全部的多段式标签,通过标签的Part、Func、Module、Property、AgentID、Action属性匹配输入模块进行匹配,筛选出保留部分和删除部分,具体包括如下步骤:
首先根据多段式标签的定义,采用正则匹配:
pat=r"(tag(\_[\u4E00-\u9FA5a-zA-Z0-9\-]+){5}_\d\d\d_[a-zA-Z]+_)"
tagListAll=DocumentRun.get_taglist(docParentModify,pat);
而后扫描获取全部定义的分段式标签列表;
最后进行分类处理,即:
将tag转化成series数据,即通过index:value,在Part,Func,Module,Property,AgentID,Action多维度上对标签列表进行分类处理,同时引入排斥技术,采用Action段,实现当前标签的单独增加、大删除和小删除的处理功能。
4.根据权利要求1所述的一种文档多样式数据填充及模块化自动生成方法,其特征在于,所述S300的对文档的表格部分可进行如下操作:
表格的定位识别与删除,根据数据动态增加表格,表格内指定单元格内输入文本数据,表格的指定行填充数据,表格的行删除,表格的行高设置,表格内插入图片,单元格的填充色修改、设置,单元格的合并。
5.根据权利要求2所述的一种文档多样式数据填充及模块化自动生成方法,其特征在于,所述分段后的tag命名规则,即tag_Part_Loc_Func_Module_Property_AgentID_Action_的明显规则:
tag为标识开始位,固定不变;
Part为物理区域,取值范围为PT、PC、Pi、PM、PS、PD与PA;
Loc为对应Part区域的数字编号,包括两位数,取值范围为01-99,十位部分为当前章节中的段落序号,各位部分从1开始;
Func为功能区,即模板的功能块,取值范围为T、C、i、M、S、D与A;
Module为对应各个功能区的下属子模块,基于不同区的取值范围如下:
T:T通用、HRD-1、HRD-2、USP;
C:C通用、c-MSI;
I:TMB、i-MSI、PD-L1、MMR、im-gene、HLA、Neo;
M:M通用、m-MSI;
上述取值用于系统进行功能和对应模块的初始化;
D通用、S通用、A通用、Cglist、Cginfo,用于目录P、总结S、A章节部分使用;
Property为属性区,取值范围为t、p、g、b,r,其中t为表,p为段落,g为图,b为block,r为表格内的行,其中g与b均为双tag,t、p与r为单tag;
AgentID为编号ID,包含三位数字,构成不同标识代码,指代不同含义;
Action为元素的相斥属性,针对所设的定制时启用:
即保留此tag的基础上,判断本功能区下其他现有tag的删除程度,取值范围为default、add、delPart与delLoc。
6.根据权利要求5所述的一种文档多样式数据填充及模块化自动生成方法,其特征在于,所述Action的删除取值范围为default、add、delPart与delLoc,具体如下:
default为默认内容,无判断处理;
add为新增内容,影响范围:0;本功能区下,所有tag不排斥;
delPart为大定制,Part删除:和此tag相同Part,和此tag不同ID或相同ID+action为非delPart的全Part删除;
delLoc为小定制,元素删除:和此tag相同Part+相同Loc+相同Property+不同id的元素。
CN202310682063.9A 2023-06-09 2023-06-09 一种文档多样式数据填充及模块化自动生成方法 Pending CN116796707A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310682063.9A CN116796707A (zh) 2023-06-09 2023-06-09 一种文档多样式数据填充及模块化自动生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310682063.9A CN116796707A (zh) 2023-06-09 2023-06-09 一种文档多样式数据填充及模块化自动生成方法

Publications (1)

Publication Number Publication Date
CN116796707A true CN116796707A (zh) 2023-09-22

Family

ID=88039158

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310682063.9A Pending CN116796707A (zh) 2023-06-09 2023-06-09 一种文档多样式数据填充及模块化自动生成方法

Country Status (1)

Country Link
CN (1) CN116796707A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117272953A (zh) * 2023-11-15 2023-12-22 明度智云(浙江)科技有限公司 一种文档信息自动填充方法、系统和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117272953A (zh) * 2023-11-15 2023-12-22 明度智云(浙江)科技有限公司 一种文档信息自动填充方法、系统和存储介质
CN117272953B (zh) * 2023-11-15 2024-03-12 明度智云(浙江)科技有限公司 一种文档信息自动填充方法、系统和存储介质

Similar Documents

Publication Publication Date Title
CN111708773B (zh) 一种多源科创资源数据融合方法
US6721451B1 (en) Apparatus and method for reading a document image
US6031625A (en) System for data extraction from a print data stream
US8285750B2 (en) Computer-based system and method for generating, classifying, searching, and analyzing standardized text templates and deviations from standardized text templates
US9690788B2 (en) File type recognition analysis method and system
US11314807B2 (en) Methods and systems for comparison of structured documents
CN110738037B (zh) 用于自动生成电子表格的方法、装置、设备及存储介质
CN110738027B (zh) 生成电子表格公式的计算机实现的方法、设备和存储介质
CN113822037B (zh) 插入占位符并生成数据映射表的方法、装置、设备及介质
CN116796707A (zh) 一种文档多样式数据填充及模块化自动生成方法
Ding et al. VQA: A new dataset for real-world VQA on PDF documents
CN114547077A (zh) 基层政务表格数据智能处理系统及方法
Böschen Software review: The JATSdecoder package—extract metadata, abstract and sectioned text from NISO-JATS coded XML documents; Insights to PubMed central’s open access database
CN116701506A (zh) 融合非结构化数据的需求计划合规性检验方法
CN113642291B (zh) 上市公司报告的逻辑结构树构建方法、系统、存储介质及终端
JP2018037017A (ja) 分析装置、分析方法、および分析プログラム
Gephart et al. Qualitative Data Analysis: Three Microcomputer-Supported Approaches.
CN107844464A (zh) 基于数据插入的文件生成系统及方法
CN114118098A (zh) 基于要素抽取的合同评审方法、设备及存储介质
CN113590115A (zh) 一种业务系统代码自动生成方法及装置
CN114118026A (zh) 文档自动化生成方法、装置及计算机存储介质、电子设备
US20180165267A1 (en) System and method for cell comparison between spreadsheets
CN112766889B (zh) 一种工作任务动态分类管理方法及装置
Milosavljevic et al. XML schema of UNIMARC format variant and bibliographic record in BISIS software system
Romero Automated BCF Data Extraction For BIM QC Communication

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination