CN116796707A

CN116796707A - 一种文档多样式数据填充及模块化自动生成方法

Info

Publication number: CN116796707A
Application number: CN202310682063.9A
Authority: CN
Inventors: 白昱; 尤明聪; 白帆; 王瑞雪; 时静; 保华荣; 徐梦迪; 黄刚; 杨阳霄; 张恒
Original assignee: Zhejiang Baiyining Medical Laboratory Co ltd
Current assignee: Zhejiang Baiyining Medical Laboratory Co ltd
Priority date: 2023-06-09
Filing date: 2023-06-09
Publication date: 2023-09-22

Abstract

本发明公开了一种用于文档多样式数据填充及模块化自动生成的方法，该方法通过Python和Shell编程语言实现为模块算法，该模块算法能够识别、保留、删除以及排序、修改、添加和格式化Word文档中的不同元素，如章节、段落、文档片段、表格、图片、以及表格特定行或特定单元格中的内容。在运行时，算法接收以下文件作为输入：内置tag标签的word母版文档、模块配置文件、标签及源数据对应关系配置文件、各种源数据文件等。可以实现模块化、定制化、自动化输出各种包含不同需求内容的文档，极大的节约工作人员制作以及审核定制化文档的时间，具有显著的应用价值。

Description

一种文档多样式数据填充及模块化自动生成方法

技术领域

本发明涉及文档自动化处理技术领域，具体为一种文档多样式数据填充及模块化自动生成方法。

背景技术

文档自动化技术节省了大量重复文档所花费的巨大人力劳动，更高效完成格式化文档的生成，在现有的自动化应用里，存在着模版文件数量多、匹配模式单一，修改困难、工作量大的问题，自动化过程中只能按照固定顺序填写数据的限制，无法定位或定位方式不精准，对文档元素操作上不可删除、不可调、易出现错位等差错，自动化程度偏低，没有更好的操作粒度，极大的影响了在实际工作生活中的运用。

一个文档自动化系统能够自动地填充文档中的所有条件文本、变量值、和数据。这种系统可以使得企业将数据录入工作最小化，通过计算机高效自动地生成处理这些机构的标准业务文档，使得用户可以简单快速地生成正式、精确、规范的文档文书，减少审阅次数，并降低与人为错误相关的风险。

然而，自动化系统在很多应用场景下处理数据时还需要非固定顺序操作，增、删、改图片、表格等其他非文本元素，以及动态的删减文档内的单元章节，输出符合不同输入需求的文档，这些是无法解决的。

因此，设计实用性强，且高效准确的文档多样式数据填充及模块化自动生成方法是很有必要的。

发明内容

本发明的目的在于提供一种文档多样式数据填充及模块化自动生成方法，以解决上述背景技术中提出的问题。

为了解决上述技术问题，本发明提供如下技术方案：

一种文档多样式数据填充及模块化自动生成方法，基于python与Shell编写构建模块，将tag标签植于初版Word文档内形成Word文档母板，模块通过读取植于Word文档母板内的tag标签，并进行识别与操作，对tag标签所在的各节点位置按需进行Word文档重构，包括以下步骤：

S100、通过tag标签对Word进行添加，且tag标签为自定义标签，使得当前Word文档成为一个母板；

S200、自定义标签属性包含物理位置、功能、模块、属性、编号、以及操作模式，自定义标签元素内置互斥标记，基于互斥标记实现标签对应内容的新增、替换、互斥、自删除、标签自擦除功能；

S300、自定义标签所标记的文本内容包括表格、图片、文字、段落及多个连续的段落，对于表格、图片与文字可进行增加与删减，其可位于段落前、段落中或段落后，图片可位于表格前、表格中或表格后；

S400、基于需求设定，对文本内容进行颜色、是否加粗、字体大小进行渲染与调整；

S500、基于python算法可以对分节、分页符进行操作，即删除多余的空白页与根据属性处理相邻分页及分节符，相邻分页及分节符的处理方式具体包含分页+分页、分页+分节、分节+分页、分节+分节及这四种情况的任意及连续组合；

S600、对自定义标签标记的内容删除或添加内容后，针对剩余的内容按照指定的序号自动重新排序，输出源文件；

S700、对输出源文件的存在性、正确性的检测分析，将检测分析结果通过工作软件进行实时推送。

根据上述技术方案，所述S100具体方法为：

建立报告模版文件中的多段式标签，标签分8段组成，包括物理定位、功能区分、产品模块包含以及元素属性定义：

标签定义的分段采用下划线，即每段标签间采用“_”，规则为：tag_Part_Loc_Func_Module_Property_AgentID_Action_；

以tag固定标识开头，构成Part、Loc、Func、Module、Property、AgentID、Action多维度，并通过上述维度对文档中的需要操作的内容进行描述定义，包括了元素所在物理位置、功能、模块、自身元素属性、产品编号、排斥操作；

各区段编码tag_Str_Num_Str_Str_Chr_Num_Str。

根据上述技术方案，所述S200与S300整合具体方法为对文档进行扫描，引入正则匹配获取全部的多段式标签，通过标签的Part、Func、Module、Property、AgentID、Action属性匹配输入模块进行匹配，筛选出保留部分和删除部分，具体包括如下步骤：

首先根据多段式标签的定义，采用正则匹配：

pat＝r"(tag(\_[\u4E00-\u9FA5a-zA-Z0-9\-]+){5}_\d\d\d_[a-zA-Z]+_)"

tagListAll＝DocumentRun.get_taglist(docParentModify,pat)；

而后扫描获取全部定义的分段式标签列表；

最后进行分类处理，即：

将tag转化成series数据，即通过index：value，在Part,Func,Module,Property,AgentID,Action多维度上对标签列表进行分类处理，同时引入排斥技术，采用Action段，实现当前标签单独增加、大删除和小删除的处理功能；

根据上述技术方案，所述S300的对文档的表格部分可进行如下操作：

表格的定位识别与删除，根据数据动态增加表格，表格内指定单元格内输入文本数据，表格的指定行填充数据，表格的行删除，表格的行高设置，表格内插入图片，单元格的填充色修改、设置，单元格的合并。

根据上述技术方案，所述分段后的tag命名规则，即tag_Part_Loc_Func_Module_Property_AgentID_Action_的明显规则：

tag为标识开始位，固定不变；

Part为物理区域，取值范围为PT、PC、Pi、PM、PS、PD与PA；

Loc为对应Part区域的数字编号，包括两位数，取值范围为01-99，十位部分为当前章节中的段落序号，各位部分从1开始；

Func为功能区，即模板的功能块，取值范围为T、C、i、M、S、D与A；

Module为对应各个功能区的下属子模块，基于不同区的取值范围如下：

T：T通用、HRD-1、HRD-2、USP；

C：C通用、c-MSI；

I：TMB、i-MSI、PD-L1、MMR、im-gene、HLA、Neo；

M:M通用、m-MSI；

上述取值用于系统进行功能和对应模块的初始化；

D通用、S通用、A通用、Cglist、Cginfo，用于目录P、总结S、A章节部分使用；

Property为属性区，取值范围为t、p、g、b，r，其中t为表，p为段落，g为图，b为block，r为表格内的行，其中g与b均为双tag，t、p与r为单tag；

AgentID为编号ID，包含三位数字，构成不同标识代码，指代不同含义；

Action为元素的相斥属性，针对所设的定制时启用：

即保留此tag的基础上，判断本功能区下其他现有tag的删除程度，取值范围为default、add、delPart与delLoc。

根据上述技术方案，所述Action的删除取值范围为default、add、delPart与delLoc，具体如下：

default为默认内容，无判断处理；

add为新增内容，影响范围：0；本功能区下，所有tag不排斥；

delPart为大定制，Part删除：和此tag相同Part，和此tag不同ID或相同ID+action为非delPart的全Part删除；

delLoc为小定制，元素删除：和此tag相同Part+相同Loc+相同Property+不同id的元素。

与现有技术相比，本发明所达到的有益效果是：

通过Python和Shell编程语言实现为模块算法，该模块算法能够识别、保留、删除以及排序、修改、添加和格式化Word文档中的不同元素，如章节、段落、文档片段、表格、图片、以及表格特定行或特定单元格中的内容。在运行时，算法接收以下文件作为输入：内置tag标签的word母版文档、模块配置文件、标签及源数据对应关系配置文件、各种源数据文件等。可以实现模块化、定制化、自动化输出各种包含不同需求内容的文档，极大的节约工作人员制作以及审核定制化文档的时间，具有显著的应用价值。

具体实施方式

下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供技术方案：

S600、对自定义标签标记的内容删除或添加内容后，针对剩余的内容指定的序号自动重新排序，形成整版输出源文件；

具体而言，所述S100具体方法为：

各区段编码tag_Str_Num_Str_Str_Chr_Num_Str。

具体而言，所述S200与S300整合具体方法为对文档进行扫描，引入正则匹配获取全部的多段式标签，通过标签的Part、Func、Module、Property、AgentID、Action属性匹配输入模块进行匹配，筛选出保留部分和删除部分，具体包括如下步骤：

首先根据多段式标签的定义，采用正则匹配：

pat＝r"(tag(\_[\u4E00-\u9FA5a-zA-Z0-9\-]+){5}_\d\d\d_[a-zA-Z]+_)"

tagListAll＝DocumentRun.get_taglist(docParentModify,pat)；

而后扫描获取全部定义的分段式标签列表；

最后进行分类处理，即：

具体而言，所述S300的对文档的表格部分可进行如下操作：

具体而言，所述分段后的tag命名规则，即

tag_Part_Loc_Func_Module_Property_AgentID_Action_的明显规则：

tag为标识开始位，固定不变；

Part为物理区域，取值范围为PT、PC、Pi、PM、PS、PD与PA；

T：T通用、HRD-1、HRD-2、USP；

C：C通用、c-MSI；

I：TMB、i-MSI、PD-L1、MMR、im-gene、HLA、Neo；

M:M通用、m-MSI；

上述取值用于系统进行功能和对应模块的初始化；

Action为元素的相斥属性，针对所设的定制时启用：

具体而言，所述Action的删除取值范围为default、add、delPart与delLoc，具体如下：

default为默认内容，无判断处理；

add为新增内容，影响范围：0；本功能区下，所有tag不排斥；

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文档多样式数据填充及模块化自动生成方法，基于python与Shell编写构建模块，其特征在于：将tag标签植于初版Word文档内形成Word文档母板，模块通过读取植于Word文档母板内的tag标签，并进行识别与操作，对tag标签所在的各节点位置按需进行Word文档重构，包括以下步骤：

S100、在Word文档中添加tag标签，且tag标签为自定义标签，使得当前Word文档成为一个母板；

S200、自定义标签属性包含物理位置、功能、模块、属性、编号、以及操作模式，自定义标签元素内置支持互斥标记，基于互斥标记实现标签对应内容的新增、替换、互斥、自删除、标签自擦除功能；

S300、自定义标签所标记的内容包括表格、图片、文字、段落及连续的多个段落，对于表格、图片与文字可进行增加与删减，其可位于段落前、段落中或段落后，图片可位于表格前、表格中或表格后；

2.根据权利要求1所述的一种文档多样式数据填充及模块化自动生成方法，其特征在于，所述S100具体方法为：

各区段编码tag_Str_Num_Str_Str_Chr_Num_Str。

3.根据权利要求1所述的一种文档多样式数据填充及模块化自动生成方法，其特征在于，所述S200与S300整合具体方法为对文档进行扫描，引入正则匹配获取全部的多段式标签，通过标签的Part、Func、Module、Property、AgentID、Action属性匹配输入模块进行匹配，筛选出保留部分和删除部分，具体包括如下步骤：

首先根据多段式标签的定义，采用正则匹配：

pat＝r"(tag(\_[\u4E00-\u9FA5a-zA-Z0-9\-]+){5}_\d\d\d_[a-zA-Z]+_)"

tagListAll＝DocumentRun.get_taglist(docParentModify,pat)；

而后扫描获取全部定义的分段式标签列表；

最后进行分类处理，即：

将tag转化成series数据，即通过index：value，在Part,Func,Module,Property,AgentID,Action多维度上对标签列表进行分类处理，同时引入排斥技术，采用Action段，实现当前标签的单独增加、大删除和小删除的处理功能。

4.根据权利要求1所述的一种文档多样式数据填充及模块化自动生成方法，其特征在于，所述S300的对文档的表格部分可进行如下操作：

5.根据权利要求2所述的一种文档多样式数据填充及模块化自动生成方法，其特征在于，所述分段后的tag命名规则，即tag_Part_Loc_Func_Module_Property_AgentID_Action_的明显规则：

tag为标识开始位，固定不变；

Part为物理区域，取值范围为PT、PC、Pi、PM、PS、PD与PA；

T：T通用、HRD-1、HRD-2、USP；

C：C通用、c-MSI；

I：TMB、i-MSI、PD-L1、MMR、im-gene、HLA、Neo；

M:M通用、m-MSI；

上述取值用于系统进行功能和对应模块的初始化；

Action为元素的相斥属性，针对所设的定制时启用：

6.根据权利要求5所述的一种文档多样式数据填充及模块化自动生成方法，其特征在于，所述Action的删除取值范围为default、add、delPart与delLoc，具体如下：

default为默认内容，无判断处理；

add为新增内容，影响范围：0；本功能区下，所有tag不排斥；