CN117272953A - 一种文档信息自动填充方法、系统和存储介质 - Google Patents
一种文档信息自动填充方法、系统和存储介质 Download PDFInfo
- Publication number
- CN117272953A CN117272953A CN202311522096.3A CN202311522096A CN117272953A CN 117272953 A CN117272953 A CN 117272953A CN 202311522096 A CN202311522096 A CN 202311522096A CN 117272953 A CN117272953 A CN 117272953A
- Authority
- CN
- China
- Prior art keywords
- filled
- document
- data
- information
- filling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 90
- 230000008569 process Effects 0.000 claims abstract description 59
- 238000004590 computer program Methods 0.000 claims description 15
- 238000012216 screening Methods 0.000 claims description 10
- 238000012795 verification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 2
- 230000008439 repair process Effects 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009469 supplementation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/174—Form filling; Merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种文档信息自动填充方法、系统和存储介质,在获取待填充的目标word文档后,首先通过采集所述目标word文档的填充配置信息获取所属文档待填充数据名称,并根据文档的身份信息从文件管理系统中查询其审批流程数据,使该系统可根据所述待填充数据名称从所述审批流程数据中获取到对应的待填充数据,解析目标word文档中的所有域元素并根据各域元素中所包含的文本内容筛选出需要进行填充更新的目标域元素,将采集获得的待填充数据向对应的目标域元素中进行填充形成最终文档,使该系统可将文档相关更新属性信息和审批信息等进行自动填充,避免了手动更新过程所造成的失误和遗漏,并节省时间精力。
Description
技术领域
本发明涉及文档处理技术领域,尤其涉及一种文档信息自动填充方法、系统和存储介质。
背景技术
文件管理系统是一种用于组织、存储和检索电子文件的软件系统,它提供了一个集中管理文件的平台,使用户可以有效地管理和利用文件资源,对文件相关信息进行追踪和记录。在传统文件管理系统中,当文件相关属性信息,例如文件名称、文件编号、文件版本、起草人等信息需进行更新时,相关工作人员需在人为获取到变化后的信息后,将变化的信息手动更新到对应文件内容中。这些手动更新操作往往需要耗费大量时间和精力,且在手动更新的过程中十分容易出现疏漏和错误。
发明内容
本发明针对现有技术中的不足,公开了一种文档信息自动填充方法,包括如下步骤:
S1,获取待填充的目标word文档;
S2,采集所述目标word文档的填充配置信息,所述填充配置信息包括待填充数据名称,根据所述目标word文档的身份信息从文件管理系统中查询对应该目标word文档的审批流程数据,根据所述待填充数据名称从所述审批流程数据中采集获取对应的待填充数据;
S3,解析目标word文档中的所有域元素,根据各域元素中所包含的文本内容来筛选出需要进行填充更新的目标域元素;
S4,在获得全部需填充的目标域元素信息后,将采集获得的待填充数据向对应的目标域元素中进行填充,更新形成最终文档。
优选的,所述待填充数据包括审批流程数据和文档属性信息,所述审批流程数据包括但不限于目标word文档的起草信息、审核信息和/或批准信息,所述文档属性信息包括但不限于该目标word文档的文件名称、文件版本或文件编号.
优选的,所述步骤S2具体包括:
S21,识别获取所述目标word文档的文档类别,根据所述文档类别查询模板数据库获取对应的标准文档模板,对所述标准文档模板进行解析后获取填充配置信息,所述填充配置信息包括待填充数据名称;
S22,获取所述目标word文档的文件名称,根据所述文件名称在文件管理系统中查询关联该文件名称的各个审批流程;
S23,在各个审批流程中采集对应所述待填充数据名称的审批过程信息,形成对应该目标word文档的待填充数据保存至填充数据库中。
优选的,所述步骤S3具体包括:
解析目标word文档中的所有域元素,循环遍历每个域元素,通过判断该域元素中的Type属性是否为wdFieldRef类型来确定该域元素是否为域代码;
若该域元素为域代码则获取域代码的文本内容并根据填充配置信息中的需求来解析域代码;
将待填充数据名称分别与各识别的域元素中的文本内容进行识别匹配,若文本内容中能匹配至少一待填充数据名称则将所属域元素作为需进行填充更新的一目标域元素。
优选的,所述步骤S4具体包括:
S41,在将所有采集获得的待填充数据与需填充的目标域元素进行关联后,分别将待填充数据向对应的目标域元素中进行填充,根据目标word文档中定位到的Columns属性判断在目标word文档中是否有表格类型数据存在;
S42,如果存在表格类型数据则对文档编码进行解析,根据Columns属性信息定位到目标word文档中的表格位置区域,判断是否有目标域元素在表格位置区域内;
S43,若在表格位置区域内存在目标域元素,则获取携带有相应的目标域元素信息的表头行,根据表头元素个数获取需填充的列个数,根据列个数逐行遍历获取对应的属性名、属性值与待填充数据的单元格对应关系;
S44,在表格类型数据中插入表格行并设置单元格样式,根据所述单元格对应关系将采集获得的对应待填充数据填充至插入的表格行中,更新形成最终文档。
优选的,所述步骤S4还包括:
如果不存在表格类型数据、或存在表格类型数据但根据Columns属性信息定位到目标word文档中的表格位置区域后查询到目标域元素在表格位置区域外,则直接将采集获得的待填充数据向对应的目标域元素中进行填充,更新形成最终文档。
若以Array结尾会将相应的文件审批信息进行换行填充,若以Str结尾会将相应的文件审批信息以逗号拼接填充。
本发明还公开了一种文档信息自动填充系统,包括:文档获取模块,用于获取待填充的目标word文档;数据获取模块,用于采集所述目标word文档的填充配置信息,所述填充配置信息包括待填充数据名称,根据所述目标word文档的身份信息从文件管理系统中查询对应该目标word文档的审批流程数据,根据所述待填充数据名称从所述审批流程数据中采集获取对应的待填充数据;域元素筛选模块,用于解析目标word文档中的所有域元素,根据各域元素中所包含的文本内容来筛选出需要进行填充更新的目标域元素;数据填充模块,用于在获得全部需填充的目标域元素信息后,将采集获得的待填充数据向对应的目标域元素中进行填充,更新形成最终文档。
优选的,所述数据获取模块包括:填充配置信息获取模块,用于识别获取所述目标word文档的文档类别,根据所述文档类别查询模板数据库获取对应的标准文档模板,对所述标准文档模板进行解析后获取填充配置信息,所述填充配置信息包括待填充数据名称;审批流程数据获取模块,用于获取所述目标word文档的文件名称,根据所述文件名称在文件管理系统中查询关联该文件名称的各个审批流程;填充数据获取模块,用于在各个审批流程中采集对应所述待填充数据名称的审批过程信息,形成对应该目标word文档的待填充数据保存至填充数据库中。
本发明还公开了一种文档信息自动填充装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如前述任一所述文档信息自动填充方法的步骤。
本发明还公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如前述任一所述文档信息自动填充方法的步骤。
本发明公开的一种文档信息自动填充方法、系统和存储介质,通过所获取到的目标Word文档的填充配置信息中的待填充数据名称在所查询到的目标Word文档的审批流程数据中获得其相关待填充数据,并解析目标Word文档的所有域元素筛选出需要进行填充的目标域元素,最终将采集获得的待填充数据向对应的目标域元素中进行填充形成最终文档,使得该系统可通过简便快速的自动填充方法将文件管理系统中所需更新填充的数据及时填充到相关文档中,避免了手动填充文档所带来的错误和遗漏,提高了文件管理系统的工作效率和准确性,节省用户的时间和精力。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明一实施例公开的文档信息自动填充方法的流程示意图。
图2为本发明一实施例公开的步骤S2的具体流程示意图。
图3为本发明一实施例公开的步骤S4的具体流程示意图。
图4为本发明另一实施例公开的文档信息自动填充控制系统的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另作定义,此处使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明专利申请说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。同样,“一个”或者“一”等类似词语也不表示数量限制,而是表示存在至少一个。
本实施例中,公开了一种文档信息自动填充方法,如附图1所示,该方法具体可包括如下步骤。
步骤S1,获取待填充的目标word文档。
具体的,当操作人员发出更新指令时,该系统调用文件填充组件,使用jacob创建一个ActiveXComponent对象,并使用Documents属性来获取并打开待填充的目标Word文档。
步骤S2,采集所述目标word文档的填充配置信息,所述填充配置信息包括待填充数据名称,根据所述目标word文档的身份信息从文件管理系统中查询对应该目标word文档的审批流程数据,根据所述待填充数据名称从所述审批流程数据中采集获取对应的待填充数据。
具体的,所获取的待填充数据名称和待填充数据以map数据结构形式存储于填充数据库中。所述待填充数据包括审批流程数据和文档属性信息,所述审批流程数据包括但不限于目标word文档的起草信息、审核信息和/或批准信息,所述文档属性信息包括但不限于该目标word文档的文件名称、文件版本或文件编号。
具体的,该文档属性信息可通过查询该目标word文档本身属性界面获得;该审批流程数据可通过查询系统内部的审批流程获得。通过获取审批流程数据与文档属性信息,使系统较为基本全面的捕捉获取该目标Word文档所需填充内容。其中,该目标Word文档的文件编号唯一且不变,由系统根据预设规则自动生成,如编号20230620004,为根据预设文件编号规则 “年+月+日+当天已创建文件数量”自动生成。
如附图2所示,所述步骤S2可以具体包括如下内容。
步骤S21,识别获取所述目标word文档的文档类别,根据所述文档类别查询模板数据库获取对应的标准文档模板,对所述标准文档模板进行解析后获取填充配置信息,所述填充配置信息包括待填充数据名称。其中模版数据库中预先存储有各文档类别及其对应的标准文档模版。
步骤S22,获取所述目标word文档的文件名称,根据所述文件名称在文件管理系统中查询关联该文件名称的各个审批流程。
具体的,文件的审批流程因不同企业、组织的规模、性质、需求以及文件本身的类型、重要程度等而有所不同,在本实施例中,可根据该目标Word文档的文件名称判断其所关联的审批流程。 其中,该Word文档的文件名称可通过手动键入功能由操作人员进行输入及修改。
在另一实施例中,该Word文档名称还可通过自动获取的方式得到,则步骤S22还包括如下内容。
判断该目标Word文档是否为初次创建。
若该目标Word文档为初次创建,则获取预设第一时间内该系统所接收到和所新创建的各文件的文件名称并生成候选选项组供操作人员选择,将操作人员所选取的候选选项作为该目标Word文档的文件名称。
若该目标Word文档不为初次创建,则在该目标Word文档的属性信息页面中获取该目标Word文档的文件名称。
步骤S23,在各个审批流程中采集对应所述待填充数据名称的审批过程信息,形成对应该目标word文档的待填充数据保存至填充数据库中。
具体的,所述步骤S23可以具体包括如下内容。
步骤S231,根据文件名称获取预设时间内各个审批流程中该文档审批流程数据,所述预设时间被配置为以该目标Word文档上一次填充更新时间点为起始至当前时间点。
步骤S232,采集对应所述待填充数据名称的审批过程信息并保存至填充数据库中。
进一步地,因该目标Word文档的文档属性信息在多次修订更新的过程中可能存在被修改的情况,则可根据各审批流程中各节点内该文档的最新数据对该目标Word文档的文档属性信息进行校验和修正,则所述步骤S2还可包括如下内容。
根据所述待填充数据名称从所述审批流程数据中获取对应校验数据,根据校验数据对所述文档属性信息进行校验调整后形成第三待填充数据,具体包括如下步骤。
步骤S101,从所述审批流程数据中获取各审批节点的多个节点数据组作为校验数据,所述节点数据组包括该节点的文件名称、文件版本和节点建立时间。
步骤S102,将校验数据中的各审批节点的文件名称与所述文档属性信息中的文件名称进行对比,如果不一致则对各审批节点的文件名称进行对比,若各审批节点的文件名称一致则将其作为第三待填充数据中的文件名称,若各审批节点的文件名称不一致则保留所述文档属性信息中的文件名称作为第三待填充数据内的文件名称。
所述步骤S102还包括:
查找所述文档属性信息中是否包含文件版本,如果包含则判断校验数据中的各审批节点的文件版本是否相同,若相同则获取该文件版本作为第三待填充数据内的文件版本。
若不相同则比对各节点对应的文件版本是否高于或等于前一节点的文件版本,若是则判断所述文档属性信息内的文件版本是否高于或等于各节点内的最高文件版本,若高于或等于则保留所述文档属性信息中的文件版本作为第三待填充数据内的文件版本,否则发出文件版本校验提醒。
如果所述文档属性信息中不包含文件版本则将最后一节点数据组中的文件版本作为第三待填充数据内的文件版本。
步骤S3,解析目标word文档中的所有域元素,根据各域元素中所包含的文本内容来筛选出需要进行填充更新的目标域元素。
具体的,该目标Word文档中存在多种域元素,比如进行目录、页码、索引自动填充的域元素、进行公式计算的域元素,进行,以及设置格式或者隐藏属性等的域元素。上述类型域元素并不为本实施例所需求的目标域元素,无需对其进行选择,以避免对其他域元素信息造成错误更改。
所述步骤S3具体包括如下内容。
解析目标word文档中的所有域元素,循环遍历每个域元素,通过判断该域元素中的Type属性是否为wdFieldRef类型来确定该域元素是否为域代码。若该域元素为域代码则获取域代码的文本内容并根据填充配置信息中的需求来解析域代码。将待填充数据名称分别与各识别的域元素中的文本内容进行识别匹配,若文本内容中能匹配至少一待填充数据名称则将所属域元素作为需进行填充更新的一目标域元素。
进一步地,若该目标Word文档的填充配置信息中存在部分待填充数据名称未能与该目标Word文档内所识别域元素的文本内容匹配,则需将该部分填充数据名称通过新建域或插入域的形式添加至该目标Word文件中,则可定义还未匹配成功的待填充数据名称为第一关键词、已匹配成功的待填充数据名称为第二关键词,则所述步骤S3还可包括如下内容。
步骤S201,判断各第一关键词在第二关键词组中是否存在与其关联的关联关键词,该关联关键词被配置为具有关联关系的关键词,该第二关键词组包含所有第二关键词。
步骤S202,若在该第二关键词组中存在与该第一关键词关联的关联关键词,则将该第一关键词插入该关联关键词所在域元素中;若该第二关键词组中不存在与该第一关键词关联的关联关键词,则新建域元素并将该第一关键词填充至该新建域元素中。
进一步地,若存在多个在该第二关键词组无关联关键词的第一关键词,则判断此类第一关键词之间是否存关联关系,若存在关联关系则新建域并将具有关联关系的此类第一关键词插入同一个新建域中。
其中,所述不同关键词之间的关联关系可通过预先设置得到,也可通过两关键词关联概率值判断得到。当两关键词之间的关联概率值超过第一预设值时,这两个关键词之间具有关联关系。其中,所述关联概率值可通过该文件管理系统中存储的其他填充Word文档经过分析计算得到,具体步骤如下:
获取该文件管理系统中存储的所有填充Word文档。解析各填充word文档中的所有域元素并获取域元素中的文本内容,将各填充Word文档中解析获取的文本内容作为关键词与其对应的域元素记录至过程数据库中。设置任意两关键词之间的初始关联概率值为0,遍历过程数据库中存储的各关键词,若两关键词在同一域元素内存在一次,则将两关键词之间的初始概率值加1。
步骤S4,在获得全部需填充的目标域元素信息后,将采集获得的待填充数据向对应的目标域元素中进行填充,更新形成最终文档。
具体的,在更新完成形成最终文档后,调用forceSaveAs将文件另存为pdf文件。同时,因为doc文件存在兼容性问题,在处理时若检测到文件损坏,会弹出警告框,以提示用户是否尝试修复文档,导致程序阻塞无法正常执行,所以针对word的不同格式比如doc、docx采取了兼容做法,设置文档在打开时,禁用修复对话框的显示,支持启用宏,不开启密码保护,禁用文档转换器。
在本实施例中,如附图3所示,该步骤S4可以具体包括如下内容。
步骤S41,在将所有采集获得的待填充数据与需填充的目标域元素进行关联后,分别将待填充数据向对应的目标域元素中进行填充,根据目标word文档中定位到的Columns属性判断在目标word文档中是否有表格类型数据存在。
具体的,为了保证该目标Word文档中所呈现的各项数据准确清晰、方便查看和检索,该目标Word文档中的大部分数据以表格的形式呈现,也有少部分内容以非表格形式呈现。若数据以表格形式呈现,则该目标word文档需要以增加表格行列的形式容纳新一轮需填充至表格中的待填充数据;若数据以非表格形式呈现时,则该目标word文档信息可直接向对应域元素中填充待填充数据。即数据的呈现方式不同,在进行数据填充时所应采取的数据填充方式也不同。在填入待填充数据前,需对该目标word文档中不同位置处域元素数据的呈现方式进行判断以进行下一步操作。
步骤S42,如果存在表格类型数据则对文档编码进行解析,根据Columns属性信息定位到目标word文档中的表格位置区域,判断是否有目标域元素在表格位置区域内。
具体的,当系统获取到该目标Word文档中的表格类型数据时,所检索到的表格中的内容可能为不需要进行数据填充的固定数字,也可能为需要进行数据填充的域元素,则还需对该表格数据是否需要进行填充进行判断,即判断是否有目标域元素在表格位置区域内。
步骤S43,若在表格位置区域内存在目标域元素,则获取携带有相应的目标域元素信息的表头行,根据表头元素个数获取需填充的列个数,根据列个数逐行遍历获取对应的属性名、属性值与待填充数据的单元格对应关系。
具体的,进一步获取表头行中的目标域元素,根据表格中的目标域元素的个数和具体文本内容获取每个待填充数据在表格内所应填充的位置,所述步骤S43还包括:获取表头行携带的目标域元素个数以及各目标域元素内部的文本信息,将获取的各文本信息与待填充数据库中的待填充信息名称依次匹配,若匹配成功则记录该域元素信息位置。
步骤S44,在表格类型数据中插入表格行并设置单元格样式,根据所述单元格对应关系将采集获得的对应待填充数据填充至插入的表格行中,更新形成最终文档。
具体的,若该表格区域存在目标域元素,则在该表格预设位置处插入新表格行。比如,设置在表格表头行下方插入新表格行、设置在表格最后一行下方插入新表格行。进一步地,若该表格最下方已触及该目标Word文档页面边缘,则在下一次更新时在下一页重新建立表头行相同的新表格并进行数据填充。
在另一实施例中,表格的表头还可以列的形式存在,此时若在表格位置区域内存在目标域元素,则获取携带有相应的目标域元素信息的表头列,根据表头元素个数获取需填充的行个数,根据行个数逐行遍历获取对应的属性名、属性值与待填充数据的单元格对应关系。
此时,通过增加表格列的形式将每次更新的信息填充至目标Word文档中,若该表格最右方已触及Word页面边缘,则可在该表格下面重新建立表头列相同的新表格进行数据补充。
进一步地,还存在表格中的目标域元素不止分布于表头行还分布在表格任意位置处的情况,则该种情况下,若在表格位置区域内存在目标域元素,则获取携带有相应的目标域元素信息的表格行,根据表格行数获取需填充的行个数,根据行个数逐行遍历获取对应的属性名、属性值与待填充数据的单元格对应关系。
在进行数据填充时,在该表格下方建立格式布局相同的新表格并根据所述单元格对应关系将采集获得的对应待填充数据填充至新表格中。
在本实施例中,步骤S4还可以包括:如果不存在表格类型数据、或存在表格类型数据但根据Columns属性信息定位到目标word文档中的表格位置区域后查询到目标域元素在表格位置区域外,则直接将采集获得的待填充数据向对应的目标域元素中进行填充,更新形成最终文档。
具体的,该目标Word文档中还存在以非表格形式呈现的信息。当光标定位到的域元素不在表格内部中时,比如不存在表格类型数据,或者存在表格类型数据但表格类型数据只作为固定数据存在而不进行更新,所需更新的信息在表格之外,直接填充待填充数据即可
进一步地,文件在修订以及审批过程中,可能会出现同一审批流程中存在多个审核人的情况,即可能存在需要进行数据分段的待填充数据。本实施例对此类情况提供两种数据填充格式,一种以Array结尾,一种以Str结尾,可根据需要进行设置。若以Array结尾会将相应的文件审批信息进行换行填充,若以Str结尾会将相应的文件审批信息以逗号拼接填充。
进一步地,Word文档页眉的填充与页面内的填充存在不同,可能会因为页面存在分节符的情况而系导致统无法扫描到正确的页眉页脚数量,则此时该方法还包括:在获取活动窗体对象后,通过活动窗格对象中的视窗抓取页眉位置,通过核查段落的样式属性是否为分节符来确定所在页眉处是否存在分节符。如果存在分节符,则从目标word文档首页开始从前往后依次对各页面的页眉进行待填充数据的填充更新后,再从目标word文档尾页开始从后往前依次对各页面的页眉再次进行待填充数据的填充更新后,形成最终文档。
本实施例公开的文档信息自动填充方法,通过所获取到的目标Word文档的填充配置信息中的待填充数据名称在所查询到的目标Word文档的审批流程数据中获得其相关待填充数据,并解析目标Word文档的所有域元素筛选出需要进行填充的目标域元素,最终将采集获得的待填充数据向对应的目标域元素中进行填充形成最终文档,使得该系统可通过简便快速的自动填充方法将文件管理系统中所需更新填充的数据及时填充到相关文档中,避免了手动填充文档所带来的错误和遗漏,提高了文件管理系统的工作效率和准确性,节省用户的时间和精力。
在另一实施例中,如附图4所示,还公开了一种文档信息自动填充系统,包括文档获取模块1、数据获取模块2、域元素筛选模块3、数据填充模块4。其中文档获取模块1用于获取待填充的目标word文档。数据获取模块2,采集所述目标word文档的填充配置信息,所述填充配置信息包括待填充数据名称,根据所述目标word文档的身份信息从文件管理系统中查询对应该目标word文档的审批流程数据,根据所述待填充数据名称从所述审批流程数据中采集获取对应的待填充数据。域元素筛选模块3,用于解析目标word文档中的所有域元素,根据各域元素中所包含的文本内容来筛选出需要进行填充更新的目标域元素。数据填充模块4,用于在获得全部需填充的目标域元素信息后,将采集获得的待填充数据向对应的目标域元素中进行填充,更新形成最终文档。
在本实施例中,所述数据获取模块2包括填充配置信息获取模块、审批流程数据获取模块和填充数据获取模块。其中填充配置信息获取模块,用于识别获取所述目标word文档的文档类别,根据所述文档类别查询模板数据库获取对应的标准文档模板,对所述标准文档模板进行解析后获取填充配置信息,所述填充配置信息包括待填充数据名称。审批流程数据获取模块,用于获取所述目标word文档的文件名称,根据所述文件名称在文件管理系统中查询关联该文件名称的各个审批流程。填充数据获取模块,用于在各个审批流程中采集对应所述待填充数据名称的审批过程信息,形成对应该目标word文档的待填充数据保存至填充数据库中。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相似部分互相参见即可。对于实施例公开的文档信息自动填充系统而言,由于其与实施例公开的文档信息自动填充方法相对应,所以描述的比较简单,相关之处参见前述方法部分说明即可。
在另一些实施例中,还提供了一种文档信息自动填充装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述各实施例中描述的文档信息自动填充方法的各个步骤。其中该服务器可包括但不仅限于,处理器、存储器。本领域技术人员可以理解,所述示意图仅仅是服务器的示例,并不构成对该服务器的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件。
所述文档信息自动填充装置如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个文档信息自动填充方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
总之,以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所作的均等变化与修饰,皆应属本发明专利的涵盖范围。
Claims (10)
1.一种文档信息自动填充方法,其特征在于,包括如下步骤:
S1,获取待填充的目标word文档;
S2,采集所述目标word文档的填充配置信息,所述填充配置信息包括待填充数据名称,根据所述目标word文档的身份信息从文件管理系统中查询对应该目标word文档的审批流程数据,根据所述待填充数据名称从所述审批流程数据中采集获取对应的待填充数据;
S3,解析目标word文档中的所有域元素,根据各域元素中所包含的文本内容来筛选出需要进行填充更新的目标域元素;
S4,在获得全部需填充的目标域元素信息后,将采集获得的待填充数据向对应的目标域元素中进行填充,更新形成最终文档。
2.根据权利要求1所述的文档信息自动填充方法,其特征在于:所述待填充数据包括审批流程数据和文档属性信息,所述审批流程数据包括但不限于目标word文档的起草信息、审核信息和/或批准信息,所述文档属性信息包括但不限于该目标word文档的文件名称、文件版本或文件编号。
3.根据权利要求2所述的文档信息自动填充方法,其特征在于,所述步骤S2具体包括:
S21,识别获取所述目标word文档的文档类别,根据所述文档类别查询模板数据库获取对应的标准文档模板,对所述标准文档模板进行解析后获取填充配置信息,所述填充配置信息包括待填充数据名称;
S22,获取所述目标word文档的文件名称,根据所述文件名称在文件管理系统中查询关联该文件名称的各个审批流程;
S23,在各个审批流程中采集对应所述待填充数据名称的审批过程信息,形成对应该目标word文档的待填充数据保存至填充数据库中。
4.根据权利要求3所述的文档信息自动填充方法,其特征在于,所述步骤S3具体包括:
解析目标word文档中的所有域元素,循环遍历每个域元素,通过判断该域元素中的Type属性是否为wdFieldRef类型来确定该域元素是否为域代码;
若该域元素为域代码则获取域代码的文本内容并根据填充配置信息中的需求来解析域代码;
将待填充数据名称分别与各识别的域元素中的文本内容进行识别匹配,若文本内容中能匹配至少一待填充数据名称则将所属域元素作为需进行填充更新的一目标域元素。
5.根据权利要求4所述的文档信息自动填充方法,其特征在于,所述步骤S4具体包括:
S41,在将所有采集获得的待填充数据与需填充的目标域元素进行关联后,分别将待填充数据向对应的目标域元素中进行填充,根据目标word文档中定位到的Columns属性判断在目标word文档中是否有表格类型数据存在;
S42,如果存在表格类型数据则对文档编码进行解析,根据Columns属性信息定位到目标word文档中的表格位置区域,判断是否有目标域元素在表格位置区域内;
S43,若在表格位置区域内存在目标域元素,则获取携带有相应的目标域元素信息的表头行,根据表头元素个数获取需填充的列个数,根据列个数逐行遍历获取对应的属性名、属性值与待填充数据的单元格对应关系;
S44,在表格类型数据中插入表格行并设置单元格样式,根据所述单元格对应关系将采集获得的对应待填充数据填充至插入的表格行中,更新形成最终文档。
6.根据权利要求5所述的文档信息自动填充方法,其特征在于,所述步骤S4还包括:
如果不存在表格类型数据、或存在表格类型数据但根据Columns属性信息定位到目标word文档中的表格位置区域后查询到目标域元素在表格位置区域外,则直接将采集获得的待填充数据向对应的目标域元素中进行填充,更新形成最终文档;
若以Array结尾会将相应的文件审批信息进行换行填充,若以Str结尾会将相应的文件审批信息以逗号拼接填充。
7.一种文档信息自动填充系统,其特征在于,包括:
文档获取模块,用于获取待填充的目标word文档;
数据获取模块,用于采集所述目标word文档的填充配置信息,所述填充配置信息包括待填充数据名称,根据所述目标word文档的身份信息从文件管理系统中查询对应该目标word文档的审批流程数据,根据所述待填充数据名称从所述审批流程数据中采集获取对应的待填充数据;
域元素筛选模块,用于解析目标word文档中的所有域元素,根据各域元素中所包含的文本内容来筛选出需要进行填充更新的目标域元素;
数据填充模块,用于在获得全部需填充的目标域元素信息后,将采集获得的待填充数据向对应的目标域元素中进行填充,更新形成最终文档。
8.根据权利要求7所述的一种文档信息自动填充系统,其特征在于,所述数据获取模块包括:
填充配置信息获取模块,用于识别获取所述目标word文档的文档类别,根据所述文档类别查询模板数据库获取对应的标准文档模板,对所述标准文档模板进行解析后获取填充配置信息,所述填充配置信息包括待填充数据名称;
审批流程数据获取模块,用于获取所述目标word文档的文件名称,根据所述文件名称在文件管理系统中查询关联该文件名称的各个审批流程;
填充数据获取模块,用于在各个审批流程中采集对应所述待填充数据名称的审批过程信息,形成对应该目标word文档的待填充数据保存至填充数据库中。
9.一种文档信息自动填充装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于:所述处理器执行所述计算机程序时实现如权利要求1-6任一所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1-6任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311522096.3A CN117272953B (zh) | 2023-11-15 | 2023-11-15 | 一种文档信息自动填充方法、系统和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311522096.3A CN117272953B (zh) | 2023-11-15 | 2023-11-15 | 一种文档信息自动填充方法、系统和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117272953A true CN117272953A (zh) | 2023-12-22 |
CN117272953B CN117272953B (zh) | 2024-03-12 |
Family
ID=89219918
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311522096.3A Active CN117272953B (zh) | 2023-11-15 | 2023-11-15 | 一种文档信息自动填充方法、系统和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117272953B (zh) |
Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10162155A1 (de) * | 2000-12-18 | 2002-07-25 | Siemens Corp Res Inc | System und Benutzeroberfläche zum Erzeugen strukturierter Dokumente |
US20020169803A1 (en) * | 2000-12-18 | 2002-11-14 | Sudarshan Sampath | System and user interface for generating structured documents |
JP2003085330A (ja) * | 2001-09-10 | 2003-03-20 | Fuji Electric Co Ltd | 文書処理装置および文書処理プログラム |
JP2003337876A (ja) * | 2002-05-21 | 2003-11-28 | Ffc:Kk | 文書処理装置および文書処理プログラム |
US20080235569A1 (en) * | 2007-03-20 | 2008-09-25 | Arun Jai S | Auto-generation and auto-versioning of a multi-sourced dynamic document |
US8214362B1 (en) * | 2007-09-07 | 2012-07-03 | Google Inc. | Intelligent identification of form field elements |
WO2017211076A1 (zh) * | 2016-06-07 | 2017-12-14 | 福建福昕软件开发股份有限公司 | 一种互联文档的自动填报方法 |
WO2019108413A1 (en) * | 2017-03-06 | 2019-06-06 | AppExtremes, LLC | Systems and methods for modifying and reconciling negotiated documents |
CN111460017A (zh) * | 2020-03-20 | 2020-07-28 | 平安国际智慧城市科技股份有限公司 | 文档数据导入方法、文档数据导出方法、装置和存储介质 |
US20200327116A1 (en) * | 2017-10-03 | 2020-10-15 | Lyconos, Inc. | Systems and methods for document automation |
US20210174006A1 (en) * | 2019-12-10 | 2021-06-10 | TeamBento Limited | System and method for facilitating complex document drafting and management |
CN113283228A (zh) * | 2021-07-22 | 2021-08-20 | 北京关键科技股份有限公司 | 文档生成方法、装置、电子设备及存储介质 |
CN113515926A (zh) * | 2021-09-14 | 2021-10-19 | 南京国睿信维软件有限公司 | 基于Office Word的插件开发系统模型信息自动化文档发布方法 |
CN113590883A (zh) * | 2021-08-10 | 2021-11-02 | 上海杉互健康科技有限公司 | 医疗信息与数据库映射的方法、系统、设备及存储介质 |
US20220084148A1 (en) * | 2020-09-16 | 2022-03-17 | genie ems | Innovative e-doc transformation, conversion, preparation, auto fill , multi format export, share and completion integrated with user system, e-doc permissions and options per user kinds |
CN115391439A (zh) * | 2022-08-24 | 2022-11-25 | 中化现代农业有限公司 | 文档数据导出方法、装置、电子设备和存储介质 |
CN115618841A (zh) * | 2022-11-29 | 2023-01-17 | 明度智云(浙江)科技有限公司 | 一种文档导出方法、装置、设备及存储介质 |
CN116011400A (zh) * | 2023-01-17 | 2023-04-25 | 北京轩宇信息技术有限公司 | 一种项目标准测试文档自动化生成方法及装置 |
CN116306531A (zh) * | 2023-03-24 | 2023-06-23 | 上海亘岩网络科技有限公司 | Html文档自动填充方法、装置、电子设备及存储介质 |
CN116796707A (zh) * | 2023-06-09 | 2023-09-22 | 浙江百益宁医学检验有限公司 | 一种文档多样式数据填充及模块化自动生成方法 |
-
2023
- 2023-11-15 CN CN202311522096.3A patent/CN117272953B/zh active Active
Patent Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020169803A1 (en) * | 2000-12-18 | 2002-11-14 | Sudarshan Sampath | System and user interface for generating structured documents |
DE10162155A1 (de) * | 2000-12-18 | 2002-07-25 | Siemens Corp Res Inc | System und Benutzeroberfläche zum Erzeugen strukturierter Dokumente |
JP2003085330A (ja) * | 2001-09-10 | 2003-03-20 | Fuji Electric Co Ltd | 文書処理装置および文書処理プログラム |
JP2003337876A (ja) * | 2002-05-21 | 2003-11-28 | Ffc:Kk | 文書処理装置および文書処理プログラム |
US20080235569A1 (en) * | 2007-03-20 | 2008-09-25 | Arun Jai S | Auto-generation and auto-versioning of a multi-sourced dynamic document |
US8214362B1 (en) * | 2007-09-07 | 2012-07-03 | Google Inc. | Intelligent identification of form field elements |
WO2017211076A1 (zh) * | 2016-06-07 | 2017-12-14 | 福建福昕软件开发股份有限公司 | 一种互联文档的自动填报方法 |
WO2019108413A1 (en) * | 2017-03-06 | 2019-06-06 | AppExtremes, LLC | Systems and methods for modifying and reconciling negotiated documents |
US20200327116A1 (en) * | 2017-10-03 | 2020-10-15 | Lyconos, Inc. | Systems and methods for document automation |
US20210174006A1 (en) * | 2019-12-10 | 2021-06-10 | TeamBento Limited | System and method for facilitating complex document drafting and management |
CN111460017A (zh) * | 2020-03-20 | 2020-07-28 | 平安国际智慧城市科技股份有限公司 | 文档数据导入方法、文档数据导出方法、装置和存储介质 |
US20220084148A1 (en) * | 2020-09-16 | 2022-03-17 | genie ems | Innovative e-doc transformation, conversion, preparation, auto fill , multi format export, share and completion integrated with user system, e-doc permissions and options per user kinds |
CN113283228A (zh) * | 2021-07-22 | 2021-08-20 | 北京关键科技股份有限公司 | 文档生成方法、装置、电子设备及存储介质 |
CN113590883A (zh) * | 2021-08-10 | 2021-11-02 | 上海杉互健康科技有限公司 | 医疗信息与数据库映射的方法、系统、设备及存储介质 |
CN113515926A (zh) * | 2021-09-14 | 2021-10-19 | 南京国睿信维软件有限公司 | 基于Office Word的插件开发系统模型信息自动化文档发布方法 |
CN115391439A (zh) * | 2022-08-24 | 2022-11-25 | 中化现代农业有限公司 | 文档数据导出方法、装置、电子设备和存储介质 |
CN115618841A (zh) * | 2022-11-29 | 2023-01-17 | 明度智云(浙江)科技有限公司 | 一种文档导出方法、装置、设备及存储介质 |
CN116011400A (zh) * | 2023-01-17 | 2023-04-25 | 北京轩宇信息技术有限公司 | 一种项目标准测试文档自动化生成方法及装置 |
CN116306531A (zh) * | 2023-03-24 | 2023-06-23 | 上海亘岩网络科技有限公司 | Html文档自动填充方法、装置、电子设备及存储介质 |
CN116796707A (zh) * | 2023-06-09 | 2023-09-22 | 浙江百益宁医学检验有限公司 | 一种文档多样式数据填充及模块化自动生成方法 |
Non-Patent Citations (3)
Title |
---|
唐洁;: "ASP.NET3.5实验开发网络办公自动化(OA)系统", 电脑编程技巧与维护, no. 01, 3 January 2010 (2010-01-03) * |
李爱国;高沙;吴韵格;: "基于ActiveX控件与Office对象模型的技术文档管理系统", 计算机应用与软件, no. 12, 15 December 2014 (2014-12-15) * |
赵玉娟;刘艳;李祥海;陈凯华;王琪;李磊;王文昊;闫文月;: "天津市气象局科研管理系统的设计与实现", 信息通信, no. 02 * |
Also Published As
Publication number | Publication date |
---|---|
CN117272953B (zh) | 2024-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7689578B2 (en) | Dealing with annotation versioning through multiple versioning policies and management thereof | |
US9569450B2 (en) | Systems and methods for the comparison of annotations within files | |
US8112401B2 (en) | Analyzing externally generated documents in document management system | |
US9304993B2 (en) | Methods and data structures for multiple combined improved searchable formatted documents including citation and corpus generation | |
US8433708B2 (en) | Methods and data structures for improved searchable formatted documents including citation and corpus generation | |
US20050160355A1 (en) | Maintaining annotations for distributed and versioned files | |
CN108762743B (zh) | 一种数据表操作代码生成方法及装置 | |
US8527867B2 (en) | Enabling users to edit very large XML data | |
US7856428B2 (en) | Method, computer program product and device for importing a plurality of data sets into a system | |
CN112528602B (zh) | 一种医药文档结构化内容分析方法、系统和存储介质 | |
CN112036144B (zh) | 数据解析方法、装置、计算机设备和可读存储介质 | |
US20170228356A1 (en) | System Generator Module for Electronic Document and Electronic File | |
KR101975272B1 (ko) | 협업 의존성 기반 컴포넌트 재사용 추천 시스템 및 방법 | |
CN111061733B (zh) | 数据处理方法、装置、电子设备和计算机可读存储介质 | |
CN109636303B (zh) | 一种半自动提取和结构化文档信息的存储方法及系统 | |
US20160328374A1 (en) | Methods and Data Structures for Improved Searchable Formatted Documents including Citation and Corpus Generation | |
US10503823B2 (en) | Method and apparatus providing contextual suggestion in planning spreadsheet | |
JP7293780B2 (ja) | 情報処理装置、文書管理システム及びプログラム | |
CN117272953B (zh) | 一种文档信息自动填充方法、系统和存储介质 | |
JP5550959B2 (ja) | 文書処理システム、及びプログラム | |
JP5144974B2 (ja) | モジュール管理方法、モジュール管理装置およびモジュール管理プログラム | |
CN117610503A (zh) | 一种word文档页眉数据更新方法、装置和服务器 | |
US20050251498A1 (en) | Method, computer program and device for executing actions using data sets | |
CN117454858A (zh) | 一种文档管控信息调整更新方法、系统和存储介质 | |
CN116126721A (zh) | 测试用例文档的格式转换方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |