CN116955300B - 一种基于标签技术的文件生成方法及系统 - Google Patents

一种基于标签技术的文件生成方法及系统 Download PDF

Info

Publication number
CN116955300B
CN116955300B CN202311198371.0A CN202311198371A CN116955300B CN 116955300 B CN116955300 B CN 116955300B CN 202311198371 A CN202311198371 A CN 202311198371A CN 116955300 B CN116955300 B CN 116955300B
Authority
CN
China
Prior art keywords
template
file
template file
conversion
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311198371.0A
Other languages
English (en)
Other versions
CN116955300A (zh
Inventor
殷石昌
杨忠昊
杨金山
徐庚景
杨楼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yunnan Hanwen Technology Co ltd
Original Assignee
Yunnan Hanwen Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yunnan Hanwen Technology Co ltd filed Critical Yunnan Hanwen Technology Co ltd
Priority to CN202311198371.0A priority Critical patent/CN116955300B/zh
Publication of CN116955300A publication Critical patent/CN116955300A/zh
Application granted granted Critical
Publication of CN116955300B publication Critical patent/CN116955300B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/116Details of conversion of file system types or formats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • G06F16/162Delete operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1873Versioning file systems, temporal file systems, e.g. file system supporting different historic versions of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于标签技术的文件生成方法及系统,属于数据处理技术领域,该方法包括步骤S1:预先设置多种第一模板文件;步骤S2:当上传第二模板文件时,对比第一模板文件和第二模板文件,以生成转换规则;步骤S3:当上传第N模板文件时,生成多条用于将其它模板转换为第N模板文件的转换规则,将所有转换规则整合为第二规则集;步骤S4:当接收实际文件时,获取与实际文件格式相同的模板文件;步骤S5:基于获取的模板文件从第二规则集中抽取多条对应转换规则,以将实际文件中文本内容填充至第N模板文件中。通过本发明,无论上传哪种版本的文件,系统都可以自动将其转换为最新版本的格式,从而便于相关人员进行查看。

Description

一种基于标签技术的文件生成方法及系统
技术领域
本发明属于数据处理技术领域,具体涉及一种基于标签技术的文件生成方法及系统。
背景技术
随着计算机技术的发展,电子表格已经成为了现代办公环境中不可或缺的一部分。它们被广泛应用于各种行业,如金融、教育、医疗、市场营销,电子表格的优势在于其易用性、灵活性和可扩展性,用户可以根据自己的需求定制电子表格,以满足不同的工作场景,也是由于电子表格的可扩展性,在实际应用中,经常会出现同一企业组织中,不同的用户针对同一数据使用不同格式的电子表格进行记录,这样在汇总电子表格进行统计时,就会增加统计者的工作负担,因此,现有技术中提出了以下方式将不同格式的电子表格相互转换。
如中国专利申请“CN114997129A”公开了一种电子表格数据的处理方法、装置、设备和存储介质,该方法可以对用户导入的电子表格进行特征提取,得到表征电子表格特征的特征数据。然后在可配置模板库中查找和特征数据匹配的目标可配置模板,若在可配置模板库中未查找到目标可配置模板,则在原始模板库中查找和特征数据匹配的目标原始模板,原始模板库中存储有多个异构电子表格的原始模板。若在原始模板库中查找到目标原始模板,则基于目标原始模板和可配置模板库中可配置模板的对应关系,将电子表格的数据按照和目标原始模板相对应的可配置模板格式进行存储。又例如中国专利申请“CN116306545A”公开了一种表格生成方法、装置、设备、介质及程序产品,该方法首先响应于用户设备对表样模板的选择输入,从预设的表样模板库中确定对应的目标表样模板,以及与目标表样模板对应的目标表字段,之后响应于用户设备对待采集文件的选择输入,从预设的待采集文件库中确定对应的目标待采集文件,最后从目标待采集文件中读取与目标表字段对应的目标信息,将目标信息写入目标表样模板,得到目标表格。
然而,在应用上述技术方案进行转换时会存在此种情况,企业每隔一段时间会更新表格模板,而用户使用的表格模板为未更新之前的旧版,这样用户在导入自身使用的电子表格时,由于企业在过去所使用的表格模板仍然存在于模板库中,系统经过匹配后会认为用户使用的是正确的模板文件,因此不会对其进行转换。
发明内容
为解决上述问题,本发明提供了一种基于标签技术的文件生成方法、系统及存储介质,以解决上述背景技术中所存在的问题。
为了达到上述的发明目的,本发明提出一种基于标签技术的文件生成方法,包括:
步骤S1:建立模板数据库,所述模板数据库包括多种类型的第一模板文件,对所述第一模板文件的类型进行识别,基于各个所述第一模板文件的类型和创建时间生成识别标签,所述识别标签包括第一标志位和第二标志位,所述第一标志位表明所述第一模板文件的类型,所述第二标志位表明所述第一模板文件的版本;
步骤S2:当上传第二模板文件至所述模板数据库时,识别所述第二模板文件的类型,基于所述识别标签,从所述模板数据库中抽取与所述第二模板文件相同类型的所述第一模板文件,以生成所述第二模板文件的所述识别标签,对比抽取的所述第一模板文件和所述第二模板文件,以生成转换规则,所述转换规则用于将所述第一模板文件中的文本内容对应填充至所述第二模板文件中;
步骤S3:当上传第N模板文件至所述模板数据库时,N大于2且为正整数,重复执行步骤S2,以生成用于将所述第一模板文件至所述第N-1模板文件中的文本内容对应填充至所述第N模板文件中的多条所述转换规则,将获取的所有所述转换规则整合为第一规则集,对所述第一规则集中的所述转换规则进行筛选删除,以获取第二规则集;
步骤S4:当接收实际文件时,获取所述实际文件的类型,从所述模板数据库中抽取与所述实际文件相同类型的所述第一模板文件至所述第N模板文件,将抽取的模板文件与所述实际文件对比,以获取其中与所述实际文件格式相同的模板文件;
步骤S5:定义与所述实际文件格式相同的模板文件为基础模板,生成内容空白的所述第N模板文件,基于所述基础模板从所述第二规则集中抽取多条对应所述转换规则,基于所述转换规则将所述实际文件中文本内容填充至所述第N模板文件中,以完成文件的生成。
进一步的,对所述第一模板文件的类型进行识别包括以下步骤:
建立标签数据集,所述标签数据集包括多个基础标签,每个所述基础标签对应不同的类型,且每个所述基础标签包括多个关键词,将每个所述基础标签的编号设置为1、2、3、···、Y,Y为所述标签数据集中包括的所述基础标签数量,从所述标签数据集中抽取编号为1的所述基础标签,获取所述基础标签内包括的所述关键词,抽取所述第一模板文件中各个单元格内记录的文本字符,将各个所述关键词与各个所述文本字符对比,若对比的所述关键词和所述文本字符的字符长度相同,每个位置包括的字符也完全相同,则确定该所述关键词存在于抽取的所述文本字符中;
若所有所述关键词均存在于抽取的所述文本字符中,则将该所述基础标签对应的类型设置为抽取所述第一模板文件的类型,并停止抽取所述基础标签,否则,依据所述基础标签编号的数值,由小到大从所述标签数据集中继续抽取所述基础标签,直至获取所述第一模板文件的类型,若所述标签数据集中所有所述基础标签均被抽取后,仍未获取到所述第一模板文件的类型,则将该所述第一模板文件的类型标记为未知类型。
进一步的,对所述第一规则集进行筛选删除包括以下步骤:
基于第一公式计算相同类型模板文件之间的相似度,所述第一公式为:,/>,其中,/>为第Z模板文件与第C模板文件的所述相似度,/>为所述第Z模板文件与所述第C模板文件中内容和位置均相同所述文本字符的数量,/>和/>分别为所述第Z模板文件和所述第C模板文件中所述文本字符的数量,函数为返回/>和/>中的较大的值;
设定临界阈值,筛选数值大于所述临界阈值的所述相似度,定义为目标相似度,获取各个所述目标相似度对应的两个模板文件,获取用于转换两个模板文件的所述转换规则,将其从所述第一规则集中删除,将保留的所述转换规则整合为所述第二规则集。
进一步的,从所述第二规则集中获取多条所述转换规则包括以下步骤:
抽取所述第一模板文件,获取用于将所述第一模板文件分别转换为第三模板文件至所述第N模板文件的转换路径,所述转换路径包括至少一条所述转换规则,继续抽取所述第二模板文件,获取将所述第二模板文件转换为第四模板文件至所述第N模板文件的所述转换路径,重复执行本步骤,直至完成第N-2模板文件所述转换路径的计算;
基于所述实际文件的格式获取对应的所述转换路径,基于所述转换路径从所述第二规则集中抽取对应的所述转换规则。
进一步的,获取将所述第一模板文件转换为所述第N模板文件的所述转换路径包括以下步骤:
基于第二公式计算所述第二规则集中每条所述转换规则的跨越值,所述第二公式为:,/>,其中,/>为所述转换规则将第I模板文件转换为第J模板文件的所述跨越值;
筛选所述第二规则集中用于转换所述第一模板文件的所述转换规则,定位其中所述跨越值最大的所述转换规则,基于该所述转换规则将所述第一模板文件转换为第P模板文件,若所述第P模板文件为所述第N模板文件,则将该所述转换规则设置为所述转换路径,否则,继续抽取用于转换所述第P模板文件的所述转换规则,定位其中所述跨越值最大的所述转换规则,基于该所述转换规则将所述第P模板文件转换为第Q模板文件,重复本步骤,直至转换后的模板文件为所述第N模板文件,将上述抽取的所有所述转换规则整合为所述转换路径。
本发明还提供了一种基于标签技术的文件生成系统,该系统用于实现上述所述的一种基于标签技术的文件生成方法,该系统包括:
数据库模块,用于建立模板数据库,所述模板数据库包括多种类型的第一模板文件,对所述第一模板文件的类型进行识别,基于各个所述第一模板文件的类型和创建时间生成识别标签,所述识别标签包括第一标志位和第二标志位,所述第一标志位表明所述第一模板文件的类型,所述第二标志位表明所述第一模板文件的版本;
规则生成模块,当上传第二模板文件至所述模板数据库时,所述规则生成模块用于识别所述第二模板文件的类型,从所述模板数据库中抽取与所述第二模板文件相同类型的所述第一模板文件,以生成所述第二模板文件的所述识别标签,对比抽取的所述第一模板文件和所述第二模板文件,以生成转换规则,所述转换规则用于将所述第一模板文件中的文本内容对应填充至所述第二模板文件中,当上传第N模板文件至所述模板数据库时,N大于2且为正整数,所述规则生成模块生成用于将所述第一模板文件至所述第N-1模板文件中的文本内容对应填充至所述第N模板文件中的多条所述转换规则,将获取的所有所述转换规则整合为第一规则集,对所述第一规则集中的所述转换规则进行筛选删除,以获取第二规则集;
对比模块,当接收实际文件时,所述对比模块获取所述实际文件的类型,从所述模板数据库中抽取与所述实际文件相同类型的所述第一模板文件至所述第N模板文件,将抽取的模板文件与所述实际文件对比,以获取其中与所述实际文件格式相同的模板文件;
转换模块,定义与所述实际文件格式相同的模板文件为基础模板,所述转换模块用于生成内容空白的所述第N模板文件,基于所述基础模板从所述第二规则集中抽取多条对应所述转换规则,基于所述转换规则将所述实际文件中文本内容填充至所述第N模板文件中,以完成文件的生成。
与现有技术相比,本发明的有益效果至少如下所述:
本发明首先建立模板数据库,在模板数据库内预先存储多种类型的模板文件,并对每个模板文件标注识别标签,由于识别标签包括第一标志位和第二标志位,从而便于对各个模板的类型和版本进行区分;之后,当上传新版本的模板文件后,将新上传的模板文件与数据库内对应的旧版模板文件进行对比,从而获取将旧版模板文件内容映射至新上传模板文件中的转换规则;当系统接收实际文件时,通过将实际文件与模板数据库内相同类型模板文件进行对比,从而获取实际文件采用了哪个版本的模板,若实际文件所使用的模板不是最新的模板文件,则根据实际文件所采用的模板获取对应的转换规则,从而将实际文件的格式转换为最新模板文件的格式,如此以来,无论用户上传哪种版本的文件,系统都可以自动将其转换为最新版本的格式,从而便于相关人员进行统计。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件,但除非特别说明,这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说,在不脱离本申请的范围的情况下,可以将第一xx脚本称为第二xx脚本,且类似地,可将第二xx脚本称为第一xx脚本。
一种基于标签技术的文件生成方法,包括:
步骤S1:建立模板数据库,模板数据库包括多种类型的第一模板文件,对第一模板文件的类型进行识别,基于各个第一模板文件的类型和创建时间生成识别标签,识别标签包括第一标志位和第二标志位,第一标志位表明第一模板文件的类型,第二标志位表明第一模板文件的版本。
具体的,模板数据库内包括多种类型的第一模板文件,第一模板文件为事先通过人工设置的电子表格模板;第一模板文件可以基于WORD软件制作,也可以基于EXCEL软件制作,不同类型的第一模板文件具有不同的用途,通过对其标注识别标签进行区分;在本实施例中,识别标签包括第一标志位和第二标志位,第一标志位表明模板的类型,第二标志位表明模板的版本,例如第一模板文件标注了识别标签A1,其中第一标志位为A,其代表该模板用于人事任免,第二标志位为1,表明该模板为第一版。
步骤S2:当上传第二模板文件至模板数据库时,识别第二模板文件的类型,基于识别标签,从模板数据库中抽取与第二模板文件相同类型的第一模板文件,以生成第二模板文件的识别标签,对比抽取的第一模板文件和第二模板文件,以生成转换规则,转换规则用于将第一模板文件中的文本内容对应填充至第二模板文件中。
下面举例对本步骤进行说明,例如在上传第二模板文件后,识别出第二模板文件的类型为A,则在模板数据库内进行检索,若检索出类型同样为A的第一模板文件,且其识别标签为A1,则将第二模板文件的识别标签设置为A2;之后从模板数据库中抽取第一模板文件A1,并与第二模板文件A2进行对比,对比时,获取第二模板文件A2与第一模板文件A1中包含的文本字符,基于所包含的文本字符生成转换规则,例如第一模板文件A1中存在“出生日期”的文本字符,其位于电子表格的第二行第二列,且第一模板文件A1在第二行第三列预留了空白单元格,第二模板文件A2中同样存在“出生日期”,其位于电子表格的第一行第二列,并在第二行第二列预留了空白单元格,那么根据文本字符生成的转换规则是,将第一模板文件A1第二行第三列中的文本内容映射至第二模板文件A2的第二行第二列,从而实现将第一模板文件中的内容正确迁移至第二模板文件中。
步骤S3:当上传第N模板文件至模板数据库时,N大于2且为正整数,重复执行步骤S2,以生成用于将第一模板文件至第N-1模板文件中的文本内容对应填充至第N模板文件中的多条转换规则,将获取的所有转换规则整合为第一规则集,对第一规则集中的转换规则进行筛选删除,以获取第二规则集。
在步骤S2之后,若继续上传了第三模板文件A3,则通过步骤S2的方法获取将第一模板文件A1转换为第三模板文件A3的转换规则,以及将第二模板文件A2转换为第三模板文件A3的转换规则;若之后还上传了第四模板文件A4,则通过步骤S2的方法获取将第一模板文件A1、第二模板文件A2、第三模板文件A3转换为第四模板文件A4的三种转换规则。同理,当上传第N模板文件AN时,则生成用于将第一模板文件A1至第N-1模板文件AN-1中的文本内容对应填充至第N模板文件AN中的多条转换规则。
另外,当新的模板文件上传后,本发明还保留旧模板文件之间的转换规则,例如第四模板文件A4上传后,模板数据库中仍然保留将第一模板文件A1转换为第二模板文件A2的转换规则,如此使得统计者在第四模板文件A4上传后,由于系统内保留旧版模板文件之间的转换规则,因此使用者仍然可以手动将第一模板文件A1转换为第二模板文件A2,从而更进一步提升本发明功能的完整性。
本步骤最后将所获得的转换规则整合为第一规则集,由于通过本步骤获得转换规则较多,为降低系统的存储压力,对部分转换规则进行删除,以生成第二规则集,具体删除方式在之后进行介绍。
步骤S4:当接收实际文件时,获取实际文件的类型,从模板数据库中抽取与实际文件相同类型的第一模板文件至第N模板文件,将抽取的模板文件与实际文件对比,以获取其中与实际文件格式相同的模板文件。
步骤S5:定义与实际文件格式相同的模板文件为基础模板,生成内容空白的第N模板文件,基于基础模板从第二规则集中抽取多条对应转换规则,基于转换规则将实际文件中文本内容填充至第N模板文件中,以完成文件的生成。
在接收已经在空白位置填充信息的实际文件后,对实际文件进行识别,获取实际文件的类型,例如实际文件的类型为A,模板数据库中存在第一模板文件A1至第N模板文件AN,则将第一模板文件A1至第N模板文件AN抽出,依次与实际文件进行对比,从而获取实际文件采用了哪种格式的模板;例如,实际文件中包括了姓名、出生日期、履历,第三模板文件A3中同样包括了姓名、出生日期、履历,且两个模板中上述三个文本字符的所在位置相同,那么就表明实际文件采用了第三模板文件A3的格式,因此将第三模板文件A3定义为基础模板。
由于模板数据库中存在第N模板文件AN,表明第三模板文件A3不是最新版本的模板,因此就基于第三模板文件A3获取将第三模板文件A3转为第N模板文件AN的转换规则,获取方式在之后进行介绍,之后建立内容空白、还未填充个人信息的第N模板文件AN,并使用获取的转换规则自动将实际文件中的文本内容映射至生成的第N模板文件AN中,从而获取到目标文件。
本发明首先建立模板数据库,在模板数据库内预先存储多种类型的模板文件,并对每个模板文件标注识别标签,由于识别标签包括第一标志位和第二标志位,从而便于对各个模板的类型和版本进行区分;之后,当上传新版本的模板文件后,将新上传的模板文件与数据库内对应的旧版模板文件进行对比,从而获取将旧版模板文件内容映射至新上传模板文件中的转换规则;当系统接收实际文件时,通过将实际文件与模板数据库内相同类型模板文件进行对比,从而获取实际文件采用了哪个版本的模板,若实际文件所使用的模板不是最新的模板文件,则根据实际文件所采用的模板获取对应的转换规则,从而将实际文件的格式转换为最新模板文件的格式,如此以来,无论用户上传哪种版本的文件,系统都可以自动将其转换为最新版本的格式,从而便于相关人员进行统计。
尤为注意的是,通过本发明的技术方案,无论用户上传哪种版本格式的电子表格,都可以将其转换为最新版本的电子表格。
在本实施例中,对第一模板文件的类型进行识别包括以下步骤:
建立标签数据集,标签数据集包括多个基础标签,每个基础标签对应不同的类型,且每个基础标签包括多个关键词,将每个基础标签的编号设置为1、2、3、···、Y,从标签数据集中抽取编号为1的基础标签,获取基础标签内包括的关键词,抽取第一模板文件中各个单元格内记录的文本字符,将各个关键词与各个文本字符对比,若对比的关键词和文本字符的字符长度相同,每个位置包括的字符也完全相同,则确定该关键词存在于抽取的文本字符中;
若所有关键词均存在于抽取的文本字符中,则将该基础标签对应的类型设置为抽取第一模板文件的类型,并停止抽取基础标签,否则,依据基础标签编号的数值,由小到大从标签数据集中继续抽取基础标签,直至获取第一模板文件的类型,若标签数据集中所有基础标签均被抽取后,仍未获取到第一模板文件的类型,则将该第一模板文件的类型标记为未知类型。
首先建立标签数据集,标签数据集包括多个基础标签,每个基础标签对应不同的类型,之后对每个基础标签进行编号,例如编号为1的基础标签为人事任免,其类型为A,包括了出生日期、履历、所获荣誉三个关键词;在进行识别时,首先抽取第一模板文件中各个单元格内记录的文本字符,由于第一模板文件为电子表格文件,因此其内部记录的字符可以直接被计算机所识别并抽取;例如从第一模板文件中抽取出的文本字符有性别、出生日期、履历、所获荣誉,之后从标签数据集中抽取编号为1的基础标签,将其包括的关键词与抽取的文本字符进行对比,例如首先将出生日期的关键词,与性别、出生日期、履历、所获荣誉这四个文本字符进行对比,对比时,关键词出生日期与文本字符出生日期字符长度相同,第一位置至第四位置的字符也依次为出、生、日、期,因此确定关键词与文本字符相同,也即确定了出生日期存在于抽取的文本字符中,之后再将履历的关键词,与性别、出生日期、履历、所获荣誉这四个文本字符进行对比;若最终对比结果为,出生日期、履历、所获荣誉三个关键词均存在于抽取的文本字符中,则将第一模板文件的类型设置为A,其对应的基础标签为人事任免。此时不再从标签数据集中抽取基础标签,以使得第一模板文件仅对应一种基础标签。若编号为1的基础标签包括的关键词没有存在于从第一模板文件中抽取的文本字符中,则继续抽取编号为2的基础标签,并重复上述步骤进行对比;若编号为Y的基础标签被抽取且与第一模板文件对比后,仍然没有获取到第一模板文件的类型,则将第一模板文件的类型标记为未知类型,后续由人工进行处理。特别说明的是,该步骤采用的方案是确定抽取的文本字符中是否包括了关键词,因此只需将各个关键词与各个文本字符进行对比,无需获取文本字符的位置。
在本实施例中,对第一规则集进行筛选删除包括以下步骤:
基于第一公式计算相同类型模板文件之间的相似度,第一公式为:,/>,其中,/>为第Z模板文件与第C模板文件的相似度,/>为第Z模板文件与第C模板文件中内容和位置均相同文本字符的数量,/>和/>分别为第Z模板文件和第C模板文件中文本字符的数量,函数/>为返回/>和/>中的较大的值/>
设定临界阈值,筛选数值大于临界阈值的相似度,定义为目标相似度,获取各个目标相似度对应的两个模板文件,获取用于转换两个模板文件的转换规则,将其从第一规则集中删除,将保留的转换规则整合为第二规则集。
下面举例对上述过程进行解释,例如首先获取第一模板文件A1与第N模板文件AN的相似度,第一模板文件A1中有22个单元格填充了文本字符,那么第一模板文件A1中有22个文本字符,第N模板文件AN中包括了25个文本字符,两个模板文件中有20个文本字符的内容完全相同,20个文本字符所在的单元格位置也完全相同,也即,那么代入至第一公式计算可以得到/>,之后,基于上述原理再计算第一模板文件A1与第N-1模板文件AN-1的相似度,重复该过程,直至计算出第二模板文件A2与第一模板文件A1的相似度,之后再计算第二模板文件A2与第三模板文件A3至第N模板文件AN的相似度。
假设在本实施例中,第一模板文件A1与第N模板文件AN的相似度为80%,第二模板文件A2与第N模板文件AN的相似度为60%,临界阈值设置为78%,则将80%定义为目标相似度,那么目标相似度对应的模板文件分别为第一模板文件A1与第N模板文件AN,因此将第一模板文件A1转换为第N模板文件AN的转换规则从第一规则集中删除,其它转换规则的删除方法也是基于此原理。
本步骤的有益效果是,若不采用本步骤对转换规则进行删除,则系统内会存在大量的转换规则,若两个模板文件内存在大量位置且内容相同的文本字符,则表明其中一个模板文件仅需进行微小的改动即可变为另一个模板文件,也就表明两个模板文件几乎完全相同,那么在两个模板文件几乎完全相同的情况下,其细微差别对统计者的工作量影响较小,实际应用中,使用者通过手动操作也可以快速将实际文件中的格式进行修正,因此将其删除。
由于上述步骤中对第一规则集中的部分规则进行删除,因此第二规则集中的转换规则必然会出现残缺,例如第一模板文件A1与第N模板文件AN相似度很高,因此两者之间的转换规则被删除;但是,由此带来的问题是,若存在大量的第一模板文件需要转换,即便两者之间差别很小,也还需要使用者付出较大的工作量,因此,本发明还提出以下步骤。
在本实施例中,从第二规则集中获取多个转换规则包括以下步骤:
抽取第一模板文件,获取用于将第一模板文件分别转换为第三模板文件至第N模板文件的转换路径,转换路径包括至少一条转换规则,继续抽取第二模板文件,获取将第二模板文件转换为第四模板文件至第N模板文件的转换路径,重复执行本步骤,直至完成第N-2模板文件转换路径的计算;
基于实际文件的格式获取对应的转换路径,基于转换路径从第二规则集中抽取对应的转换规则。
上述步骤中,获取用于将第一模板文件分别转换为第三模板文件至第N模板文件的转换路径这一步骤包括了多个过程,例如其中第一个过程为获取将第一模板文件转换为第三模板文件的转换路径,第二个过程为获取将第一模板文件转换为第四模板文件的转换路径,由于各个过程的原理相同,因此这里以获取将第一模板文件转换为第N模板文件的转换路径为例进行展开解释,其具体包括以下步骤:
基于第二公式计算第二规则集中每条转换规则的跨越值,第二公式为:,/>,其中,/>为转换规则将第I模板文件转换为第J模板文件的跨越值。
筛选第二规则集中用于转换第一模板文件的转换规则,定位其中跨越值最大的转换规则,基于该转换规则将第一模板文件转换为第P模板文件,若第P模板文件为第N模板文件,则将该转换规则设置为转换路径,否则,继续抽取用于转换第P模板文件的转换规则,定位其中跨越值最大的转换规则,基于该转换规则将第P模板文件转换为第Q模板文件,重复本步骤,直至转换后的模板文件为第N模板文件,将上述抽取的所有转换规则整合为转换路径。
下面举例对上述步骤进行解释,首先对获取转换路径的方法进行说明,通过第二公式计算各个转换规则的跨越值,例如转换规则用于将第一模板文件A1转换为第五模板文件A5,那么其跨越值为5-1=4,通过该方法计算第二规则集中所有转换规则的跨越值。
计算完成后,例如现在需要获取将第一模板文件A1转换为第十模板文件A10的转换路径,那么就从第二规则集中抽取用于转换第一模板文件A1的转换规则,例如抽取了将第一模板文件A1转换为第四模板文件A4、第五模板文件A5、第八模板文件A8的三条转换规则,显然,其中对应将第一模板文件A1转换为第八模板文件A8转换规则的跨越值最大,这里第八模板文件A8并不是要转换的最终模板文件,因此继续抽取用于转换第八模板文件A8的转换规则,若抽取到用于将第八模板文件A8转换为第十模板文件A10的转换规则,那么就将第一模板文件A1转换为第八模板文件A8,以及将第八模板文件A8转换为第十模板文件A10的两条转换规则整合为转换路径,这里将两条规则分别定义为一阶规则和二阶规则;那么当接收实际文件后,若实际文件使用第一模板文件的格式,则先使用一阶规则对其进行转换,再使用二阶规则进行转换。
上述方案的优点是,虽然第一模板文件A1与第十模板文件A10之间没有转换规则,但可以借助其中间的第八模板文件A8进行跳跃转换,这样在转换规则残缺的情况下,系统仍然可以自动将第一模板文件A1转换为第十模板文件A10。
本发明还提供了一种基于标签技术的文件生成系统,该系统用于实现上述所述的一种基于标签技术的文件生成方法,该系统包括:
数据库模块,用于建立模板数据库,模板数据库包括多种类型的第一模板文件,对第一模板文件的类型进行识别,基于各个第一模板文件的类型和创建时间生成识别标签,识别标签包括第一标志位和第二标志位,第一标志位表明第一模板文件的类型,第二标志位表明第一模板文件的版本;
规则生成模块,当上传第二模板文件至模板数据库时,规则生成模块用于识别第二模板文件的类型,从模板数据库中抽取与第二模板文件相同类型的第一模板文件,以生成第二模板文件的识别标签,对比抽取的第一模板文件和第二模板文件,以生成转换规则,转换规则用于将第一模板文件中的文本内容对应填充至第二模板文件中,当上传第N模板文件至模板数据库时,N大于2且为正整数,规则生成模块生成用于将第一模板文件至第N-1模板文件中的文本内容对应填充至第N模板文件中的多条转换规则,将获取的所有转换规则整合为第一规则集,对第一规则集中的转换规则进行筛选删除,以获取第二规则集;
对比模块,当接收实际文件时,对比模块获取实际文件的类型,从模板数据库中抽取与实际文件相同类型的第一模板文件至第N模板文件,将抽取的模板文件与实际文件对比,以获取其中与实际文件格式相同的模板文件;
转换模块,定义与实际文件格式相同的模板文件为基础模板,转换模块用于生成内容空白的第N模板文件,基于基础模板从第二规则集中抽取多条对应转换规则,基于转换规则将实际文件中文本内容填充至第N模板文件中,以完成文件的生成。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的程序可存储于一个非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
上述的实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
上述的实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
上述的仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于标签技术的文件生成方法,其特征在于,包括:
步骤S1:建立模板数据库,所述模板数据库包括多种类型的第一模板文件,对所述第一模板文件的类型进行识别,基于各个所述第一模板文件的类型和创建时间生成识别标签,所述识别标签包括第一标志位和第二标志位,所述第一标志位表明所述第一模板文件的类型,所述第二标志位表明所述第一模板文件的版本;
步骤S2:当上传第二模板文件至所述模板数据库时,识别所述第二模板文件的类型,基于所述识别标签,从所述模板数据库中抽取与所述第二模板文件相同类型的所述第一模板文件,以生成所述第二模板文件的所述识别标签,对比抽取的所述第一模板文件和所述第二模板文件,以生成转换规则,所述转换规则用于将所述第一模板文件中的文本内容对应填充至所述第二模板文件中;
步骤S3:当上传第N模板文件至所述模板数据库时,N大于2且为正整数,重复执行步骤S2,以生成用于将所述第一模板文件至所述第N-1模板文件中的文本内容对应填充至所述第N模板文件中的多条所述转换规则,将获取的所有所述转换规则整合为第一规则集,对所述第一规则集中的所述转换规则进行筛选删除,以获取第二规则集;
步骤S4:当接收实际文件时,获取所述实际文件的类型,从所述模板数据库中抽取与所述实际文件相同类型的所述第一模板文件至所述第N模板文件,将抽取的模板文件与所述实际文件对比,以获取其中与所述实际文件格式相同的模板文件;
步骤S5:定义与所述实际文件格式相同的模板文件为基础模板,生成内容空白的所述第N模板文件,基于所述基础模板从所述第二规则集中抽取多条对应所述转换规则,基于所述转换规则将所述实际文件中文本内容填充至所述第N模板文件中,以完成文件的生成。
2.根据权利要求1所述的一种基于标签技术的文件生成方法,其特征在于,对所述第一模板文件的类型进行识别包括以下步骤:
建立标签数据集,所述标签数据集包括多个基础标签,每个所述基础标签对应不同的类型,且每个所述基础标签包括多个关键词,将每个所述基础标签的编号设置为1、2、3、···、Y,Y为所述标签数据集中包括的所述基础标签数量,从所述标签数据集中抽取编号为1的所述基础标签,获取所述基础标签内包括的所述关键词,抽取所述第一模板文件中各个单元格内记录的文本字符,将各个所述关键词与各个所述文本字符对比,若对比的所述关键词和所述文本字符的字符长度相同,每个位置包括的字符也完全相同,则确定该所述关键词存在于抽取的所述文本字符中;
若所有所述关键词均存在于抽取的所述文本字符中,则将该所述基础标签对应的类型设置为抽取所述第一模板文件的类型,并停止抽取所述基础标签,否则,依据所述基础标签编号的数值,由小到大从所述标签数据集中继续抽取所述基础标签,直至获取所述第一模板文件的类型,若所述标签数据集中所有所述基础标签均被抽取后,仍未获取到所述第一模板文件的类型,则将该所述第一模板文件的类型标记为未知类型。
3.根据权利要求2所述的一种基于标签技术的文件生成方法,其特征在于,对所述第一规则集进行筛选删除包括以下步骤:
基于第一公式计算相同类型模板文件之间的相似度,所述第一公式为:,/>,其中,/>为第Z模板文件与第C模板文件的所述相似度,/>为所述第Z模板文件与所述第C模板文件中内容和位置均相同所述文本字符的数量,/>和/>分别为所述第Z模板文件和所述第C模板文件中所述文本字符的数量,函数为返回/>和/>中的较大的值;
设定临界阈值,筛选数值大于所述临界阈值的所述相似度,定义为目标相似度,获取各个所述目标相似度对应的两个模板文件,获取用于转换两个模板文件的所述转换规则,将其从所述第一规则集中删除,将保留的所述转换规则整合为所述第二规则集。
4.根据权利要求1所述的一种基于标签技术的文件生成方法,其特征在于,从所述第二规则集中获取多条所述转换规则包括以下步骤:
抽取所述第一模板文件,获取用于将所述第一模板文件分别转换为第三模板文件至所述第N模板文件的转换路径,所述转换路径包括至少一条所述转换规则,继续抽取所述第二模板文件,获取将所述第二模板文件转换为第四模板文件至所述第N模板文件的所述转换路径,重复执行本步骤,直至完成第N-2模板文件所述转换路径的计算;
基于所述实际文件的格式获取对应的所述转换路径,基于所述转换路径从所述第二规则集中抽取对应的所述转换规则。
5.根据权利要求4所述的一种基于标签技术的文件生成方法,其特征在于,获取将所述第一模板文件转换为所述第N模板文件的所述转换路径包括以下步骤:
基于第二公式计算所述第二规则集中每条所述转换规则的跨越值,所述第二公式为:,/>,其中,/>为所述转换规则将第I模板文件转换为第J模板文件的所述跨越值;
筛选所述第二规则集中用于转换所述第一模板文件的所述转换规则,定位其中所述跨越值最大的所述转换规则,基于该所述转换规则将所述第一模板文件转换为第P模板文件,若所述第P模板文件为所述第N模板文件,则将该所述转换规则设置为所述转换路径,否则,继续抽取用于转换所述第P模板文件的所述转换规则,定位其中所述跨越值最大的所述转换规则,基于该所述转换规则将所述第P模板文件转换为第Q模板文件,重复本步骤,直至转换后的模板文件为所述第N模板文件,将上述抽取的所有所述转换规则整合为所述转换路径。
6.一种基于标签技术的文件生成系统,用于实现如权利要求1-5任一项所述的一种基于标签技术的文件生成方法,其特征在于,该系统包括:
数据库模块,用于建立模板数据库,所述模板数据库包括多种类型的第一模板文件,对所述第一模板文件的类型进行识别,基于各个所述第一模板文件的类型和创建时间生成识别标签,所述识别标签包括第一标志位和第二标志位,所述第一标志位表明所述第一模板文件的类型,所述第二标志位表明所述第一模板文件的版本;
规则生成模块,当上传第二模板文件至所述模板数据库时,所述规则生成模块用于识别所述第二模板文件的类型,从所述模板数据库中抽取与所述第二模板文件相同类型的所述第一模板文件,以生成所述第二模板文件的所述识别标签,对比抽取的所述第一模板文件和所述第二模板文件,以生成转换规则,所述转换规则用于将所述第一模板文件中的文本内容对应填充至所述第二模板文件中,当上传第N模板文件至所述模板数据库时,N大于2且为正整数,所述规则生成模块生成用于将所述第一模板文件至所述第N-1模板文件中的文本内容对应填充至所述第N模板文件中的多条所述转换规则,将获取的所有所述转换规则整合为第一规则集,对所述第一规则集中的所述转换规则进行筛选删除,以获取第二规则集;
对比模块,当接收实际文件时,所述对比模块获取所述实际文件的类型,从所述模板数据库中抽取与所述实际文件相同类型的所述第一模板文件至所述第N模板文件,将抽取的模板文件与所述实际文件对比,以获取其中与所述实际文件格式相同的模板文件;
转换模块,定义与所述实际文件格式相同的模板文件为基础模板,所述转换模块用于生成内容空白的所述第N模板文件,基于所述基础模板从所述第二规则集中抽取多条对应所述转换规则,基于所述转换规则将所述实际文件中文本内容填充至所述第N模板文件中,以完成文件的生成。
CN202311198371.0A 2023-09-18 2023-09-18 一种基于标签技术的文件生成方法及系统 Active CN116955300B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311198371.0A CN116955300B (zh) 2023-09-18 2023-09-18 一种基于标签技术的文件生成方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311198371.0A CN116955300B (zh) 2023-09-18 2023-09-18 一种基于标签技术的文件生成方法及系统

Publications (2)

Publication Number Publication Date
CN116955300A CN116955300A (zh) 2023-10-27
CN116955300B true CN116955300B (zh) 2023-11-28

Family

ID=88462315

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311198371.0A Active CN116955300B (zh) 2023-09-18 2023-09-18 一种基于标签技术的文件生成方法及系统

Country Status (1)

Country Link
CN (1) CN116955300B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101364293A (zh) * 2008-09-24 2009-02-11 金蝶软件(中国)有限公司 一种erp系统中实现业务数据交换的方法、装置和系统
CN101883372A (zh) * 2010-06-28 2010-11-10 中兴通讯股份有限公司 无线通信设备自动更新方法和装置
CN104317589A (zh) * 2014-10-22 2015-01-28 中国电子科技集团公司第四十一研究所 一种用于加载动态链接库的代码自动生成方法及装置
CN109815428A (zh) * 2018-12-28 2019-05-28 陈德芹 一种在线表格缓存方法及装置
CN110427339A (zh) * 2019-06-29 2019-11-08 苏州浪潮智能科技有限公司 一种转换自动应答文件格式的方法和装置
CN115114146A (zh) * 2022-06-02 2022-09-27 马上消费金融股份有限公司 接口测试方法、装置、设备及存储介质
CN115809649A (zh) * 2022-11-23 2023-03-17 明度智云(浙江)科技有限公司 一种NeeS电子文档的eCTD转换方法、系统和存储介质
CN116150408A (zh) * 2022-12-30 2023-05-23 长飞光纤光缆股份有限公司 一种基于标识解析的能源信息管理方法、系统、设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7434160B2 (en) * 2003-12-03 2008-10-07 Hewlett-Packard Development Company, L.P. PDF document to PPML template translation

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101364293A (zh) * 2008-09-24 2009-02-11 金蝶软件(中国)有限公司 一种erp系统中实现业务数据交换的方法、装置和系统
CN101883372A (zh) * 2010-06-28 2010-11-10 中兴通讯股份有限公司 无线通信设备自动更新方法和装置
CN104317589A (zh) * 2014-10-22 2015-01-28 中国电子科技集团公司第四十一研究所 一种用于加载动态链接库的代码自动生成方法及装置
CN109815428A (zh) * 2018-12-28 2019-05-28 陈德芹 一种在线表格缓存方法及装置
CN110427339A (zh) * 2019-06-29 2019-11-08 苏州浪潮智能科技有限公司 一种转换自动应答文件格式的方法和装置
CN115114146A (zh) * 2022-06-02 2022-09-27 马上消费金融股份有限公司 接口测试方法、装置、设备及存储介质
CN115809649A (zh) * 2022-11-23 2023-03-17 明度智云(浙江)科技有限公司 一种NeeS电子文档的eCTD转换方法、系统和存储介质
CN116150408A (zh) * 2022-12-30 2023-05-23 长飞光纤光缆股份有限公司 一种基于标识解析的能源信息管理方法、系统、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Excel到XML数据自动转换组件的研究与应用;白仲贵;《中国优秀硕士学位论文全文数据库信息科技辑》;I138-188 *

Also Published As

Publication number Publication date
CN116955300A (zh) 2023-10-27

Similar Documents

Publication Publication Date Title
CN110457302B (zh) 一种结构化数据智能清洗方法
CN110059320B (zh) 实体关系抽取方法、装置、计算机设备和存储介质
WO2020186786A1 (zh) 文件处理方法、装置、计算机设备和存储介质
CN112651238A (zh) 训练语料扩充方法及装置、意图识别模型训练方法及装置
CN112015900B (zh) 医学属性知识图谱构建方法、装置、设备及介质
CN109783785B (zh) 生成实验检测报告的方法、装置和计算机设备
CN112036144B (zh) 数据解析方法、装置、计算机设备和可读存储介质
CN112766319B (zh) 对话意图识别模型训练方法、装置、计算机设备及介质
CN110866107A (zh) 素材语料的生成方法、装置、计算机设备和存储介质
CN112286934A (zh) 数据库表导入方法、装置、设备及介质
CN116701182B (zh) 一种覆盖率标记文件更新方法、装置、设备及存储介质
CN115391439B (zh) 文档数据导出方法、装置、电子设备和存储介质
CN111357015B (zh) 文本转换方法、装置、计算机设备和计算机可读存储介质
CN111984659A (zh) 数据更新方法、装置、计算机设备和存储介质
CN114510923A (zh) 基于人工智能的文本主题生成方法、装置、设备及介质
WO2021047327A1 (zh) 目标概念图谱的构建方法、装置、计算机设备和存储介质
CN116955300B (zh) 一种基于标签技术的文件生成方法及系统
CN117251469A (zh) 一种sql语句生成方法、系统、介质及设备
CN110956043A (zh) 基于别名标准化的领域专业词汇词嵌入向量训练方法、系统及介质
CN109410069A (zh) 结算数据处理方法、装置、计算机设备和存储介质
CN115618054A (zh) 视频推荐方法及装置
CN113849644A (zh) 文本分类模型的配置方法、装置、计算机设备及存储介质
CN117312833B (zh) 一种应用于数字资产环境中的数据识别方法及系统
CN107544980B (zh) 一种查找网页的方法及装置
CN117173725B (zh) 表格信息处理方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant