CN116226053B - 一种文本处理方法、装置及设备 - Google Patents

一种文本处理方法、装置及设备 Download PDF

Info

Publication number
CN116226053B
CN116226053B CN202310493676.8A CN202310493676A CN116226053B CN 116226053 B CN116226053 B CN 116226053B CN 202310493676 A CN202310493676 A CN 202310493676A CN 116226053 B CN116226053 B CN 116226053B
Authority
CN
China
Prior art keywords
text
variable
placeholder
template
conversion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310493676.8A
Other languages
English (en)
Other versions
CN116226053A (zh
Inventor
李劲松
于明亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Travelsky Technology Co Ltd
Original Assignee
China Travelsky Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Travelsky Technology Co Ltd filed Critical China Travelsky Technology Co Ltd
Priority to CN202310493676.8A priority Critical patent/CN116226053B/zh
Publication of CN116226053A publication Critical patent/CN116226053A/zh
Application granted granted Critical
Publication of CN116226053B publication Critical patent/CN116226053B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/116Details of conversion of file system types or formats
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明提供一种文本处理方法、装置及设备。其中,所述文本处理方法,包括:获取待转化文本的第一变量名,以及所述第一变量名对应的变量值;根据所述待转化文本,确定目标转化模板;所述目标转化模板包括至少一个占位符,以及每个所述占位符对应的唯一的第二变量名;根据所述占位符和所述变量值,确定初始转化文本;对所述初始转化文本进行文件格式转化处理,确定目标适配文本。本发明的方案能够通过对文本进行文件格式的自由转化,实现文本格式的统一,从而提高信息交互过程中的文本填写位置的准确性、通用性及便利性。

Description

一种文本处理方法、装置及设备
技术领域
本发明涉及计算机信息处理技术领域,特别是指一种文本处理方法、装置及设备。
背景技术
随着计算机技术的发展,越来越多的技术正在被应用在生产生活的各个领域,通常在各个领域中会存在大量的需要多方相互提供相关资料的应用场景。同时,为了数据的安全性,通常会使用区块链技术来进行数据的存放及使用。
区块链,即一个又一个区块组成的链条,每一个区块中保存了一定的信息,各区块按照各自产生的时间顺序连接成链条,这个链条被保存在所有的服务器中,只要整个系统中有一台服务器可以工作,整条区块链就是安全的,这些服务器在区块链系统中被称为节点,各节点为整个区块链系统提供存储空间和算力支持。如果要修改区块链中的信息,必须征得多数节点的同意并修改所有节点中的信息,而这些节点通常掌握在不同的主体手中,篡改区块链中的信息是一件极其困难的事,因此,区块链记录的信息更加真实可靠。同时,区块链还具有信息同步及信息公开透明的特点。
但是,由于各方之间的用词习惯以及所需要的内容着重点存在差异,所以在进行资料提供的过程中,会导致将对应的资料提供到准确位置的难度提高,进而降低了信息交互过程中的准确性。如在旅客乘坐飞机出行,涉及到数据出境的场景中,航信部门通常需要机场或者航司,提供相关资料对该情况进行说明及申请。但是由于数据提供方与数据接收方需要的数据存在差异的情况,数据交换准确率较低,进而导致数据交换效率低下的问题,同时,各方之间使用的系统可以执行的文件格式会存在差异,进而降低了信息交互过程中的通用性及便利性。
发明内容
本发明要解决的技术问题是如何提供一种文本处理方法、装置及设备,能够通过对文本进行文件格式的自由转化,实现文本格式的统一,从而提高信息交互过程中的文本填写位置的准确性、通用性及便利性。
为解决上述技术问题,本发明的技术方案如下:
一种文本处理方法,所述方法包括:
获取待转化文本的第一变量名,以及所述第一变量名对应的变量值;
根据所述待转化文本,确定目标转化模板;所述目标转化模板包括至少一个占位符,以及每个所述占位符对应的唯一的第二变量名;
根据所述占位符和所述变量值,确定初始转化文本;
对所述初始转化文本进行文件格式转化处理,确定目标适配文本。
可选的,根据所述待转化文本,确定目标转化模板,包括:
获取初始模板文本;
将所述初始模板文本转化为第一文件格式的第一中间模板文本;
将所述第一中间模板文本转化为第二文件格式的第二中间模板文本;
对所述第二中间模板文本中的异常占位符字符串进行复原处理,得到处理文本;
在所述处理文本中加入图像编码占位符和引用占位符,确定目标转化模板。
可选的,所述图像编码占位符设置于所述第二中间模板文本的多媒体资源区。
可选的,根据所述占位符和所述变量值,确定初始转化文本,包括:
对所述占位符和所述变量值进行适配转换处理,确定初始转化文本;所述变量值包括图像变量值和文本变量值。
可选的,当所述变量值为图像变量值时,对所述占位符和所述变量值进行适配转换处理,确定初始转化文本,包括:
根据图像变量值获取初始图像;
根据所述初始图像,确定所述初始图像对应的图像变化编码;
根据所述图像变化编码,确定所述图像变化编码对应的编码引用;
将所述图像变化编码添加至图像编码占位符中,将所述编码引用添加至引用占位符中;
将所述图像变量值中的图像资源路径参数替换为所述编码引用,生成目标变量值;
将所述目标变量值加入与该目标变量值对应的占位符中,确定初始转化文本。
可选的,当所述变量值为文本变量值时,对所述占位符和所述变量值进行适配转换处理,确定初始转化文本,包括:
将所述文本变量值加入与所述文本变量值对应的占位符中,确定初始转化文本。
可选的,对所述初始转化文本进行文件格式转化处理,确定目标适配文本,包括:
将所述初始转化文本转化为第一文件格式的第一中间文本;
将所述第一中间文本转化为第三文件格式的第二中间文本;
将所述第二中间文本转化为第四文件格式的目标适配文本。
本发明还提供一种文本处理装置,所述装置包括:
获取模块,用于获取待转化文本的第一变量名,以及所述第一变量名对应的变量值;
处理模块,用于根据所述待转化文本,确定目标转化模板;所述目标转化模板包括至少一个占位符,以及每个所述占位符对应的唯一的第二变量名;根据所述占位符和所述变量值,确定初始转化文本;对所述初始转化文本进行文件格式转化处理,确定目标适配文本。
本发明还提供一种计算设备,包括:处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如上所述的方法的步骤。
本发明还提供一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如上所述的方法的步骤。
本发明的上述方案至少包括以下有益效果:
本发明的上述方案,通过获取待转化文本的第一变量名,以及所述第一变量名对应的变量值;根据所述待转化文本,确定目标转化模板;所述目标转化模板包括至少一个占位符,以及每个所述占位符对应的唯一的第二变量名;根据所述占位符和所述变量值,确定初始转化文本;对所述初始转化文本进行文件格式转化处理,确定目标适配文本。能够通过对文本进行文件格式的自由转化,实现文本格式的统一,从而提高信息交互过程中的文本填写位置的准确性、通用性及便利性。
附图说明
图1是本发明实施例提供的文本处理方法流程图;
图2是本发明实施例的文本处理装置的模块框示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
如图1所示,本发明的实施例提供一种文本处理方法,所述方法包括:
步骤11,获取待转化文本的第一变量名,以及所述第一变量名对应的变量值;
步骤12,根据所述待转化文本,确定目标转化模板;所述目标转化模板包括至少一个占位符,以及每个所述占位符对应的唯一的第二变量名;
步骤13,根据所述占位符和所述变量值,确定初始转化文本;
步骤14,对所述初始转化文本进行文件格式转化处理,确定目标适配文本。
本发明的该实施例中,通过所述文本处理方法,能够通过对文本进行文件格式的自由转化,实现文本格式的统一,从而提高信息交互过程中的文本填写位置的准确性、通用性及便利性。
需要说明的是,待转化文本为各方根据自身情况所提供的填写的资料信息;例如,姓名:张三;性别:男;将填写好的待转化文本存入数据库中,待转化文本在数据库中的存储形式为name:张三;sex:男;其中,name与sex均为第一变量名,张三与男为第一变量名对应的变量值;第一变量名的内容可以根据实际需求自行定义。
本发明一可选的实施例中,步骤12可以包括:
步骤121,获取初始模板文本;这里,所述初始模板文本中包含多个适配位置,每个所述适配位置均配置有所述适配位置对应的占位符;
步骤122,将所述初始模板文本转化为第一文件格式的第一中间模板文本;这里,所述第一文件格式可以为.mht格式;
步骤123,将所述第一中间模板文本转化为第二文件格式的第二中间模板文本;这里,所述第二文件格式可以为.ftl文件格式;
步骤124,对所述第二中间模板文本中的异常占位符字符串进行复原处理,得到处理文本;
步骤125,在所述处理文本中加入图像编码占位符和引用占位符,确定目标转化模板。
其中,所述图像编码占位符设置于所述第二中间模板文本的多媒体资源区。
本实施例中,基于word生成文件格式为.ftl的目标转化模板,可以提高目标转化模板制作的容易度,便于实现。
需要说明的是,所述目标转化模板可以基于word(文字处理器应用程序)文本生成,所述目标转化模板的文件格式为.ftl;
具体的,可以通过word来制作目标转化模板;再将格式转化为.ftl;可以根据需求编辑目标转化模板中所需的内容及格式;在所需的内容后设置对应的占位符,以便于在进行后续的适配转换处理中,将对应的内容替换至目标位置;
具体的,目标转化模板中的内容可以按照如下形式编辑:
例如:姓名:${name};性别:${sex};其中,${}为占位符,name及sex为第二变量名;
每个资料提供方均可以设置一个唯一的身份标识,该身份标识可以设置在每个待转化文本中,也可以设置在待转化文本所存储的数据库中;根据该唯一的身份标识可以匹配到对应的目标转化模板,并可以确定对应的第一变量名与第二变量名之间的具体的映射关系;
需要说明的是,该映射关系可以根据实际需求自行定义,例如:第一变量名和第二变量名之间的映射关系可以为第一变量名等于第二变量名;第一变量名和第二变量名均可以是由字母组成的内容,还可以是字母及数字组成的内容。根据字母或者字母和数字组成的内容,在进行适配转换处理时不容易发生解析错误的情况。
本发明又一可选的实施例中,步骤13可以包括:
步骤131,对所述占位符和所述变量值进行适配转换处理,确定初始转化文本;所述变量值包括图像变量值和文本变量值。
本实施例中,可以根据第一变量名和第二变量名之间的映射关系,将目标转化模板中的占位符与相应的第一变量名进行适配转换处理,生成初始转化文本,初始转化文本的文件格式为.ftl;适配转换处理用于将每个占位符替换成对应的变量值。
本发明一可选的具体实施例中,根据第一变量名和第二变量名之间的映射关系,可以将第一变量名对应的变量值替换至目标转化模板中对应的第二变量名所在的占位符中;以实现信息之间的适配转化;即使各方之间对同一信息的描述存在差异,也可以通过该映射关系来进行转化对齐;
具体的,例如资料获取方所需要的资料中存在“公司简介”这一项内容,且在该项内容中实际需要提供关于公司的成立时间、经营范围、股权结构、财务状况等内容;
而资料提供方在日常理解中“公司简介”这一项仅为成立时间及主营业务这两项内容;同时,资料提供方习惯将经营范围和财务状况这两项内容表达为主营产品和资产负债表;因此,由于行业之间的差异,容易出现对相同名词的不同理解,以及对同义名词的不同理解;
可以将“公司简介”作为目标转化模板中的一个第二变量名,放置到对应的占位符中。并且对应的会将“公司简介”所需要的“成立时间、经营范围、股权结构、近一年的财务状况”等4项内容,转化为资料提供方容易准确理解的“成立时间、主营产品、股权结构及资产负债表”等4个第一变量名,并建立“成立时间、主营产品、股权结构及资产负债表”等4个第一变量名与“公司简介”这个第二变量名之间的映射关系。且形成4个对应的待填写项,供资料提供方进行填写;
这样资料提供方在进行资料提供时,可以按照自己习惯的方式提供对应的资料;资料获取方也可以获取到自己所需要的内容。
这样资料提供方和资料获取方均可以根据自己的需要,生成对应的目标转化模板,并可以根据待提供内容生成待转化文本;并根据待转化文本及目标转化模板之间的对应关系进行配对,配对后可以根据其中包含的第一变量名与第二变量名之间的映射关系,将对应的变量值填写至目标位置;这样通过提前建立第一变量名与第二变量名之间的映射关系,可以提高资料填写位置的准确度,从而提高信息交互的准确性。
本发明又一可选的实施例中,当所述变量值为图像变量值时,步骤131可以包括:
步骤1311,根据图像变量值获取初始图像;
步骤1312,根据所述初始图像,确定所述初始图像对应的图像变化编码;这里,所述图像变化编码可以为图像的base64编码;
步骤1313,根据所述图像变化编码,确定所述图像变化编码对应的编码引用;
步骤1314,将所述图像变化编码添加至图像编码占位符中,将所述编码引用添加至引用占位符中;这里,所述图像编码占位符可以为${imagesBase64String!""};所述引用占位符可以为${imagesXmlHresfString!""};
步骤1315,将所述图像变量值中的图像资源路径参数替换为所述编码引用,生成目标变量值;
步骤1316,将所述目标变量值加入与该目标变量值对应的占位符中,确定初始转化文本。
本实施例中,通过将多个图像编码及其对应的引用均放置到对应的占位符所指示的位置。这样可以实现将对应的图像信息存储在最终的转化完成的文本中,进而可以在转化后进行图片的离线展示,便于使用。
具体的,若图像对应的编码引用为:<o:File HRef=3D"filelist.xml"/>;图像变量值为:<img src="http://c.biancheng.net/cpp/templets/new/images/logo.jpg?v=3.994">,则最终生成的目标变量值为:<img src="filelist">。
在对图片进行处理的过程中,需要对图像变量值进行适应性修改,这样便于进行本地图像的调用展示,能够将含有图片的富文本进行正常转换。
需要说明的是,图像在代码中会具有对应的描述代码,例如:在HTML中其可以为<img src="http://c.biancheng.net/cpp/templets/new/images/logo.jpg?v=3.994"alt="Logo">。其中,在src=之后的内容即为该图像的存放位置,也即URL(uniform resourcelocator,统一资源定位系统),如:http://c.biancheng.net/cpp/templets/new/images/logo.jpg?v=3.994。由此,可以根据该URL获取到对应的初始图像。
本发明又一可选的具体实施例中,步骤1311之前,还可以包括:
步骤1310,若变量值中包括图像标识,则确定所述变量值为图像变量值。
本实施例中,可以在进行适配转换处理之前,识别待转化的变量值的类型,便于确定适配转换处理的具体方式;具体的,可以通过识别变量值中是否存在图像标识来确定,该变量值是否为图像变量值;例如,若别变量值中存在图像标识<img>,则该变量值为图像变量值。
本发明又一可选的实施例中,当所述变量值为文本变量值时,步骤131可以包括:
步骤1316,将所述文本变量值加入与所述文本变量值对应的占位符中,确定初始转化文本。
本实施例中,对文本的适配转换处理,即直接将获取待转化文本的变量值替换至对应的占位符处;如:待转化文本为name:张三;对应的占位符为“姓名:${name}”中的${name};最终适配转换处理的结果为姓名:张三;
通过对文本进行适配转换处理处理,使得最终得到的目标适配文本为格式通用的.doc格式,这样可以提高交互过程中信息的通用性及便利性;而且在适配转换处理的过程中,文本中的内容不容易发生改变,也不容易出现转化错误。
本发明又一可选的实施例中,步骤14可以包括:
步骤141,将所述初始转化文本转化为第一文件格式的第一中间文本;
步骤142,将所述第一中间文本转化为第三文件格式的第二中间文本;这里,所述第三文件格式可以为.htm格式;
步骤143,将所述第二中间文本转化为第四文件格式的目标适配文本,这里,所述第四文件格式可以为.doc格式。
本实施例中,通过对所述初始转化文本进行文件格式转化处理,确定目标适配文本;可以将数据提供方和数据收集方之间的文档进行对应形式的自由转化,以提高文本填写位置的准确性、进而提高了信息交互的准确性。
本发明又一可选的具体实施例中,所述目标适配文本的确定过程具体可以包括:
步骤1,基于word生成初始模板文本,初始模板文本中包括多个适配位置,每一适配位置配置对应的占位符;
具体的,可以通过word软件创建一个新的初始模板文本,并根据需要资料提供方填写的文本的排版样式确定多个适配位置;并根据需要资料提供方填写的内容,在对应的适配位置生成对应的占位符;
步骤2,将初始模板文本转化为文件格式为.mht的第一中间模板文本;
步骤3,将第一中间模板文本转化为文件格式为.ftl的第二中间模板文本;在word中完成对应的初始模板文本后,需要通过多次格式转换,将文本格式转化为.ftl,便于对文本进行自动化的适配转换处理;
步骤4,对第二中间模板文本中的表示异常的占位符字符串进行复原处理并加入图像编码占位符及引用占位符,生成目标适配文本;其中,图像编码占位符设置于第二中间模板文本的多媒体资源区;引用占位符均设置于第二中间模板文本的多媒体资源引用区;
具体的,图像编码占位符可以为${imagesBase64String!""};引用占位符可以为${imagesXmlHresfString!""};
目标转化模板的格式为.ftl,即MHTML(MIME Encapsulation of Aggregate HTMLDocuments,网页归档)文件(聚合HTML文档、Web档案或单一文件网页),该文件整体分两个区域,一个是传统的html所在的区域,另一个是资源区;
在传统html区域中,可以包含<head>、<meta>、<style>及<body>四部分;其中,目标转化模板中的存文本类型的第二变量名,如name、sex等,可以存放在<body>区;
资源区即文件中传统html区域之外的区域,用于存放多媒体资源,如图片等内容;多媒体资源区及多媒体资源引用区在该区域中;
具体的,图像编码占位符可以放置在folHlink=3D“folHlink”下面,用于存放每一个图像的图像编码;引用占位符可以放置在filelist.xml下面,用于存放每一个图像编码的编码引用。
本发明的上述实施例中,通过所述文本处理方法,可以将数据提供方和数据收集方之间的文档进行对应形式的自由转化,以提高文本填写位置的准确性、进而提高了信息交互的准确性;
各方均可以根据自己的实际需求生成对应的目标转化模板,可以根据待提供内容生成待转化文本,再根据待转化文本及目标转化模板之间的对应关系进行配对,配对后可以根据其中包含的第一变量名与第二变量名之间的映射关系,将对应的变量值填写至目标位置。这样可以提高资料填写位置的准确度,进而提高了信息交互的准确性;
对初始转化文本进行文件格式转化处理,以使最终得到的目标适配文本为格式更加通用的.doc格式。可以提高交互过程中信息的通用性及便利性。基于word生成文件格式为.ftl的目标转化模板,可以提高目标转化模板制作的容易度,便于实现。
如图2所示,本发明的实施例还提供一种文本处理装置20,所述装置20包括:
获取模块21,用于获取待转化文本的第一变量名,以及所述第一变量名对应的变量值;
处理模块22,用于根据所述待转化文本,确定目标转化模板;所述目标转化模板包括至少一个占位符,以及每个所述占位符对应的唯一的第二变量名;根据所述占位符和所述变量值,确定初始转化文本;对所述初始转化文本进行文件格式转化处理,确定目标适配文本。
可选的,根据所述待转化文本,确定目标转化模板,包括:
获取初始模板文本;
将所述初始模板文本转化为第一文件格式的第一中间模板文本;
将所述第一中间模板文本转化为第二文件格式的第二中间模板文本;
对所述第二中间模板文本中的异常占位符字符串进行复原处理,得到处理文本;
在所述处理文本中加入图像编码占位符和引用占位符,确定目标转化模板。
可选的,所述图像编码占位符设置于所述第二中间模板文本的多媒体资源区。
可选的,根据所述占位符和所述变量值,确定初始转化文本,包括:
对所述占位符和所述变量值进行适配转换处理,确定初始转化文本;所述变量值包括图像变量值和文本变量值。
可选的,当所述变量值为图像变量值时,对所述占位符和所述变量值进行适配转换处理,确定初始转化文本,包括:
根据图像变量值获取初始图像;根据所述初始图像,确定所述初始图像对应的图像变化编码;
根据所述图像变化编码,确定所述图像变化编码对应的编码引用;
将所述图像变化编码添加至图像编码占位符中,将所述编码引用添加至引用占位符中;
将所述图像变量值中的图像资源路径参数替换为所述编码引用,生成目标变量值;
将所述目标变量值加入与该目标变量值对应的占位符中,确定初始转化文本。
可选的,当所述变量值为文本变量值时,对所述占位符和所述变量值进行适配转换处理,确定初始转化文本,包括:
将所述文本变量值加入与所述文本变量值对应的占位符中,确定初始转化文本。
可选的,对所述初始转化文本进行文件格式转化处理,确定目标适配文本,包括:
将所述初始转化文本转化为第一文件格式的第一中间文本;
将所述第一中间文本转化为第三文件格式的第二中间文本;
将所述第二中间文本转化为第四文件格式的目标适配文本。
需要说明的是,该装置是与上述方法对应的装置,上述方法实施例中的所有实现方式均适用于该装置的实施例中,也能达到相同的技术效果。
本发明的实施例还提供一种计算设备,包括:处理器、存储有计算机程序的存储器,所述计算机程序被处理器运行时,执行如上所述的方法。上述方法实施例中的所有实现方式均适用于该实施例中,也能达到相同的技术效果。
本发明的实施例还提供一种计算机可读存储介质,包括指令,当所述指令在计算机上运行时,使得计算机执行如上所述的方法。上述方法实施例中的所有实现方式均适用于该实施例中,也能达到相同的技术效果。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
此外,需要指出的是,在本发明的装置和方法中,显然,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行,某些步骤可以并行或彼此独立地执行。对本领域的普通技术人员而言,能够理解本发明的方法和装置的全部或者任何步骤或者部件,可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中,以硬件、固件、软件或者它们的组合加以实现,这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。
因此,本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此,本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说,这样的程序产品也构成本发明,并且存储有这样的程序产品的存储介质也构成本发明。显然,所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。还需要指出的是,在本发明的装置和方法中,显然,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (4)

1.一种文本处理方法,其特征在于,所述方法包括:
获取待转化文本的第一变量名,以及所述第一变量名对应的变量值;
根据所述待转化文本,确定目标转化模板;所述目标转化模板包括至少一个占位符,以及每个所述占位符对应的唯一的第二变量名;
根据所述占位符和所述变量值,确定初始转化文本;
对所述初始转化文本进行文件格式转化处理,确定目标适配文本;
其中,根据所述待转化文本,确定目标转化模板,包括:
获取初始模板文本;所述初始模板文本中包含多个适配位置,每个所述适配位置均配置有所述适配位置对应的占位符;
将所述初始模板文本转化为第一文件格式的第一中间模板文本;所述第一文件格式为.mht格式;
将所述第一中间模板文本转化为第二文件格式的第二中间模板文本;所述第二文件格式为.ftl文件格式;
对所述第二中间模板文本中的异常占位符字符串进行复原处理,得到处理文本;
在所述处理文本中加入图像编码占位符和引用占位符,确定目标转化模板;所述图像编码占位符设置于所述第二中间模板文本的多媒体资源区;所述目标转化模板基于文字处理器应用程序文本生成,所述目标转化模板的文件格式为.ftl;
其中,根据所述占位符和所述变量值,确定初始转化文本,包括:
若变量值中存在图像标识,则该变量值为图像变量值,否则改变量值为文本变量值;
对所述占位符和所述变量值进行适配转换处理,确定初始转化文本;所述变量值包括图像变量值或文本变量值;具体的,根据第一变量名和第二变量名之间的映射关系,将目标转化模板中的占位符与相应的第一变量名进行适配转换处理,生成初始转化文本,初始转化文本的文件格式为.ftl;适配转换处理用于将每个占位符替换成对应的变量值;
其中,当所述变量值为图像变量值时,对所述占位符和所述变量值进行适配转换处理,确定初始转化文本,包括:
根据图像变量值获取初始图像;
根据所述初始图像,确定所述初始图像对应的图像变化编码;
根据所述图像变化编码,确定所述图像变化编码对应的编码引用;
将所述图像变化编码添加至图像编码占位符中,将所述编码引用添加至引用占位符中;
将所述图像变量值中的图像资源路径参数替换为所述编码引用,生成目标变量值;
将所述目标变量值加入与该目标变量值对应的占位符中,确定初始转化文本;
其中,当所述变量值为文本变量值时,对所述占位符和所述变量值进行适配转换处理,确定初始转化文本,包括:
将所述文本变量值加入与所述文本变量值对应的占位符中,确定初始转化文本;
其中,对所述初始转化文本进行文件格式转化处理,确定目标适配文本,包括:
将所述初始转化文本转化为第一文件格式的第一中间文本;
将所述第一中间文本转化为第三文件格式的第二中间文本;
将所述第二中间文本转化为第四文件格式的目标适配文本;
其中,所述待转化文本或者所述待转化文本所存储的数据库中,设置有预设唯一身份标识,根据所述预设唯一身份标识匹配对应的目标转化模板,并确定对应的第一变量名与第二变量名之间的具体的映射关系;第一变量名和第二变量名之间的映射关系为第一变量名等于第二变量名;
其中,根据第一变量名和第二变量名之间的映射关系,将第一变量名对应的变量值替换至目标转化模板中对应的第二变量名所在的占位符中;
其中,资料提供方和资料获取方均生成对应的符合自身要求的目标转化模板,并根据待提供内容生成待转化文本;根据待转化文本及目标转化模板之间的对应关系进行配对,配对后根据其中包含的第一变量名与第二变量名之间的映射关系,将对应的变量值填写至目标位置;
其中,对文本的适配转换处理,即直接将获取待转化文本的变量值替换至对应的占位符处;
其中,所述目标适配文本的确定过程具体包括:
基于word生成初始模板文本,初始模板文本中包括多个适配位置,每一适配位置配置对应的占位符;具体的,通过word软件创建一个新的初始模板文本,并根据需要资料提供方填写的文本的排版样式确定多个适配位置;并根据需要资料提供方填写的内容,在对应的适配位置生成对应的占位符;
将初始模板文本转化为文件格式为.mht的第一中间模板文本;
将第一中间模板文本转化为文件格式为.ftl的第二中间模板文本;在word中完成对应的初始模板文本后,通过多次格式转换,将文本格式转化为.ftl,便于对文本进行自动化的适配转换处理;
对第二中间模板文本中的表示异常的占位符字符串进行复原处理并加入图像编码占位符及引用占位符,生成目标适配文本;其中,图像编码占位符设置于第二中间模板文本的多媒体资源区;引用占位符均设置于第二中间模板文本的多媒体资源引用区;
具体的,图像编码占位符为${imagesBase64String!""};引用占位符为${imagesXmlHresfString!""};目标转化模板的格式为.ftl,即MHTML文件,该文件整体分两个区域,一个是传统的html所在的区域,另一个是资源区;所述资源区为html区域之外的区域,用于存放多媒体资源;多媒体资源区及多媒体资源引用区在该区域中;
具体的,图像编码占位符放置在folHlink=3D“folHlink”下面,用于存放每一个图像的图像编码;引用占位符放置在filelist .xml下面,用于存放每一个图像编码的编码引用;
其中,待转化文本为各方根据自身情况所提供的或填写的资料信息;将填写好的待转化文本存入数据库中;
其中,第一变量名和第二变量名均为字母组成的内容,或者是字母及数字组成的内容;
根据第一变量名和第二变量名之间的映射关系,将目标转化模板中的占位符与相应的第一变量名进行适配转换处理,生成初始转化文本,初始转化文本的文件格式为.ftl,适配转换处理用于将每个占位符替换成对应的变量值。
2.一种文本处理装置,其特征在于,所述装置包括:获取模块,用于获取待转化文本的第一变量名,以及所述第一变量名对应的变量值;
处理模块,用于根据所述待转化文本,确定目标转化模板;所述目标转化模板包括至少一个占位符,以及每个所述占位符对应的唯一的第二变量名;根据所述占位符和所述变量值,确定初始转化文本;对所述初始转化文本进行文件格式转化处理,确定目标适配文本;
其中,根据所述待转化文本,确定目标转化模板,包括:
获取初始模板文本;所述初始模板文本中包含多个适配位置,每个所述适配位置均配置有所述适配位置对应的占位符;
将所述初始模板文本转化为第一文件格式的第一中间模板文本;所述第一文件格式为.mht格式;
将所述第一中间模板文本转化为第二文件格式的第二中间模板文本;所述第二文件格式为.ftl文件格式;
对所述第二中间模板文本中的异常占位符字符串进行复原处理,得到处理文本;
在所述处理文本中加入图像编码占位符和引用占位符,确定目标转化模板;所述图像编码占位符设置于所述第二中间模板文本的多媒体资源区;所述目标转化模板基于文字处理器应用程序文本生成,所述目标转化模板的文件格式为.ftl;
其中,根据所述占位符和所述变量值,确定初始转化文本,包括:
若变量值中存在图像标识,则该变量值为图像变量值,否则改变量值为文本变量值;
对所述占位符和所述变量值进行适配转换处理,确定初始转化文本;所述变量值包括图像变量值和或文本变量值;具体的,根据第一变量名和第二变量名之间的映射关系,将目标转化模板中的占位符与相应的第一变量名进行适配转换处理,生成初始转化文本,初始转化文本的文件格式为.ftl;适配转换处理用于将每个占位符替换成对应的变量值;
其中,当所述变量值为图像变量值时,对所述占位符和所述变量值进行适配转换处理,确定初始转化文本,包括:
根据图像变量值获取初始图像;
根据所述初始图像,确定所述初始图像对应的图像变化编码;
根据所述图像变化编码,确定所述图像变化编码对应的编码引用;
将所述图像变化编码添加至图像编码占位符中,将所述编码引用添加至引用占位符中;
将所述图像变量值中的图像资源路径参数替换为所述编码引用,生成目标变量值;
将所述目标变量值加入与该目标变量值对应的占位符中,确定初始转化文本;
其中,当所述变量值为文本变量值时,对所述占位符和所述变量值进行适配转换处理,确定初始转化文本,包括:
将所述文本变量值加入与所述文本变量值对应的占位符中,确定初始转化文本;
其中,对所述初始转化文本进行文件格式转化处理,确定目标适配文本,包括:
将所述初始转化文本转化为第一文件格式的第一中间文本;
将所述第一中间文本转化为第三文件格式的第二中间文本;
将所述第二中间文本转化为第四文件格式的目标适配文本;
其中,所述目标转化模板的编辑形式为:姓名:${name};性别:${sex};其中,${}为占位符,name及sex为第二变量名;
其中,所述目标转化模板基于word文本生成,所述目标转化模板的文件格式为.ftl;
其中,所述待转化文本或者所述待转化文本所存储的数据库中,设置有预设唯一身份标识,根据所述预设唯一身份标识匹配对应的目标转化模板,并确定对应的第一变量名与第二变量名之间的具体的映射关系;第一变量名和第二变量名之间的映射关系为第一变量名等于第二变量名;
其中,根据第一变量名和第二变量名之间的映射关系,将第一变量名对应的变量值替换至目标转化模板中对应的第二变量名所在的占位符中;
其中,在进行适配转换处理之前,通过根据变量值识别待转化的变量值的类型,若识别变量值中是否存在图像标识,则该变量值为图像变量值,否则改变量值为文本变量值;
其中,资料提供方和资料获取方均生成对应的符合自身要求的目标转化模板,并根据待提供内容生成待转化文本;根据待转化文本及目标转化模板之间的对应关系进行配对,配对后根据其中包含的第一变量名与第二变量名之间的映射关系,将对应的变量值填写至目标位置;
其中,对文本的适配转换处理,即直接将获取待转化文本的变量值替换至对应的占位符处;具体的,若待转化文本为name:张三;对应的占位符为“姓名:${name}”中的${name};最终适配转换处理的结果为姓名:张三;
其中,所述目标适配文本的确定过程具体包括:
基于word生成初始模板文本,初始模板文本中包括多个适配位置,每一适配位置配置对应的占位符;具体的,通过word软件创建一个新的初始模板文本,并根据需要资料提供方填写的文本的排版样式确定多个适配位置;并根据需要资料提供方填写的内容,在对应的适配位置生成对应的占位符;
将初始模板文本转化为文件格式为.mht的第一中间模板文本;
将第一中间模板文本转化为文件格式为.ftl的第二中间模板文本;在word中完成对应的初始模板文本后,通过多次格式转换,将文本格式转化为.ftl,便于对文本进行自动化的适配转换处理;
对第二中间模板文本中的表示异常的占位符字符串进行复原处理并加入图像编码占位符及引用占位符,生成目标适配文本;其中,图像编码占位符设置于第二中间模板文本的多媒体资源区;引用占位符均设置于第二中间模板文本的多媒体资源引用区;
具体的,图像编码占位符为${imagesBase64String!""};引用占位符为${imagesXmlHresfString!""};目标转化模板的格式为.ftl,即MHTML文件,该文件整体分两个区域,一个是传统的html所在的区域,另一个是资源区;所述资源区为html区域之外的区域,用于存放多媒体资源;多媒体资源区及多媒体资源引用区在该区域中;
具体的,图像编码占位符放置在folHlink=3D“folHlink”下面,用于存放每一个图像的图像编码;引用占位符放置在filelist .xml下面,用于存放每一个图像编码的编码引用;
其中,待转化文本为各方根据自身情况所提供的或填写的资料信息;将填写好的待转化文本存入数据库中;
其中,第一变量名和第二变量名均为字母组成的内容,或者是字母及数字组成的内容;
根据第一变量名和第二变量名之间的映射关系,将目标转化模板中的占位符与相应的第一变量名进行适配转换处理,生成初始转化文本,初始转化文本的文件格式为.ftl,适配转换处理用于将每个占位符替换成对应的变量值。
3.一种计算设备,其特征在于,包括:处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1所述的方法的步骤。
4.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1所述的方法的步骤。
CN202310493676.8A 2023-05-05 2023-05-05 一种文本处理方法、装置及设备 Active CN116226053B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310493676.8A CN116226053B (zh) 2023-05-05 2023-05-05 一种文本处理方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310493676.8A CN116226053B (zh) 2023-05-05 2023-05-05 一种文本处理方法、装置及设备

Publications (2)

Publication Number Publication Date
CN116226053A CN116226053A (zh) 2023-06-06
CN116226053B true CN116226053B (zh) 2024-03-22

Family

ID=86585871

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310493676.8A Active CN116226053B (zh) 2023-05-05 2023-05-05 一种文本处理方法、装置及设备

Country Status (1)

Country Link
CN (1) CN116226053B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101976235A (zh) * 2010-09-21 2011-02-16 天津神舟通用数据技术有限公司 基于动态网页的可扩展的Word报告自动生成方法
CN109299446A (zh) * 2018-08-03 2019-02-01 新华三大数据技术有限公司 报告生成方法及装置
CN109657215A (zh) * 2018-09-27 2019-04-19 深圳壹账通智能科技有限公司 基于模板的文档生成方法、设备、存储介质及装置
CN110060317A (zh) * 2019-03-16 2019-07-26 平安城市建设科技(深圳)有限公司 海报自动配置方法、设备、存储介质及装置
CN111178027A (zh) * 2019-12-09 2020-05-19 北京尊冠科技有限公司 基于在线创建模板和在线指定数据的报告生成系统和方法
CN112149390A (zh) * 2020-09-28 2020-12-29 平安资产管理有限责任公司 报告生成方法、系统、计算机设备与计算机可读存储介质
CN113609820A (zh) * 2021-07-30 2021-11-05 中国平安财产保险股份有限公司 基于可扩展标记语言文件生成word文件的方法、装置及设备
CN115809652A (zh) * 2023-01-28 2023-03-17 北京蓝色星际科技股份有限公司 自动合成红头文件的方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108090078B (zh) * 2016-11-22 2021-11-30 北京京东尚科信息技术有限公司 文档在线预览方法及装置、存储介质、电子设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101976235A (zh) * 2010-09-21 2011-02-16 天津神舟通用数据技术有限公司 基于动态网页的可扩展的Word报告自动生成方法
CN109299446A (zh) * 2018-08-03 2019-02-01 新华三大数据技术有限公司 报告生成方法及装置
CN109657215A (zh) * 2018-09-27 2019-04-19 深圳壹账通智能科技有限公司 基于模板的文档生成方法、设备、存储介质及装置
CN110060317A (zh) * 2019-03-16 2019-07-26 平安城市建设科技(深圳)有限公司 海报自动配置方法、设备、存储介质及装置
CN111178027A (zh) * 2019-12-09 2020-05-19 北京尊冠科技有限公司 基于在线创建模板和在线指定数据的报告生成系统和方法
CN112149390A (zh) * 2020-09-28 2020-12-29 平安资产管理有限责任公司 报告生成方法、系统、计算机设备与计算机可读存储介质
CN113609820A (zh) * 2021-07-30 2021-11-05 中国平安财产保险股份有限公司 基于可扩展标记语言文件生成word文件的方法、装置及设备
CN115809652A (zh) * 2023-01-28 2023-03-17 北京蓝色星际科技股份有限公司 自动合成红头文件的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于Word模板的复杂文档快速生成方法;骆蓉;黄俊;黎茂锋;刘志勤;;计算机应用与软件;20201012(第10期);63-69 *

Also Published As

Publication number Publication date
CN116226053A (zh) 2023-06-06

Similar Documents

Publication Publication Date Title
US9959607B2 (en) Automatic verification of graphic rendition of JSON data
US20190163699A1 (en) Method and apparatus for information interaction
US10817662B2 (en) Expert system for automation, data collection, validation and managed storage without programming and without deployment
KR20110086840A (ko) 개방형 개체 추출 시스템
US10747953B1 (en) Systems and methods for automatically creating a patent application based on a claim set such that the patent application follows a document plan inferred from an example document
CN110046155B (zh) 特征数据库的更新、数据特征的确定方法、装置及设备
CN112257613A (zh) 体检报告信息结构化提取方法、装置及计算机设备
US20240086739A1 (en) Systems and methods to identify document transitions between adjacent documents within document bundles
CN112131289A (zh) 数据处理方法、装置、电子设备及存储介质
US11971916B2 (en) Conversion of tabular format data to machine readable text for QA operations
CN114489950A (zh) 一种组件适配方法、装置、电子设备及存储介质
CN116226053B (zh) 一种文本处理方法、装置及设备
CN112364617A (zh) 文件信息的处理方法、装置、电子设备和存储介质
CN109542890B (zh) 数据修改方法、装置、计算机设备及存储介质
CN111581937A (zh) 文档生成方法、装置、计算机可读介质及电子设备
CN111882419B (zh) 质检文件的方法、装置及服务器
Feng Mapping geospatial metadata to open provenance model
CN113033177B (zh) 一种电子病历数据的解析方法及装置
CN114492324A (zh) 组件数据统计方法及装置
CN112948474B (zh) 数据导出方法、装置、设备及计算机可读存储介质
Zhao et al. Using deep learning to improve the accuracy of requirements to code traceability
CN111401005B (zh) 文本转换方法、装置及可读存储介质
Liu et al. Dynamic graph correlation learning for disease diagnosis with incomplete labels
Wing The ANSI/NIST-ITL standard update for 2011 (data format for the interchange of fingerprint, facial and other biometric information)
CN115480745B (zh) 基于配置文件的代码生成方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant