CN105653552B - 一种结构化文档处理方法、装置及设备 - Google Patents

一种结构化文档处理方法、装置及设备 Download PDF

Info

Publication number
CN105653552B
CN105653552B CN201410649467.9A CN201410649467A CN105653552B CN 105653552 B CN105653552 B CN 105653552B CN 201410649467 A CN201410649467 A CN 201410649467A CN 105653552 B CN105653552 B CN 105653552B
Authority
CN
China
Prior art keywords
document
document object
service
processing
dynamic link
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410649467.9A
Other languages
English (en)
Other versions
CN105653552A (zh
Inventor
刘贤焯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201410649467.9A priority Critical patent/CN105653552B/zh
Publication of CN105653552A publication Critical patent/CN105653552A/zh
Application granted granted Critical
Publication of CN105653552B publication Critical patent/CN105653552B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种结构化文档处理方法、装置及设备,所述方法包括:获取业务的结构化文档,根据配置的文档结构格式解析所述结构化文档,生成所述业务的文档对象;加载所述业务对应的动态链接库,对所述文档对象进行处理,获得处理结果,其中,所述动态链接库用于根据业务对文档对象的处理逻辑实现预设的接口类中接口;输出所述处理结果或根据所述处理结果输出所述业务的文档对象。本发明能够便于进行任务调度,并且节约了开发成本,提高了开发效率,在后续对处理方式进行优化时,仅需在优化过程中保证所用接口不变,便可以将优化的成果应用到对各个业务的结构化文档的处理过程中。

Description

一种结构化文档处理方法、装置及设备
技术领域
本发明涉及计算机技术领域,更具体地,涉及一种结构化文档处理方法、装置及设备。
背景技术
在现有技术中,在业务应用结构化文档时,通常需要对结构化文档进行处理。例如,去除业务的结构化文档中无用信息,对业务的结构化文档进行去除重复文档的操作,将结构化文档进行排序。针对不同业务,通常需要对业务的结构化文档进行不同的处理。
现有技术中,对结构化文档进行处理的方法为:针对每个业务,生成专门处理该业务的结构化文档的程序。该方法的缺陷在于,针对每个业务,生成其专用处理程序,增加了程序开发和维护的成本;另外,由于各个处理程序间不具有相同的运行参数,不便于进行处理过程中任务调度。
现有技术中,对结构化文档进行处理的另一方法为:为多个业务设置统一模板,根据模板生成统一样式的处理程序,当业务有特别处理需求时,在模板基础上进行修改,生成业务的处理程序。该方法的缺陷在于,当根据业务特别处理需求在模板基础上进行修改时,难以保证处理程序中运行参数保持不变,因此,同样会使得各个业务的程序间不具有相同的运行参数,不便于进行任务调度。
发明内容
有鉴于此,本发明实施例的目的是提供一种结构化文档处理方法、装置及设备,用以节约开发成本,并方便对处理过程中任务进行调度。
为了达到上述目的,本发明实施例采用以下技术方案:
根据本发明实施例的第一方面,提供一种结构化文档处理方法,包括以下步骤:
获取业务的结构化文档,根据配置的文档结构格式解析所述结构化文档,生成所述业务的文档对象;
加载所述业务对应的动态链接库,对所述文档对象进行处理,获得处理结果,其中,所述动态链接库用于根据业务对文档对象的处理逻辑实现预设的接口类中接口;
输出所述处理结果或根据所述处理结果输出所述业务的文档对象。
在一实施例中,所述加载所述业务对应的动态链接库,对所述文档对象进行处理,获得处理结果,包括:
调用代理构造函数创建所述动态连接库的实例对象,利用所述实例对象运行所述动态链接库对所述文档对象进行处理,获得处理结果;
当所述动态链接库运行结束后,调用代理析构函数释放所述实例对象占用的内存。
在一实施例中,所述加载所述业务对应的动态链接库,对所述文档对象进行处理,获得处理结果,包括:
加载所述业务对应的动态链接库,对所述文档对象进行更改,获得更改后的文档对象;或者
加载所述业务对应的动态链接库,对所述文档对象进行分析,获得分析结果。
在一实施例中,所述输出所述处理结果,包括:
根据预设格式对所述处理结果进行格式转换,输出格式转换后的处理结果;
或者,所述根据所述处理结果输出所述业务的文档对象,包括:
根据预设格式对所述文档对象进行格式转换,根据所述处理结果输出格式转换后的文档对象。
在一实施例中,所述加载所述业务对应的动态链接库,对所述文档对象进行分析,获得分析结果,包括:
加载所述动态链接库,对所述文档对象进行特征标识计算和/或优先级计算,获得所述文档对象对应的特征标识和/或优先级。
在一实施例中,当获得所述文档对象对应的特征标识和优先级时,所述根据所述处理结果输出所述业务的文档对象,包括:
根据所述文档对象对应的特征标识,从所述业务的文档对象中确定出相互重复的文档对象;
根据文档对象对应的优选级,从相互重复的文档对象中选择待输出的文档对象;
输出选择的待输出文档对象。
在一实施例中,当获得所述文档对象对应的优先级时,所述根据所述处理结果输出所述业务的文档对象,包括:
根据所述文档对象对应的优先级将所述业务的文档对象排序,按排序中顺序输出所述业务的文档对象。
根据本发明实施例的第二方面,提供一种结构化文档处理装置,包括:
解析模块,用于获取业务的结构化文档,根据配置的文档结构格式解析所述结构化文档,生成所述业务的文档对象;
处理模块,用于加载所述业务对应的动态链接库,对所述文档对象进行处理,获得处理结果,其中,所述动态链接库用于根据业务对文档对象的处理逻辑实现预设的接口类中接口;
输出模块,用于输出所述处理结果或根据所述处理结果输出所述业务的文档对象。
在一实施例中,所述处理模块,包括:
第一调用子模块,用于调用代理构造函数创建所述动态连接库的实例对象,利用所述实例对象运行所述动态链接库对所述文档对象进行处理,获得处理结果;
第二调用子模块,用于当所述动态链接库运行结束后,调用代理析构函数释放所述实例对象占用的内存。
在一实施例中,所述处理模块,包括:
第一处理子模块,用于加载所述业务对应的动态链接库,对所述文档对象进行更改,获得更改后的文档对象;或者
第二处理子模块,用于加载所述业务对应的动态链接库,对所述文档对象进行分析,获得分析结果。
在一实施例中,所述输出模块,包括:
第一输出子模块,用于根据预设格式对所述处理结果进行格式转换,输出格式转换后的处理结果;或者,
第二输出子模块,用于根据预设格式对所述文档对象进行格式转换,根据所述处理结果输出格式转换后的文档对象。
在一实施例中,所述第二处理子模块,还用于加载所述动态链接库,对所述文档对象进行特征标识计算和/或优先级计算,获得所述文档对象对应的特征标识和/或优先级。
在一实施例中,所述输出模块,包括:
确定子模块,用于根据所述文档对象对应的特征标识,从所述业务的文档对象中确定出相互重复的文档对象;
选择子模块,用于根据文档对象对应的优选级,从相互重复的文档对象中选择待输出的文档对象;
输出子模块,还用于输出选择的待输出文档对象。
在一实施例中,所述输出模块,用于根据所述文档对象对应的优先级将所述业务的文档对象排序,按排序中顺序输出所述业务的文档对象。
根据本发明实施例的第三方面,提供一种设备,包括上述任意一种结构化文档处理装置。
本发明实施例提供的技术包括以下有益效果:
本发明实施例提供的技术方案,对业务的结构化文档进行解析,加载动态链接库来按照业务的处理逻辑处理业务的文档对象,输出处理结果或根据处理结果输出业务的文档对象;如此,能够将进行解析业务的结构化文档,以及输出处理结果或根据处理结果输出业务的文档对象的操作通过统一的方式完成,通过加载动态链接库来进行根据业务处理逻辑对业务的文档对象进行处理的操作,使得在对各个业务的结构化文档进行处理时,保证了运行参数相同,便于进行任务调度;在对新的业务进行结构化文档处理时,仅需要在动态连接库中实现接口类的接口,无需对解析结构化文档,以及输出处理结果或根据处理结果输出业务的文档对象的操作再进行开发,节约了开发成本,提高了开发效率;在后续对处理方式进行优化时,仅需在优化过程中保证所用接口不变,便可以将优化的成果应用到对各个业务的结构化文档的处理过程中。
本发明实施例的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其它优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明实施例的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明实施例的限制。在附图中:
图1是本发明一实施例提供的结构化文档处理方法的流程图;
图2是本发明实施例一提供的结构化文档处理方法的流程图;
图3是本发明实施例一中使用多线程进行并行处理的示意图;
图4是本发明实施例二提供的结构化文档处理方法的流程图;
图5是本发明实施例三提供的结构化文档处理方法的流程图;
图6是本发明一实施例提供的结构化文档处理装置的结构图;
图7是本发明一实施例提供的结构化文档处理装置中的处理模块的结构图;
图8是本发明一实施例提供的结构化文档处理装置中的输出模块的结构图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明实施例,并不用于限定本发明实施例。
图1是本发明一实施例提供的结构化文档处理方法的流程图。如图1所示,该方法包括如下步骤S101-S103。
步骤S101,获取业务的结构化文档,根据配置的文档结构格式解析结构化文档,生成业务的文档对象。
举例而言,在步骤S101中,从输入数据中读取结构化文档,根据配置的通用文档结构格式或业务对应的文档结构格式,解析结构化文档,生成业务的文档对象。在后续的步骤中,针对文档对象进行处理。
步骤S102,加载业务对应的动态链接库,对文档对象进行处理,获得处理结果。
其中,动态链接库用于根据业务对文档对象的处理逻辑实现预设的接口类中接口。
步骤S102中处理结果可以是处理后的文档对象,也可以是对文档对象进行分析后的分析结果。被处理的文档对象与处理结果间的映射关系可以为一对一关系,可以为一对多关系,也可以为多对一关系。加载的动态链接库除对文档对象进行处理外,还可以将处理结果按业务对应的格式进行格式转换,在后续步骤S103中输出格式转换后的处理结果。
在一实施例中,上述步骤S102可包括如下步骤A1-A2:
步骤A1,调用代理构造函数创建动态连接库的实例对象,利用实例对象运行动态链接库对文档对象进行处理,获得处理结果。
步骤A2,当动态链接库运行结束后,调用代理析构函数释放实例对象占用的内存。
举例而言,预设接口类AbsProcess,业务的动态链接库根据业务对文档对象的处理逻辑实现接口类AbsProcess中接口,称为InsProcess。
预设代理构造函数ProcessorCreator,代理构造函数ProcessorCreator返回类的实例对象指针;预设代理析构函数ProcessorDestoryer,代理析构函数ProcessorDestoryer接收类的实例对象指针,进行销毁。
步骤A1可实现为调用代理构造函数ProcessorCreator创建一个InsProcess类型的实例对象,返回创建的实例对象的指针,利用指针调用动态链接库中实现的接口对文档对象进行处理,获得处理结果。
步骤A2可实现为当动态链接库运行结束后,调用代理析构函数ProcessorDestoryer,接收AbsProcess类型的实例对象的指针,将其解释成InsProcess类型的实例对象的指针,释放指针指向的实例对象占用的内存。
在一实施例中,上述步骤S102可包括:加载业务对应的动态链接库,对文档对象进行更改,获得更改后的文档对象。
在本实施例中,对文档对象本身进行更改,处理结果为更改后的文档对象。例如,根据业务要求,可以加载业务对应的动态链接库,将文档对象中无用信息删除,或者将多个文档对象合并成一个文档对象,或者将一个文档对象拆分成多个文档对象,获得的处理结果分别为被删除了无用信息的文档对象,合并所得的一个文档对象,拆分所得的多个文档对象。
在一实施例中,上述步骤S102可包括:加载业务对应的动态链接库,对文档对象进行分析,获得分析结果。
在本实施例中,对文档对象进行分析,获得的处理结果为分析结果。
举例而言,步骤S102可实现为:加载动态链接库,对文档对象进行特征标识计算和/或优先级计算,获得文档对象对应的特征标识和/或优先级。例如,特征标识可以为文档对象的指纹,具体而言,可以对文档对象的标题进行哈希运算,将所得哈希值作为文档对象的指纹。优先级可以为根据预设参量确定的文档对象的级别,如将文档对象对应的结构化文档的生成时间作为文档对象的优先级,按生成时间从早到晚,确定文档对象的优先级从低到高。或者,优先级可以为根据预设参量对文档对象进行的打分,如预设多个参量,对应每个参量确定文档对象的得分,将得分进行加权求和,将所得和值作为文档对象的优先级。
步骤S103,输出处理结果或根据处理结果输出业务的文档对象。
在一实施例中,步骤S103中输出处理结果可包括:根据预设格式对处理结果进行格式转换,输出格式转换后的处理结果。
步骤S103中根据处理结果输出业务的文档对象可包括:根据预设格式对文档对象进行格式转换,根据处理结果输出格式转换后的文档对象。
在本实施例中,能够将对文档对象或处理结果进行格式转换的操作由统一方式完成,针对新的业务,进行结构化文档处理时,无需再对格式转换操作重新进行开发,进一步节约了编程开发的成本,提高了开发效率。
在一实施例中,当在步骤S102中获得文档对象对应的特征标识和优先级时,根据处理结果输出业务的文档对象可包括如下步骤B1-B3:
步骤B1,根据文档对象对应的特征标识,从业务的文档对象中确定出相互重复的文档对象。
例如,在步骤S102中获得文档对象的指纹,在步骤B1中,将业务的文档对象中具有相同指纹的文档对象,确定为相互重复的文档对象。
步骤B2,根据文档对象对应的优选级,从相互重复的文档对象中选择待输出的文档对象。
例如,在步骤S102中将文档对象对应的结构化文档的生成时间作为文档对象的优先级,在步骤B2中,在相互重复的文档对象中,选择对应生成时间最晚的文档对象作为待输出文档对象。
步骤B3,输出选择的待输出文档对象。
在一实施例中,当在步骤S102中获得文档对象对应的优先级时,根据处理结果输出业务的文档对象可包括:根据文档对象对应的优先级将业务的文档对象排序,按排序中顺序输出业务的文档对象。
例如,在步骤S102中将文档对象对应的得分作为文档对象的优先级,在步骤S103中,按得分从高到低的顺序输出业务的文档对象。
本发明实施例提供的技术包括以下有益效果:能够将进行解析业务的结构化文档,以及输出处理结果或根据处理结果输出业务的文档对象的操作通过统一的方式完成,通过加载动态链接库来进行根据业务处理逻辑对业务的文档对象进行处理的操作,使得在对各个业务的结构化文档进行处理时,保证了运行参数相同,便于进行任务调度;在对新的业务进行结构化文档处理时,仅需要在动态连接库中实现接口类的接口,无需对解析结构化文档,以及输出处理结果或根据处理结果输出业务的文档对象的操作,再进行开发,节约了开发成本,提高了开发效率;在后续对处理方式进行优化时,仅需在优化过程中保证所用接口不变,便可以将优化的成果应用到对各个业务的结构化文档的处理过程中。
在一实施例中,本发明中方法可包括:根据预设策略启动线程,执行步骤S101至步骤S103。
举例而言,上述方法可包括:启动多个线程组成线程池,监控方法中各个步骤的待处理数据的数量,根据各个步骤的待处理数据的数量确定待增加线程的步骤,调用线程池中空闲线程执行该步骤。
在本实施例中,能够采用多线程进行处理,提高了处理速度;此外,还能够按统一方式完成多线程调度,在动态链接库实现接口库中接口时,无需考虑多线程调度,减少了开发的任务量,提高了开发效率。
实施例一
图2是本发明实施例一提供的结构化文档处理方法的流程图,图3是本发明实施例一中使用多线程进行并行处理的示意图。如图3所示,启用多个线程,并行执行解析模块、处理模块、输出模块的多个实例,实现并行处理。如图2所示,实施例中方法包括如下步骤:
步骤S201,解析模块获取业务的结构化文档,根据配置的业务对应的文档结构格式解析结构化文档,生成业务的文档对象。
步骤S202,处理模块加载业务对应的动态链接库,对文档对象进行更改,获得更改后的文档对象。
举例而言,处理模块加载业务对应的动态链接库,对文档对象的内容进行修改、删除、或增加,获得更改后的文档对象。其中,处理模块输入的文档对象与输出的处理结果间为一对一的映射关系。
步骤S203,输出模块根据预设格式对更改后的文档对象进行格式转换,输出格式转换后的文档对象。
实施例一中方法也可以变形为,在步骤S202中加载空的动态链接库,如此使得实施例一中方法可以仅对业务的结构化文档进行格式转换。
在本实施例中,由解析模块完成解析操作,处理模块完成处理操作,输出模块完成格式转换操作,使得在对各个业务的结构化文档进行处理时,保证了运行参数相同,便于进行任务调度;处理模块加载的动态链接库仅需进行文档对象处理即可,无需涉及解析和格式转换操作,如此,在对新的业务进行结构化文档处理时,仅需要在动态连接库中实现接口类的接口,节约了开发成本,提高了开发效率;在后续对各个模块中操作进行优化时,仅需在优化过程中保证所用接口不变,便可以将优化的成果应用到对各个业务的结构化文档的处理过程中。
实施例二
图4是本发明实施例二提供的结构化文档处理方法的流程图。如图4所示,实施例中方法包括如下步骤:
步骤S401,解析模块获取业务的结构化文档,根据配置的业务对应的文档结构格式解析结构化文档,生成业务的文档对象。
步骤S402,处理模块加载业务对应的动态链接库,对文档对象进行指纹计算和优先级计算,获得文档对象对应的指纹和优先级。
举例而言,处理模块加载业务对应的动态链接库,对文档对象的标题进行哈希运算,将所得哈希值作为文档对象的指纹;将文档对象对应的结构化文档的生成时间作为文档对象的优先级。按生成时间从早到晚,确定文档对象的优先级从低到高。
步骤S403,输出模块根据文档对象对应的指纹,从业务的文档对象中确定出相互重复的文档对象。
举例而言,输出模块将具有相同指纹的文档对象确定为相互重复的文档对象。
步骤S404,输出模块根据文档对象对应的优选级,从相互重复的文档对象中选择待输出的文档对象。
举例而言,输出模块选择相互重复的文档对象中、对应的生成时间最晚的文档对象,作为待输出的文档对象。
步骤S405,输出模块输出选择的待输出文档对象。
在本实施例中,实现对业务的结构化文档的去重处理,解析模块完成解析操作,处理模块完成计算指纹和优先级的操作,输出模块完成去重操作,使得在对各个业务的结构化文档进行处理时,保证了运行参数相同,便于进行任务调度;解析模块和输出模块采用统一的处理方式,仅需改变动态连接库中对接口类的接口实现方式,便可对于不同业务采用不同方式对文档对象进行处理,获得依据不同处理方式所得的指纹和优先级,节约了开发成本,提高了开发效率;在后续对各个模块中操作进行优化时,仅需在优化过程中保证所用接口不变,便可以将优化的成果应用到对各个业务的结构化文档的处理过程中。
实施例三
图5是本发明实施例三提供的结构化文档处理方法的流程图。如图5所示,实施例中方法包括如下步骤:
步骤S501,解析模块获取业务的结构化文档,根据配置的通用文档结构格式解析结构化文档,生成业务的文档对象。
步骤S502,处理模块加载业务对应的动态链接库,对文档对象进行优先级计算,获得文档对象对应的优先级。
举例而言,处理模块加载业务对应的动态链接库,对应预设多个参量中每个参量,确定文档对象的得分,将得分进行加权求和,将所得和值作为文档对象的优先级。例如,根据文档对象对应的结构化文档的生成时间对文档对象打分,得分为Score1;根据文档对象的长度对文档对象进行打分,得分为Score2;根据文档对象的特征字段的内容对文档对象进行打分,得分为Score3;将Score1、Score2和Score3加权求和,将所得和值作为文档对象的优先级。
步骤S503,输出模块根据文档对象对应的优先级将业务的文档对象排序,按排序中顺序输出业务的文档对象。
在本实施例中,实现对业务的结构化文档的排序处理,解析模块完成解析操作,处理模块完成优先级计算操作,输出模块完成排序操作,使得在对各个业务的结构化文档进行处理时,保证了运行参数相同,便于进行任务调度;解析模块和输出模块采用统一的处理方式,仅需改变动态连接库中对接口类的接口实现方式,便可对于不同业务采用不同方式对文档对象进行处理,获得依据不同处理方式所得优先级,节约了开发成本,提高了开发效率;在后续对各个模块中操作进行优化时,仅需在优化过程中保证所用接口不变,便可以将优化的成果应用到对各个业务的结构化文档的处理过程中。
图6为本发明一实施例提供的结构化文档处理装置的结构图,如图6所示,该结构化文档处理装置包括:
解析模块61,用于获取业务的结构化文档,根据配置的文档结构格式解析结构化文档,生成业务的文档对象;
处理模块62,用于加载业务对应的动态链接库,对文档对象进行处理,获得处理结果,
其中,动态链接库用于根据业务对文档对象的处理逻辑实现预设的接口类中接口;
输出模块63,用于输出处理结果或根据处理结果输出业务的文档对象。
在一实施例中,如图7所示,处理模块62可包括:
第一调用子模块71,用于调用代理构造函数创建动态连接库的实例对象,利用实例对象运行动态链接库对文档对象进行处理,获得处理结果;
第二调用子模块72,用于当动态链接库运行结束后,调用代理析构函数释放实例对象占用的内存。
在一实施例中,上述处理模块可包括:
第一处理子模块,用于加载业务对应的动态链接库,对文档对象进行更改,获得更改后的文档对象;或者
第二处理子模块,用于加载业务对应的动态链接库,对文档对象进行分析,获得分析结果。
在一实施例中,上述输出模块可包括:
第一输出子模块,用于根据预设格式对处理结果进行格式转换,输出格式转换后的处理结果;或者,
第二输出子模块,用于根据预设格式对文档对象进行格式转换,根据处理结果输出格式转换后的文档对象。
在一实施例中,第二处理子模块,还用于加载动态链接库,对文档对象进行特征标识计算和/或优先级计算,获得文档对象对应的特征标识和/或优先级。
在一实施例中,如图8所示,上述输出模块63可包括:
确定子模块81,用于根据文档对象对应的特征标识,从业务的文档对象中确定出相互重复的文档对象;
选择子模块82,用于根据文档对象对应的优选级,从相互重复的文档对象中选择待输出的文档对象;
输出子模块83,用于输出选择的待输出文档对象。
在一实施例中,输出模块,用于根据文档对象对应的优先级将所述业务的文档对象排序,按排序中顺序输出业务的文档对象。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本发明实施例还提供了一种设备,该设备包括上述任一实施例所述的结构化文档处理装置。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在上述实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行上述无线网络切换方法,
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (13)

1.一种结构化文档处理方法,其特征在于,包括以下步骤:
通过统一程序,获取业务的结构化文档,根据配置的文档结构格式解析所述结构化文档,生成所述业务的文档对象,所述统一程序在对各个业务的结构化文档进行处理时,保持运行参数相同;
加载所述业务对应的动态链接库,通过所述动态链接库中业务对文档对象的处理逻辑,对所述文档对象进行处理,获得处理结果,其中,所述动态链接库用于根据业务对文档对象的处理逻辑实现预设的接口类中接口,不同业务对应不同的动态链接库,包括:
加载所述业务对应的动态链接库,对所述文档对象进行更改,获得更改后的文档对象;或者
加载所述业务对应的动态链接库,对所述文档对象进行分析,获得分析结果,包括:
对文档对象的标题进行哈希运算,将所得哈希值作为文档对象的指纹,
或者,将文档对象对应的结构化文档的生成时间作为文档对象的优先级,按生成时间从早到晚,确定文档对象的优先级从低到高,
或者,根据预设多个参量对文档对象进行打分,得到每个参量对应的得分,将每个参量的得分进行加权求和,将所得和值作为文档对象的优先级;
通过所述统一程序,输出所述处理结果或根据所述处理结果输出所述业务的文档对象。
2.根据权利要求1所述的方法,其特征在于,所述加载所述业务对应的动态链接库,对所述文档对象进行处理,获得处理结果,包括:
调用代理构造函数创建所述动态连接库的实例对象,利用所述实例对象运行所述动态链接库对所述文档对象进行处理,获得处理结果;
当所述动态链接库运行结束后,调用代理析构函数释放所述实例对象占用的内存。
3.根据权利要求1所述的方法,其特征在于,
所述通过统一程序,输出所述处理结果,包括:
根据预设格式对所述处理结果进行格式转换,输出格式转换后的处理结果;
或者,所述通过统一程序,根据所述处理结果输出所述业务的文档对象,包括:
根据预设格式对所述文档对象进行格式转换,根据所述处理结果输出格式转换后的文档对象。
4.根据权利要求1所述的方法,其特征在于,所述加载所述业务对应的动态链接库,对所述文档对象进行分析,获得分析结果,包括:
加载所述动态链接库,对所述文档对象进行特征标识计算和/或优先级计算,获得所述文档对象对应的特征标识和/或优先级。
5.根据权利要求4所述的方法,其特征在于,当获得所述文档对象对应的特征标识和优先级时,所述通过统一程序,根据所述处理结果输出所述业务的文档对象,包括:
根据所述文档对象对应的特征标识,从所述业务的文档对象中确定出相互重复的文档对象;
根据文档对象对应的优选级,从相互重复的文档对象中选择待输出的文档对象;
输出选择的待输出文档对象。
6.根据权利要求4所述的方法,其特征在于,当获得所述文档对象对应的优先级时,所述通过统一程序,根据所述处理结果输出所述业务的文档对象,包括:
根据所述文档对象对应的优先级将所述业务的文档对象排序,按排序中顺序输出所述业务的文档对象。
7.一种结构化文档处理装置,其特征在于,包括:
解析模块,用于通过统一程序,获取业务的结构化文档,根据配置的文档结构格式解析所述结构化文档,生成所述业务的文档对象,所述统一程序在对各个业务的结构化文档进行处理时,保持运行参数相同;
处理模块,用于加载所述业务对应的动态链接库,通过所述动态链接库中业务对文档对象的处理逻辑,对所述文档对象进行处理,获得处理结果,其中,所述动态链接库用于根据业务对文档对象的处理逻辑实现预设的接口类中接口,其中,不同业务对应不同的动态链接库,所述处理模块,包括:第一处理子模块,用于加载所述业务对应的动态链接库,对所述文档对象进行更改,获得更改后的文档对象;或者第二处理子模块,用于加载所述业务对应的动态链接库,对所述文档对象进行分析,获得分析结果;输出模块,用于通过所述统一程序,输出所述处理结果或根据所述处理结果输出所述业务的文档对象;
其中,所述第二处理子模块根据下述方式获得分析结果:对文档对象的标题进行哈希运算,将所得哈希值作为文档对象的指纹,
或者,将文档对象对应的结构化文档的生成时间作为文档对象的优先级,按生成时间从早到晚,确定文档对象的优先级从低到高,
或者,根据预设多个参量对文档对象进行打分,得到每个参量对应的得分,将每个参量的得分进行加权求和,将所得和值作为文档对象的优先级。
8.根据权利要求7所述的装置,其特征在于,所述处理模块,包括:
第一调用子模块,用于调用代理构造函数创建所述动态连接库的实例对象,利用所述实例对象运行所述动态链接库对所述文档对象进行处理,获得处理结果;
第二调用子模块,用于当所述动态链接库运行结束后,调用代理析构函数释放所述实例对象占用的内存。
9.根据权利要求7所述的装置,其特征在于,
所述输出模块,包括:
第一输出子模块,用于根据预设格式对所述处理结果进行格式转换,输出格式转换后的处理结果;或者,
第二输出子模块,用于根据预设格式对所述文档对象进行格式转换,根据所述处理结果输出格式转换后的文档对象。
10.根据权利要求7所述的装置,其特征在于,
所述第二处理子模块,还用于加载所述动态链接库,对所述文档对象进行特征标识计算和/或优先级计算,获得所述文档对象对应的特征标识和/或优先级。
11.根据权利要求10所述的装置,其特征在于,
所述输出模块,包括:
确定子模块,用于根据所述文档对象对应的特征标识,从所述业务的文档对象中确定出相互重复的文档对象;
选择子模块,用于根据文档对象对应的优选级,从相互重复的文档对象中选择待输出的文档对象;
输出子模块,用于输出选择的待输出文档对象。
12.根据权利要求10所述的装置,其特征在于,
所述输出模块,还用于根据所述文档对象对应的优先级将所述业务的文档对象排序,按排序中顺序输出所述业务的文档对象。
13.一种计算机设备,其特征在于,所述计算机设备包括如权利要求7-12任一项所述的结构化文档处理装置。
CN201410649467.9A 2014-11-14 2014-11-14 一种结构化文档处理方法、装置及设备 Active CN105653552B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410649467.9A CN105653552B (zh) 2014-11-14 2014-11-14 一种结构化文档处理方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410649467.9A CN105653552B (zh) 2014-11-14 2014-11-14 一种结构化文档处理方法、装置及设备

Publications (2)

Publication Number Publication Date
CN105653552A CN105653552A (zh) 2016-06-08
CN105653552B true CN105653552B (zh) 2020-05-29

Family

ID=56479036

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410649467.9A Active CN105653552B (zh) 2014-11-14 2014-11-14 一种结构化文档处理方法、装置及设备

Country Status (1)

Country Link
CN (1) CN105653552B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109711802A (zh) * 2018-12-14 2019-05-03 深圳壹账通智能科技有限公司 项目信息处理方法、装置、计算机设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101520869A (zh) * 2009-04-17 2009-09-02 武汉刻度科技发展有限公司 业务逻辑对象建模方法和装置
CN101739457A (zh) * 2009-12-31 2010-06-16 北京数码大方科技有限公司 创建文档对象及文件的方法和装置
CN101916293A (zh) * 2010-08-27 2010-12-15 中国电信股份有限公司 在文档中引入媒体信息的方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101520869A (zh) * 2009-04-17 2009-09-02 武汉刻度科技发展有限公司 业务逻辑对象建模方法和装置
CN101739457A (zh) * 2009-12-31 2010-06-16 北京数码大方科技有限公司 创建文档对象及文件的方法和装置
CN101916293A (zh) * 2010-08-27 2010-12-15 中国电信股份有限公司 在文档中引入媒体信息的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
利用MSXML解析XML文档;王站立;《科技信息》;20090529;第61-62页 *

Also Published As

Publication number Publication date
CN105653552A (zh) 2016-06-08

Similar Documents

Publication Publication Date Title
CN107784026B (zh) 一种etl数据处理方法及装置
WO2019019652A1 (zh) 推送信息的处理方法、装置、计算机设备和存储介质
CN111813805A (zh) 一种数据处理方法及装置
CN106980571B (zh) 一种测试用例集的构建方法和设备
CN111190753B (zh) 分布式任务处理方法、装置、存储介质和计算机设备
US11699073B2 (en) Network off-line model processing method, artificial intelligence processing device and related products
CN106557307B (zh) 业务数据的处理方法及处理系统
CN109615138B (zh) 一种作业流程调优方法及装置
CN112181522A (zh) 数据处理的方法、装置以及电子设备
CN111414619B (zh) 一种数据安全检测方法、装置、设备及可读存储介质
CN110795162B (zh) 生成容器镜像文件的方法和装置
CN105653552B (zh) 一种结构化文档处理方法、装置及设备
CN116974994A (zh) 一种基于集群的高效能文件协作系统
CN112416301A (zh) 深度学习模型开发方法及装置、计算机可读存储介质
CN110750362A (zh) 生物信息的分析方法、装置和存储介质
CN116595588A (zh) 铁路信号系统开发过程安全分析方法及装置
CN111736967B (zh) 多分支流程管控装置、流程模板生成方法及存储介质
CN110806874A (zh) 一种直播间配置文件的解析方法、存储介质、电子设备及系统
CN115220887A (zh) 调度信息的处理方法、任务处理系统、处理器和电子设备
CN114238213A (zh) 多线程文件解析方法及装置
WO2021072776A1 (zh) 数据合并方法、装置、电子设备及存储介质
CN110825453A (zh) 基于大数据平台的数据处理方法及装置
CN111652750B (zh) 一种用户群组的管理方法、装置、设备及存储介质
CN111562982B (zh) 请求数据的处理方法及装置、计算机可读存储介质、电子设备
CN110519381B (zh) 分布式任务的处理方法、装置、终端设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant