CN108563747A - 一种文档处理方法及装置 - Google Patents

一种文档处理方法及装置 Download PDF

Info

Publication number
CN108563747A
CN108563747A CN201810332982.2A CN201810332982A CN108563747A CN 108563747 A CN108563747 A CN 108563747A CN 201810332982 A CN201810332982 A CN 201810332982A CN 108563747 A CN108563747 A CN 108563747A
Authority
CN
China
Prior art keywords
document
pending
file
label
pending document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810332982.2A
Other languages
English (en)
Inventor
张敏
管峥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Shenzhen Zhi Yao Technology Co Ltd
Original Assignee
Beijing Shenzhen Zhi Yao Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Shenzhen Zhi Yao Technology Co Ltd filed Critical Beijing Shenzhen Zhi Yao Technology Co Ltd
Priority to CN201810332982.2A priority Critical patent/CN108563747A/zh
Priority to US16/113,209 priority patent/US10909187B2/en
Publication of CN108563747A publication Critical patent/CN108563747A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • G06F16/164File meta data generation
    • G06F16/166File name conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/185Hierarchical storage management [HSM] systems, e.g. file migration or policies thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Library & Information Science (AREA)
  • Human Computer Interaction (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种文档处理方法及装置,通过获取规范格式文档的模板,该模板中包括具有层级结构的文件夹,根据这些文件夹生成与各个文件夹对应的文件夹标签,获取待处理文档,根据待处理文档生成待处理文档的文档标签。判断是否存在与待处理文档的文档标签匹配的文件夹标签,若是,关联待处理文档和与其匹配的文件夹标签对应的文件夹。由于文件夹标签是根据文件夹生成的,是与文件夹相关的,文档标签是根据待处理文档生成的,是与待处理文档相关的,通过文件夹标签和文档标签的匹配,可以判断文件夹和待处理文档是否匹配,进而可以关联待处理文档和匹配的文件夹,实现待处理文档的自动关联,提高文档处理效率和准确率。

Description

一种文档处理方法及装置
技术领域
本申请涉及互联网技术领域,尤其涉及一种文档处理方法及装置。
背景技术
为了提高信息整理的规范性,通常会使用具有规范格式的文档进行信息的保存,这些文档在结构和命名上具有规范性。例如为了提高药品申报的规范性,药企通常需要在医药研发及医药监管过程中,向监管部门提交具有规范格式的文档,国际上通行的药品注册申请材料的规范格式文档为药品电子通用技术文档(Electronic Common TechnicalDocument,eCTD)。其他具有规范格式的文档,例如还有非eCTD提交文档(Non-eCTDElectronic Submission,NeES)和药品鉴定(Identification of Medicinal Products,IDMP)等。
这些具有规范格式的文档中有大量的递交文档,这些递交文档按照固定的模块和模块中的层级关系进行归类。
将具有格式的文档作为规范格式文档,现有的生成规范格式文档的方式,需要人工对递交文档进行处理,根据递交文档的内容,将递交文档归类至具有规范格式的各个模块中具有层级关系的文件夹中,形成包括递交文档的具有树形结构文件,对该树形结构文件进行处理以形成具有特定格式的规范格式文档。这种通过人工对递交文档进行处理的方式效率较低,花费时间较长,而且人工处理可能出现人为错误,使规范格式文档的生成效率和准确性都较低。
发明内容
为了解决现有技术的文档处理方法中的效率低和准确性低的问题,本申请实施例提供了一种文档处理方法及装置。
本申请实施例提供的文档处理方法,包括:
获取规范格式文档的模板,所述模板包括具有层级结构的文件夹,生成与各个所述文件夹对应的文件夹标签;
获取待处理文档,生成所述待处理文档的文档标签;
判断是否存在与所述待处理文档的文档标签匹配的文件夹标签,若是,关联所述待处理文档和所述匹配的文件夹标签对应的文件夹。
可选的,所述生成与各个所述文件夹对应的文件夹标签,包括:
获取各个所述文件夹的名称;
根据各个所述文件夹的名称,生成与各个所述文件夹对应的文件夹标签。
可选的,所述生成所述待处理文档的文档标签,包括:
获取所述待处理文档的名称;
根据所述待处理文档的名称,生成所述待处理文档的文档标签。
可选的,所述生成所述待处理文档的文档标签,包括:
对所述待处理文档进行解析,获取所述待处理文档中的文本标题、页眉、页脚、目录、首页文本内容和书签中的至少一项;
根据所述待处理文档中的文本标题、页眉、页脚、目录、首页文本内容和书签中的至少一项,生成所述待处理文档的文档标签。
可选的,所述方法还包括:
根据与所述待处理文档的文档标签匹配的文件夹标签,为和所述匹配的文件夹标签对应的文件夹关联的所述待处理文档重命名。
本申请实施例还提供了一种文档处理装置,所述装置包括:
文件夹标签获取单元,用于获取规范格式文档的模板,所述模板包括具有层级结构的文件夹,生成与各个所述文件夹对应的文件夹标签;
文档标签生成单元,用于获取待处理文档,生成所述待处理文档的文档标签;
判断单元,用于判断是否存在与所述待处理文档的文档标签匹配的文件夹标签;
待处理文档关联单元,用于若所述判断单元的判断结果为是,关联所述待处理文档和所述匹配的文件夹标签对应的文件夹。
可选的,所述文件夹标签生成单元包括:
模板获取单元,用于获取规范格式文档的模板,所述模板包括具有层级结构的文件夹;
文件夹名称获取单元,用于获取各个所述文件夹的名称;
文件夹标签生成子单元,用于根据各个所述文件夹的名称,生成与各个所述文件夹对应的文件夹标签。
可选的,所述文档标签生成单元,包括:
待处理文档获取单元,用于获取待处理文档;
待处理文档名称获取单元,用于获取所述待处理文档的名称;
第一文档标签生成子单元,用于根据所述待处理文档的名称,生成所述待处理文档的文档标签。
可选的,所述文档标签生成单元,包括:
待处理文档获取单元,用于获取待处理文档;
待处理文档解析单元,用于对所述待处理文档进行解析,获取所述待处理文档中的文本标题、页眉、页脚、目录、首页文本内容和书签中的至少一项;
第二文档标签生成子单元,用于根据所述待处理文档中的文本标题、页眉、页脚、目录、首页文本内容和书签中的至少一项,生成所述待处理文档的文档标签。
可选的,所述装置还包括:
重命名单元,用于根据与所述待处理文档的文档标签匹配的文件夹标签,为和所述匹配的文件夹标签对应的文件夹关联的所述待处理文档重命名。
本申请实施例提供的文档处理方法及装置中,通过获取规范格式文档的模板,该模板中包括具有层级结构的文件夹,根据这些文件夹生成与各个文件夹对应的文件夹标签,获取待处理文档,根据待处理文档生成待处理文档的文档标签。判断是否存在与待处理文档的文档标签匹配的文件夹标签,若是,关联待处理文档和与其匹配的文件夹标签对应的文件夹中。由于文件夹标签是根据文件夹生成的,是与文件夹相关的,文档标签是根据待处理文档生成的,是与待处理文档相关的,通过文件夹标签和文档标签的匹配,可以判断文件夹和待处理文档是否匹配,进而可以关联待处理文档和匹配的文件夹,实现待处理文档的自动关联,提高文档处理效率和准确率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本申请实施例提供的一种文档处理的方法流程图;
图2为本申请实施例中药品电子通用技术文档示意图;
图3为本申请实施例中药品电子通用技术文档模板示意图;
图4为本申请实施例提供的一种文档处理的装置结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
规范格式文档是具有规范格式的文档,通常包括多个模块,该模块可以是文件夹的形式,也可以是其他形式。每个模块中可以包括文件夹,每个文件夹还可以包括子文件夹,子文件夹中还可以有次级文件夹和递交文档的至少一种,依此类推,这些具有层级关系的文件夹构成规范格式文档的树形结构。由于这些文件夹中可以包括文件夹和递交文档的至少一种,因此规范格式文档中包括大量的递交文档。
现有技术中,需要通过人工对递交文档进行处理,按照递交文档中的内容,将递交文档归类至对应的各个模块中对应的文件夹,形成包括递交文档的树形结构文件。然而通过人工对递交文档进行处理,需要人工识别递交文档中的内容,比对递交文档的内容和文件夹的名称,并将其归类至相应的文件夹,需要很多时间和精力,而且在比对和归类过程中都可能会由于人为疏忽而出错,导致文档处理的准确性和效率都较低。
为了解决上述技术问题,本申请实施例提供了一种文档处理方法,参考图1所示为本申请实施例提供的文档处理方法的流程图,该方法包括以下步骤。
S101,获取规范格式文档的模板,该模板包括具有层级结构的文件夹,生成与各个文件夹对应的文件夹标签。
规范格式文档是具有规范格式的文档,包括具有层级结构的文件夹,文件夹中可以包括递交文档。
参考图2所示,以药品电子通用技术文档为例,药品电子通用技术文档“0000”中可以包括五个模块,例如行政信息、摘要、质量、非临床研究报告和临床研究报告,分别对应文件夹“m1”、“m2”、“m3”、“m4”和“m5”。每个模块下可以有一个或多个文件夹,例如“m3”中包括文件夹“32-body-data”,文件夹“32-body-data”中又可以包括文件夹:“32a-app”、“32p-drug-prod”、“32r-reg-info”和“32s-drug-sub”,其中的文件夹“32p-drug-prod”中可以包括文件夹“product-1”,文件夹“product-1”中又可以包括文件夹:“32p1-desc-comp”、“32p2-pharm-dev”、“32p3-manuf”、“32p4-contr-excip”、“32p5-contr-drug-prod”、“32p6-ref-stand”、“32p7-cont-closure-sys”和“32p8-stab”,其中,文件夹“32p3-manuf”中可以有3个递交文档。
具体实现时,在一些文件夹中,也可以既包括文件夹,又包括递交文档,在此不做举例说明。
规范格式文档的模板可以是不包括递交文档的,参考图3所示,为药品电子通用技术文档的模板。规范格式文档的模板能够指示规范格式文档中递交文档的层级关系,以具有层级结构的文件夹的形式存在。对于不同的递交对象,规范格式文档的模板可能包括不同的层级结构,在具体实施时,可根据实际情况选择合适的规范格式文档的模板。
在获取规范格式文档的模板之后,可以根据各个具有层级结构的文件夹,生成与各个文件夹对应的文件夹标签。具体的,可以获取各个文件夹的名称,根据各个文件夹的名称生成各个文件夹对应的文件夹标签。
由于文件夹是位于规范格式文档的模板中,通常是按照固定格式进行命名的,文件夹的名称通常可以包括文件夹的位置代码和文件夹对应的文档信息等。例如某文件夹的名称为“32-body-data”,“32”可以表示该文件夹为模块3中的文件夹,“body-data”表示文件夹对应的文档信息。
相应的,文件夹标签可以体现文件夹的信息,由于文件夹的名称能够体现文件夹的位置代码和文件夹对应的文档信息,因此文件夹标签可以根据文件夹的名称来生成。具体的,文件夹标签可以与文件夹的名称相同,也可以是文件夹的名称的其中一部分。例如第一模块的名称为“32-body-data”时,文件夹标签可以是“32”,也可以是“body-data”,也可以是“body-data”的首字母组合“bd”。根据文件夹的名称生成文件夹标签可以有其他方式,以上示例不构成对此过程的限定。
对于具有层级结构的文件夹,还可以获取部分文件夹的文件夹标签。具体的,可以获取文件夹的信息,判断是否存在该文件夹对应的递交文档,若存在,说明该文件夹中可以包括递交文档,此时可以获取该文件夹的文件夹标签,若文件夹没有对应的递交文档,说明该文件夹中只包括子文件夹,此时可以不进行该文件夹的文件夹标签的获取,不影响本申请实施例的实现。
S102,获取待处理文档,生成待处理文档的文档标签。
在本申请实施例中,可以获取递交文档,将递交文档作为待处理文档。可以对待处理文档的获取进行监控,以便对多个待处理文档进行处理。对于每个待处理文档,生成待处理文档的文档标签。
待处理文档的文档标签可以是体现待处理文档的主要内容的标签,例如文档标签“body-data”可以用于体现文档的主要内容,也可以是能够体现其在规范格式文档中的位置信息的标签,例如文档标签“32”可以表示待处理文档的位置信息为:模块3中第二个文件夹中。
作为一种可能的实施方式,生成待处理文档的文档标签可以具体为,获取待处理文档的名称,根据待处理文档的名称,生成待处理文档的文档标签。具体的,待处理文档的文档标签可以与待处理文档的名称相同,也可以与待处理文档的名称相关,例如待处理文档的名称为“2.4Non-clinicalOverview”,生成待处理文档的文档标签可以为“2.4Non-clinical Overview”,也可以为“m2.4NCO”。
这是因为在通常情况下,为了方便对待处理文档进行处理,待处理文档的文档名称是按照规则命名的,该规则通常遵照相应的规范格式文档的文件夹命名形式,因此待处理文档的名称可以体现待处理文档的主要内容和在规范格式文档中的位置信息中的至少一种。通过待处理文档的名称来生成待处理文档的文档标签,可以在不打开待处理文档的情况下获取待处理文档的文档标签,较为方便快捷,同时不打开待处理文档可以提高待处理文档的安全性。
作为另一种可能的实施方式,生成待处理文档的文档标签可以具体为,对待处理文档进行解析,获取待处理文档中的文本标题、页眉、页脚、目录和书签中的至少一项。通过待处理文档中的文本标题、页眉、页脚、目录和书签中的至少一项来生成待处理文档的文档标签。待处理文件中的文本标题可以是主标题,也可以是次级标题等,目录可以是由多个标题组成的,也可以是由其他信息组成。
待处理文档的文档标签可以与待处理文档中的文本标题、页眉、页脚、目录和书签的内容相同,也可以相近。举例来说,待处理文档的文本标题为“2.4Non-clinicalOverview”,则可以生成文档标签为“m2.4NCO”或“2.4Non-clinical Overview”,或者该待处理文档的页眉为“2.4”,则可生成文档标签为“2.4”,或者待处理文档中的书签为“Non-clinical Overview”,则可以生成文档标签“Non-clinical Overview”或“NCO”。需要说明的是,一个待处理文档可以对应多个文档标签。
这是因为在待处理文档中,文本标题、页眉、页脚、目录和书签等内容通常较为关键,可能会体现待处理文档的主要内容和在规范格式文档中的位置信息中的至少一种。通过这种实施方式获取的文档标签更加准确,更能够体现待处理文档的主要内容和在规范格式文档中的位置信息。
对待处理文档进行解析,还可以获取待处理文档中的首页内容,提取首页内容的关键信息,根据提取得到的关键信息生成待处理文档的文档标签,例如可以提取首页文本内容的关键词,根据关键词生成待处理文档的文档标签。
在对待处理文档进行解析之前,还可以判断待处理文档的类型,例如待处理文档可以是文档格式(Document,doc),也可以是便携式文档格式(Portable Document Format,pdf),以便更准确的获取待处理文档中的文本标题、页眉、页脚、目录、首页文本内容和书签中的至少一项。
上述两种生成待处理文档的文档标签的方式,可以只进行一种,例如只获取待处理文档的名称,根据待处理文档的名称生成待处理文档的文档标签;也可以两种同时进行,例如获取待处理文档的名称,同时获取待处理文档内的文本标题、页眉、页脚、目录、首页文本内容和书签中的至少一种,分别对应于名称、文本标题、页眉、页脚、目录、首页文本内容和书签生成对应的文档标签;还可以只获取待处理文档的名称及其对应的文档标签,在S103中匹配不成功之后获取待处理文档内的文本标题、页眉、页脚、目录、首页文本内容和书签中的至少一种,生成对应的文档标签。
上述S102可以在S101后执行,也可以在S101之前执行,还可和S101同时执行,不影响本申请实施例的实现。
S103,判断是否存在与待处理文档的文档标签匹配的文件夹标签,若是,执行S104。
在本申请实施例中,文件夹标签可以体现文件夹的信息,文档标签可以体现待处理文档的主要内容和在规范格式文档中的位置信息中的至少一种。若体现待处理文档的主要内容的文档标签,与体现文件夹信息的文件夹标签匹配,说明该文件夹的信息和待处理文档的内容相关,则该待处理文档和该文件夹是匹配的;若体现待处理文档在规范格式文档中的位置信息的文档标签,与体现文件夹信息的文件夹标签匹配,说明该待处理文档和该文件夹时匹配的,该文件夹的存储位置在该文件夹中。
判断文件夹标签和文档标签是否匹配的方式可以有多种。作为一种可能的实现方式,可以通过判断文件夹标签和文档标签是否完全相同或部分相同来判断二者是否匹配,若二者完全相同或部分相同,可判断该文件夹标签和文档标签匹配。例如文件夹标签为“32-body-data”,文档标签为“3.2body-data”,可以判断该文件夹标签和该文档标签匹配。作为另一种可能的实现方式,文件夹标签包括英文或字符,文档标签包括汉字,则还可以判断该英文是否与汉字的译文相同,若相同,则判断二者匹配,或判断该字符是否与汉字的译文的缩写相同,若相同,则判断二者匹配。例如文件夹标签为“32-body-data”,若文档标签为“主体数据”,可以判断该文件夹标签和该文档标签匹配。在本申请实施例中,判断文件夹标签和文档标签是否匹配还可以由其他方式,在此不再一一举例。
需要说明的是,文件夹标签可以尽可能多的体现文件夹的信息,相应的文档标签也可以尽可能多的体现文档的信息,便于二者进行匹配。若不存在与待处理文档的文档标签匹配的文件夹标签,则认为匹配失败,可通过人工对其进行处理。
在文档标签是通过待处理文档的名称生成的情况下,还可以但会执行S102,对待处理文档进行解析,获取待处理文档中的文本标题、页眉、页脚、目录、首页文本内容和书签中的至少一项,通过待处理文档中的文本标题、页眉、页脚、目录、首页文本内容和书签中的至少一项来生成待处理文档的新的文档标签,以便判断是否存在与待处理文档的新的文档标签匹配的文件夹标签,若是,执行S104。
S104,关联待处理文档和与其匹配的文件夹标签对应的文件夹。
在判断待处理文档的文档标签与文件夹的文件夹便签匹配时,说明该待处理文档和文件夹匹配,则可以关联该待处理文档和该文件夹,实现对待处理文档的处理。关联的方式可以是将该待处理文档存储至该文件夹中,也可以是将该待处理文档的存储位置存储至该文件夹中,还可以是建立该待处理文档与该文件夹的映射关系,在此不做限定。
由于待处理文档的名称可能是通过不规则的命名方式进行命名,则在关联待处理文档和匹配的文件夹后,还可以根据该匹配的文件夹的文件夹标签,对待处理文档进行重命名,同理,还可以对待处理文档中的文本标题进行重命名。
在关联待处理文档和匹配的文件夹后,还可以对包括待处理文档的树形结构文件进行格式转换,形成规范格式文档。在形成规范格式文档后,还可以对形成的规范格式文档的其他参数进行设置,在此不再详述。
本申请实施例提供的文档处理方法中,通过获取规范格式文档的模板,该模板中包括具有层级结构的文件夹,根据这些文件夹生成与各个文件夹对应的文件夹标签,获取待处理文档,根据待处理文档生成待处理文档的文档标签。判断是否存在与待处理文档的文档标签匹配的文件夹标签,若是,关联待处理文档和与其匹配的文件夹标签对应的文件夹。由于文件夹标签是根据文件夹生成的,是与文件夹相关的,文档标签是根据待处理文档生成的,是与待处理文档相关的,通过文件夹标签和文档标签的匹配,可以判断文件夹和待处理文档是否匹配,进而可以关联待处理文档和匹配的文件夹,实现待处理文档的自动关联,提高文档处理效率和准确率。
基于以上实施例提供的一种文档处理方法,本申请实施例还提供了一种文档处理装置,下面结合附图来详细说明其工作原理。
参见图4,该图为本申请实施例提供的一种文档处理装置的结构框图,该装置包括:
文件夹标签获取单元401,用于获取规范格式文档的模板,所述模板包括具有层级结构的文件夹,生成与各个所述文件夹对应的文件夹标签;
文档标签生成单元402,用于获取待处理文档,生成所述待处理文档的文档标签;
判断单元403,用于判断是否存在与所述待处理文档的文档标签匹配的文件夹标签;
待处理文档关联单元404,用于若所述判断单元的判断结果为是,关联所述待处理文档和所述匹配的文件夹标签对应的文件夹。
可选的,所述文件夹标签生成单元包括:
模板获取单元,用于获取规范格式文档的模板,所述模板包括具有层级结构的文件夹;
文件夹名称获取单元,用于获取各个所述文件夹的名称;
文件夹标签生成子单元,用于根据各个所述文件夹的名称,生成与各个所述文件夹对应的文件夹标签。
可选的,所述文档标签生成单元,包括:
待处理文档获取单元,用于获取待处理文档;
待处理文档名称获取单元,用于获取所述待处理文档的名称;
第一文档标签生成子单元,用于根据所述待处理文档的名称,生成所述待处理文档的文档标签。
可选的,所述文档标签生成单元,包括:
待处理文档获取单元,用于获取待处理文档;
待处理文档解析单元,用于对所述待处理文档进行解析,获取所述待处理文档中的文本标题、页眉、页脚、目录、首页文本内容和书签中的至少一项;
第二文档标签生成子单元,用于根据所述待处理文档中的文本标题、页眉、页脚、目录、首页文本内容和书签中的至少一项,生成所述待处理文档的文档标签。
可选的,所述装置还包括:
重命名单元,用于根据与所述待处理文档的文档标签匹配的文件夹标签,为和所述匹配的文件夹标签对应的文件夹关联的所述待处理文档重命名。
本申请实施例提供的文档处理装置中,通过获取规范格式文档的模板,该模板中包括具有层级结构的文件夹,根据这些文件夹生成与各个文件夹对应的文件夹标签,获取待处理文档,根据待处理文档生成待处理文档的文档标签。判断是否存在与待处理文档的文档标签匹配的文件夹标签,若是,关联待处理文档和与其匹配的文件夹标签对应的文件夹中。由于文件夹标签是根据文件夹生成的,是与文件夹相关的,文档标签是根据待处理文档生成的,是与待处理文档相关的,通过文件夹标签和文档标签的匹配,可以判断文件夹和待处理文档是否匹配,进而可以关联待处理文档和匹配的文件夹中,实现待处理文档的自动关联,提高文档处理效率和准确率。
当介绍本申请的各种实施例的元件时,冠词“一”、“一个”、“这个”和“所述”都意图表示有一个或多个元件。词语“包括”、“包含”和“具有”都是包括性的并意味着除了列出的元件之外,还可以有其它元件。
需要说明的是,本领域普通技术人员可以理解实现上述方法实施例中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccess Memory,RAM)等。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元及模块可以是或者也可以不是物理上分开的。另外,还可以根据实际的需要选择其中的部分或者全部单元和模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本申请的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种文档处理方法,其特征在于,所述方法包括:
获取规范格式文档的模板,所述模板包括具有层级结构的文件夹,生成与各个所述文件夹对应的文件夹标签;
获取待处理文档,生成所述待处理文档的文档标签;
判断是否存在与所述待处理文档的文档标签匹配的文件夹标签,若是,关联所述待处理文档和所述匹配的文件夹标签对应的文件夹。
2.根据权利要求1所述的方法,其特征在于,所述生成与各个所述文件夹对应的文件夹标签,包括:
获取各个所述文件夹的名称;
根据各个所述文件夹的名称,生成与各个所述文件夹对应的文件夹标签。
3.根据权利要求1所述的方法,其特征在于,所述生成所述待处理文档的文档标签,包括:
获取所述待处理文档的名称;
根据所述待处理文档的名称,生成所述待处理文档的文档标签。
4.根据权利要求1所述的方法,其特征在于,所述生成所述待处理文档的文档标签,包括:
对所述待处理文档进行解析,获取所述待处理文档中的文本标题、页眉、页脚、目录、首页文本内容和书签中的至少一项;
根据所述待处理文档中的文本标题、页眉、页脚、目录、首页文本内容和书签中的至少一项,生成所述待处理文档的文档标签。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述方法还包括:
根据与所述待处理文档的文档标签匹配的文件夹标签,为和所述匹配的文件夹标签对应的文件夹关联的所述待处理文档重命名。
6.一种文档处理装置,其特征在于,所述装置包括:
文件夹标签获取单元,用于获取规范格式文档的模板,所述模板包括具有层级结构的文件夹,生成与各个所述文件夹对应的文件夹标签;
文档标签生成单元,用于获取待处理文档,生成所述待处理文档的文档标签;
判断单元,用于判断是否存在与所述待处理文档的文档标签匹配的文件夹标签;
待处理文档关联单元,用于若所述判断单元的判断结果为是,关联所述待处理文档和所述匹配的文件夹标签对应的文件夹。
7.根据权利要求6所述的装置,其特征在于,所述文件夹标签生成单元包括:
模板获取单元,用于获取规范格式文档的模板,所述模板包括具有层级结构的文件夹;
文件夹名称获取单元,用于获取各个所述文件夹的名称;
文件夹标签生成子单元,用于根据各个所述文件夹的名称,生成与各个所述文件夹对应的文件夹标签。
8.根据权利要求6所述的装置,其特征在于,所述文档标签生成单元,包括:
待处理文档获取单元,用于获取待处理文档;
待处理文档名称获取单元,用于获取所述待处理文档的名称;
第一文档标签生成子单元,用于根据所述待处理文档的名称,生成所述待处理文档的文档标签。
9.根据权利要求6所述的装置,其特征在于,所述文档标签生成单元,包括:
待处理文档获取单元,用于获取待处理文档;
待处理文档解析单元,用于对所述待处理文档进行解析,获取所述待处理文档中的文本标题、页眉、页脚、目录、首页文本内容和书签中的至少一项;
第二文档标签生成子单元,用于根据所述待处理文档中的文本标题、页眉、页脚、目录、首页文本内容和书签中的至少一项,生成所述待处理文档的文档标签。
10.根据权利要求6至9任一项所述的装置,其特征在于,所述装置还包括:
重命名单元,用于根据与所述待处理文档的文档标签匹配的文件夹标签,为和所述匹配的文件夹标签对应的文件夹关联的所述待处理文档重命名。
CN201810332982.2A 2018-04-13 2018-04-13 一种文档处理方法及装置 Pending CN108563747A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810332982.2A CN108563747A (zh) 2018-04-13 2018-04-13 一种文档处理方法及装置
US16/113,209 US10909187B2 (en) 2018-04-13 2018-08-27 Document processing method and device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810332982.2A CN108563747A (zh) 2018-04-13 2018-04-13 一种文档处理方法及装置

Publications (1)

Publication Number Publication Date
CN108563747A true CN108563747A (zh) 2018-09-21

Family

ID=63534997

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810332982.2A Pending CN108563747A (zh) 2018-04-13 2018-04-13 一种文档处理方法及装置

Country Status (2)

Country Link
US (1) US10909187B2 (zh)
CN (1) CN108563747A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635681A (zh) * 2018-11-26 2019-04-16 汉王科技股份有限公司 一种文献处理方法及装置
CN111353005A (zh) * 2020-05-25 2020-06-30 浙江明度智控科技有限公司 一种药品研发申报文档管理方法和系统
CN111353004A (zh) * 2020-05-25 2020-06-30 浙江明度智控科技有限公司 一种药品文档的数据关联分析方法和系统
CN111382184A (zh) * 2020-05-25 2020-07-07 浙江明度智控科技有限公司 一种对药品文档进行校验的方法和药品文档校验系统
CN113377963A (zh) * 2021-06-28 2021-09-10 中国科学院地质与地球物理研究所 一种基于知识图谱的井场试验数据处理方法及装置
CN113806293A (zh) * 2021-09-13 2021-12-17 城乡院(广州)有限公司 文档处理方法、装置、终端设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102999637A (zh) * 2012-12-29 2013-03-27 珠海金山办公软件有限公司 根据文件特征码为文件自动添加文件标签的方法及系统
CN103491451A (zh) * 2013-09-26 2014-01-01 深圳Tcl新技术有限公司 一种网页数据获取方法及装置
CN104636469A (zh) * 2015-02-10 2015-05-20 广州供电局有限公司 文件自动分类管理方法和系统
CN105183829A (zh) * 2015-08-28 2015-12-23 北京金山安全软件有限公司 一种图片分类方法和装置
CN106055554A (zh) * 2016-04-25 2016-10-26 珠海格力电器股份有限公司 一种电子相册分类方法、系统及终端
CN106528877A (zh) * 2016-12-12 2017-03-22 远光软件股份有限公司 word文档的模块化方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3669016B2 (ja) * 1994-09-30 2005-07-06 株式会社日立製作所 文書情報分類装置
TWI254880B (en) * 2004-10-18 2006-05-11 Avectec Com Inc Method for classifying electronic document analysis
JP4997749B2 (ja) * 2005-12-07 2012-08-08 富士ゼロックス株式会社 文書処理方法、プログラム及びシステム
US8943071B2 (en) * 2011-08-23 2015-01-27 At&T Intellectual Property I, L.P. Automatic sort and propagation associated with electronic documents

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102999637A (zh) * 2012-12-29 2013-03-27 珠海金山办公软件有限公司 根据文件特征码为文件自动添加文件标签的方法及系统
CN103491451A (zh) * 2013-09-26 2014-01-01 深圳Tcl新技术有限公司 一种网页数据获取方法及装置
CN104636469A (zh) * 2015-02-10 2015-05-20 广州供电局有限公司 文件自动分类管理方法和系统
CN105183829A (zh) * 2015-08-28 2015-12-23 北京金山安全软件有限公司 一种图片分类方法和装置
CN106055554A (zh) * 2016-04-25 2016-10-26 珠海格力电器股份有限公司 一种电子相册分类方法、系统及终端
CN106528877A (zh) * 2016-12-12 2017-03-22 远光软件股份有限公司 word文档的模块化方法及系统

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635681A (zh) * 2018-11-26 2019-04-16 汉王科技股份有限公司 一种文献处理方法及装置
CN109635681B (zh) * 2018-11-26 2021-11-26 汉王科技股份有限公司 一种文献处理方法及装置
CN111353005A (zh) * 2020-05-25 2020-06-30 浙江明度智控科技有限公司 一种药品研发申报文档管理方法和系统
CN111353004A (zh) * 2020-05-25 2020-06-30 浙江明度智控科技有限公司 一种药品文档的数据关联分析方法和系统
CN111382184A (zh) * 2020-05-25 2020-07-07 浙江明度智控科技有限公司 一种对药品文档进行校验的方法和药品文档校验系统
CN113377963A (zh) * 2021-06-28 2021-09-10 中国科学院地质与地球物理研究所 一种基于知识图谱的井场试验数据处理方法及装置
CN113377963B (zh) * 2021-06-28 2023-08-11 中国科学院地质与地球物理研究所 一种基于知识图谱的井场试验数据处理方法及装置
US11829889B2 (en) 2021-06-28 2023-11-28 Institute Of Geology And Geophysics, Chinese Academy Of Sciences Processing method and device for data of well site test based on knowledge graph
CN113806293A (zh) * 2021-09-13 2021-12-17 城乡院(广州)有限公司 文档处理方法、装置、终端设备及存储介质

Also Published As

Publication number Publication date
US10909187B2 (en) 2021-02-02
US20190318006A1 (en) 2019-10-17

Similar Documents

Publication Publication Date Title
CN108563747A (zh) 一种文档处理方法及装置
Berman Principles of big data: preparing, sharing, and analyzing complex information
CN109033374B (zh) 基于贝叶斯分类器的知识图谱检索方法
US8027948B2 (en) Method and system for generating an ontology
US8924395B2 (en) System and method for indexing electronic discovery data
TW556085B (en) File classification management system and method used in operating system
US10503830B2 (en) Natural language processing with adaptable rules based on user inputs
Levin et al. Extraction and mapping of drug names from free text to a standardized nomenclature
US20080114782A1 (en) Integrating Analog Markups with Electronic Documents
WO2005074410A2 (en) System and method for indexing electronic text
Aalberg et al. The value of MARC data, or, challenges of frbrisation
Grego et al. LASIGE: using conditional random fields and ChEBI ontology
Manguinhas et al. FRBRization of MARC records in multiple catalogs
CN108733638B (zh) Word稿件的结构化方法及word稿件的结构化装置
Singh et al. Improving active learning in systematic reviews
Meuschke et al. A benchmark of pdf information extraction tools using a multi-task and multi-domain evaluation framework for academic documents
WO2011074942A1 (en) System and method of converting data from a multiple table structure into an edoc format
CN109254949A (zh) 一种文档处理的方法及装置
Craven HTML tags as extraction cues for web page description construction
Aalberg et al. Coding FRBR-structured bibliographic information in MARC
JP2005235209A (ja) 配列索引方法及びそのシステム
US20090327210A1 (en) Advanced book page classification engine and index page extraction
Waugh et al. Introducing name authority into an ETD collection
CN112101026B (zh) 语料样本集合的构建方法、计算设备及计算机存储介质
Kim et al. The language of a virus

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180921