CN111353280A - 一种对pdf药品文档进行超链接编辑的方法和系统 - Google Patents

一种对pdf药品文档进行超链接编辑的方法和系统 Download PDF

Info

Publication number
CN111353280A
CN111353280A CN202010445799.0A CN202010445799A CN111353280A CN 111353280 A CN111353280 A CN 111353280A CN 202010445799 A CN202010445799 A CN 202010445799A CN 111353280 A CN111353280 A CN 111353280A
Authority
CN
China
Prior art keywords
hyperlink
pdf
editing
document
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010445799.0A
Other languages
English (en)
Other versions
CN111353280B (zh
Inventor
唐裕辉
郝华
魏巍
包卿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mingdu Zhiyun Zhejiang Technology Co Ltd
Original Assignee
Zhejiang Mingdu Intelligent Control Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Mingdu Intelligent Control Technology Co ltd filed Critical Zhejiang Mingdu Intelligent Control Technology Co ltd
Priority to CN202010445799.0A priority Critical patent/CN111353280B/zh
Publication of CN111353280A publication Critical patent/CN111353280A/zh
Application granted granted Critical
Publication of CN111353280B publication Critical patent/CN111353280B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/40ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Toxicology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Chemical & Material Sciences (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种对PDF药品文档进行超链接编辑的方法,包括:对导入的PDF药品文档内容进行识别;根据待处理超链接项目的特征编辑相应的匹配规则;根据所述匹配规则形成链接项目集合,所述链接项目集合包括各项目的源文件属性、目标文件属性、以及源文件与目标文件对应关系;遍历各经过预处理的PDF药品文档的链接项目集合,验证并删除无效目标文件属性后创建剩余的各超文本链接。实现了多个文档自动编辑超链接,能适应各类文档的超链接编辑要求,极大的提高了药品申报的速度。

Description

一种对PDF药品文档进行超链接编辑的方法和系统
技术领域
本发明涉及信息技术领域,尤其涉及一种对PDF药品文档进行超链接编辑的方法和系统。
背景技术
药品电子技术通用技术文档(Electronic Common Technical Document),简称eCTD,是药品的质量、安全和有效性方面的通用文件,是制药企业向药物监管机构进行信息传输的一种形式,其内容需满足通用技术文件CTD的要求。目前eCTD电子递交流程大体上可以分为三个阶段,即撰写、文档编辑与提交。申请者首先要将各类资料、数据、实验数据等进行撰写,之后由根据相关法规要求构建eCTD申报文档,再由申报负责人通过事先建立好的电子传输通道,将申报文件提交至药监部门。在整个过程中,便捷、高效、规范、环保是其主要特点,因此eCTD因其在药品注册申报环节中的诸多优势而受到美国、日本等国家药审部门的青睐,eCTD正成为全球药品注册申报的重要趋势。
其中PDF 是 eCTD 申报资料的主要文件格式,PDF文件中支持超文本链接是对评审人员非常有帮助的。然而制作这些超文本链接却不是一件容易的事。在制作超链接时,面对成百上千的pdf文件,制作人员往往需要手工搜寻相应的文件,极其劳神费力。并且不在同一页中的注释、相关章节、参考文献、附录、表格或数字,都可能会进行超链接编辑,大大增加了文件制作人员的工作量。
发明内容
本发明针对现有技术中的不足,提供了一种对PDF药品文档进行超链接编辑的方法,具体包括:
S1,对导入的至少一PDF药品文档内容进行识别;
S2,根据待处理超链接项目的特征编辑相应的匹配规则;
S3,根据所述匹配规则形成链接项目集合,所述链接项目集合包括各项目的源文件属性、目标文件属性、以及源文件与目标文件对应关系,所述源文件当前正在编辑超链接的PDF药品文档,所述目标文件即超链接将要指向的文件;
S4,遍历各经过预处理的PDF药品文档的链接项目集合,验证并删除无效目标文件属性后创建剩余的各超文本链接。
优选的,所述待处理超链接项目包括但不限于注释、相关章节、参考文献、附录、表格和/或数字中的一个或多个。
优选的,所述步骤S2具体包括:
S21,在系统中编辑语法规则,根据句法结构归纳数据库将关键词和句型规则存储至模板中;
S22,对PDF药品文档识别的文本以句子为单位进行拆分;
S23,根据所述语法规则生成相应正则表达式,关键词和句型规则将形成a*b种不同规则;
S24,将规则进行匹配以获取剩余内容,对所述剩余内容进行文本纠错并去除停用词。
优选的,所述源文件属性包括但不限于源文件所在物理磁盘路径、文档内页码和位置,所述目标文件属性包括但不限于目标文件名称、所属页面、章节、图表和附录。
优选的,所述步骤S4具体包括:
S41,遍历各预处理的PDF药品文档链接项目集合,判断各目标文件指向位置是否已有超文本链接;
S42,当存在超文本链接时,判断目标文件属性是否存在变化,如有变化则删除原链接并创建新超链接,否则保持原超链接;
S43,当不存在超文本链接则创建新超链接。
优选的,所述步骤S42还包括:当存在超文本链接时,判断目标文件属性是否存在变化;当目标文件属性存在变化时删除原超链接,并判断目标文件属性是否存在对应页面或章节,如存在则创建新超链接,否则放弃创建;当目标文件属性无变化时,判断目标文件属性是否存在对应页面或章节,如存在则保持原超链接,否则删除原超链接。
优选的,对PDF药品文档进行超链接编辑的方法,还包括:识别归档所参照的标准规范文件,确定所述标准规范文件各目录关键词,并打包形成归档规则库;根据归档规则库依次对完成超链接添加的各目标文件进行关键词和/或特定关系匹配,对匹配到相应归档规则库的目标文件进行编排处理后归档至相应目录中。
本发明还公开了一种对PDF药品文档进行超链接编辑的系统,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述对PDF药品文档进行超链接编辑的方法的步骤。
本发明还公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述对PDF药品文档进行超链接编辑的方法的步骤。
本发明公开的对PDF药品文档进行超链接编辑的方法,通过对导入的多个PDF药品文档内容进行识别,对待处理超链接项目的特征编辑相应的匹配规则,然后根据所述匹配规则形成链接项目集合,最终遍历各经过预处理的PDF药品文档的链接项目集合,验证并删除无效目标文件属性后创建剩余的各超文本链接。通过上述这种批量文件导入,PDF文字自动识别然后自动匹配规则并获取制作超链接相关属性来实现自动搜寻文件来进行新增或删除相关超链接,达到多个文档自动编辑超链接,并将各超链接自动编排到相应文件的注释、相关章节、参考文献、附录或表格等各个位置,能适应各类文档的超链接编辑要求,极大的提高了药品申报的速度。解决了目前的eCTD申报文档系统只能依靠人工编辑PDF超链接,面对成百上千的pdf文件,无法快速找到相应的目标文件,查询效率低下、超链接添加繁琐且容易出错等问题。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为实施例公开的对PDF药品文档进行超链接编辑方法的流程示意图。
图2为实施例公开的步骤S2的具体流程示意图。
图3为实施例公开的步骤S4的具体流程示意图。
图4为实施例公开的药品文档的链接项目集合的示意图。
图5为实施例公开的另一药品文档的链接项目集合的示意图。
图6为实施例公开的步骤S5的具体流程示意图。
图7为实施例公开的步骤S51的具体流程示意图。
图8为实施例公开的文件归档目录的示意图。
图9为实施例公开的步骤S54的具体流程示意图。
图10为实施例公开的对PDF药品文档进行超链接编辑的系统的原理示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明中,除非另有明确的规定和限定,此处使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明专利申请说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。同样,“一个”或者“一”等类似词语也不表示数量限制,而是表示存在至少一个。
eCTD全称电子通用技术文档,是电子化的一种药品申报格式,文档结构树一般是固定的,按照ICH的标准生成。相比之前需要将药品研究资料打印成纸质,eCTD方式的药品申报更先进、快捷。PDF 是 eCTD 申报资料的主要文件格式,在PDF文件中支持超文本链接是对评审人员非常有帮助的。然而制作这些超文本链接对于注册人员却不是一件容易的事。在制作超链接时,面对成百上千的pdf文件,注册人员往往需要手工搜寻相应的文件,极其劳神费力。并且不在同一页中的注释、相关章节、参考文献、附录、表格或数字,都可能会进行超链接编辑,更增加了注册人员的工作量。为克服上述的不足之处,本实施例提供了一种自动编辑PDF药品文档超文本链接的方法。本实施例采用批量文件导入,PDF文字自动识别,自动匹配规则并获取制作超链接相关属性,实现自动搜寻文件来进行新增或删除相关超链接。如附图1所示,该方法具体包括:
步骤S1,对导入的至少一PDF药品文档内容进行识别。
具体的,可通过系统上传并导入多个需要进行超链接编辑的药品文档。通过PDFBox或者OCR等技术来识别这些药品文档的内容。此步骤主要是将PDF转化为可编辑或复制的文字。若有些PDF不可选中,可通过OCR光学识别进行文字提取。
步骤S2,根据待处理超链接项目的特征编辑相应的匹配规则。
具体的,可根据需求对各药品文档中进行超链接添加的具体项目进行选择,从而进行灵活的超链接编辑。其中待处理超链接项目包括但不限于注释、相关章节、参考文献、附录、表格或数字中的一个或多个。每个项目的句法结构不相同,例如:
章节一般由「数字或中文+标题」组成,如“1. 概述”,“2.1 申请人及监管机构的责任”等。
附录一般由「附件X+文件名」组成,如“附件一:光盘封面模板”。
表格一般由「表+数字+表格名称」如“表1 实验记录表”。
参考文献一般由「《文件名》」或者有指定文字如“参考如下文献”等表明。
根据各项目的句法结构生成具体的匹配规则。另外也可对需进行超链接编辑和添加的药品文档区域进行选择和限制,具体的可对需进行超链接编辑的相应段落或相应页码区间的页面进行超链接编辑。具体的,如附图2所示,步骤S2具体可包括如下内容。
步骤S21,在系统中编辑语法规则,根据句法结构归纳数据库将关键词和句型规则存储至模板中。
在系统中编辑语法规则,所示语法规则包括关键词和句型规则。根据中文句法结构的总结,即被存储在句法结构归纳数据库中的中文句法结构总结,将关键词和句型规则罗列到模板中。其中量词为数字或中文数字,分隔符通常为“:-,.空格”等。除了特定前后缀,还有某些关键词,也可以作为规则,如“参考”,“参见”,“见xx章”等,编辑的语法规则具体如下所示:
{
“特征项”:“章节”,
“关键词”:[“章节”,“章”],
“句型规则”:[
“<关键词><量词><分隔符,(0)><剩余内容>”,
“<量词><分隔符,(0)><剩余内容><关键词>”
“<量词><分隔符,(0)><剩余内容>”
]
},{
“特征项”:“附录”,
“关键词”:[“附录”,“附件”,“附表”,“附图”],
“句型规则”:[
“<关键词><量词><分隔符,(0)><书名,(0)><剩余内容><书名,(0)>”,
] }。
步骤S22,对PDF药品文档识别的文本以句子为单位进行拆分。
步骤S23,根据所述语法规则生成相应正则表达式,关键词和句型规则将形成a*b种不同规则。
例如“^章节[1-9]\d*\.\d*|0\.\d*[1-9]\d*[\u4e00-\u9fa5]*$”,“^章[1-9]\d*\.\d*|0\.\d*[1-9]\d*[\u4e00-\u9fa5]*$”
步骤S24,将语法规则进行匹配以获取剩余内容,对所述剩余内容进行文本纠错并去除停用词。
步骤S3,根据所述匹配规则形成链接项目集合,所述链接项目集合包括各项目的源文件属性、目标文件属性、以及源文件与目标文件对应关系,所述源文件当前正在编辑超链接的PDF药品文档,所述目标文件即超链接将要指向的文件。所述源文件属性包括但不限于源文件所在物理磁盘路径、文档内页码和位置,所述目标文件属性包括但不限于目标文件名称、所属页面、章节、图表和附录。
所示链接项目集合为文档与超链接项目的集合,集合中包括每个项目的源文件属性及目标文件属性,源文件即当前正在编辑超链接的文件,目标文件即超链接将要指向的文件,目标文件也可以是自身。其中源文件属性包括但不限于所在物理磁盘路径、文档内页码和位置等,所述目标文件属性包括但不限于文件名称、所属页面、章节、图表和附录等。
本实施例例举了一个具体的源文件属性示例,如下:
[ID]: 6ee99848-eeea-4789-a808-73c7a14aa7ea
[FILENAME]: eCTD技术分析
[TITLE]:
[SECTION]:
[Page]: 3
[BoundTopX]: 59.900123965487914
[BoundTopY]: 544.9078444202657
[BoundBotX]: 157.20030923870056
[BoundBotY]: 523.8572042733047。
例举了一个具体的目标文件属性示例,如下:
[TargetID]: 858d6a55-96fe-484b-8cfd-d5e40329ad6f
[SelectedSubmission_ID]: d725b971-d3d3-4241-9d74-15088d05533b
[FILENAME]:
[TITLE]: eCTD验证标准
[SECTION]: 6-PDF分析
[TargetPage]: 27。
步骤S4,遍历各经过预处理的PDF药品文档的链接项目集合,验证并删除无效目标文件属性后创建剩余的各超文本链接。具体的,如附图3所示,该步骤具体可包括:
步骤S41,遍历各预处理的PDF药品文档链接项目集合,判断各目标文件指向位置是否已有超文本链接。
例如经过前述步骤S3或先前已经自动创建过的超链接等,数据库将会有一些数据记录。由于eCTD规范要求不允许同一位置有多个超链接,故需要判断是否重复,如附图4所示,同一个文档1中的相同区域,已经有“链接1”,则“新链接1”为可能重复的链接,则进入步骤S42。若数据库中无相同位置的链接,则进入步骤S43。
步骤S42,当存在超文本链接时,判断目标文件属性是否存在变化,如有变化则删除原链接并创建新超链接,否则保持原超链接。如附图5所示,表格中的文档1的“新链接1”与“链接1”是相同位置,且目标文件target的相关属性发生了变化,则系统判断其为更新操作,即可删除“链接1”。如果无变化,则不进行修改。
在一些具体实施例中,该步骤S42,还包括:当存在超文本链接时,判断目标文件属性是否存在变化;当目标文件属性存在变化时删除原超链接,并判断目标文件属性是否存在对应页面或章节,如存在则创建新超链接,否则放弃创建;当目标文件属性无变化时,判断目标文件属性是否存在对应页面或章节,如存在则保持原超链接,否则删除原超链接。
S43,当不存在超文本链接则创建新超链接。
在本实施例中,该步骤S4还包括判断目标文件属性是否有效信息,如该目标文件属性为有效信息则进行添加,否则放弃添加该超链接。验证内容可包括验证该目标文件属性有无文档,有无相应页面,相应区域属性等
该实施例公开的自动编辑PDF药品文档超文本链接的方法,通过对导入的多个PDF药品文档内容进行识别,对待处理超链接项目的特征编辑相应的匹配规则,然后根据所述匹配规则形成链接项目集合,最终遍历各经过预处理的PDF药品文档的链接项目集合,验证并删除无效目标文件属性后创建剩余的各超文本链接。通过上述这种批量文件导入,PDF文字自动识别然后自动匹配规则并获取制作超链接相关属性来实现自动搜寻文件来进行新增或删除相关超链接,达到多个文档自动编辑超链接,并将各超链接自动编排到相应文件的注释、相关章节、参考文献、附录或表格等各个位置,能适应各类文档的超链接编辑要求,极大的提高了药品申报的速度。解决了目前的eCTD申报文档系统只能依靠人工编辑PDF超链接,面对成百上千的pdf文件,无法快速找不到相应的目标文件,查询效率低下、超链接添加繁琐且容易出错等问题。
在另一些具体实施例中,该PDF药品文档进行超链接编辑的方法,还可包括如下步骤:
步骤S5,识别归档所参照的标准规范文件,确定所述标准规范文件各目录关键词,并打包形成归档规则库;根据归档规则库依次对完成超链接添加的各目标文件进行关键词和/或特定关系匹配,对匹配到相应归档规则库的目标文件进行编排处理后归档至相应目录中。通过采用预定义规则库,可实现智能识别已完成超链接编辑的药品文档,对其进行按照标准规范文件形式自动匹配规则并编排文档后编排到相应目录中。如附图6所示,其具体可包括:
步骤S51,识别归档所参照的标准规范文件,确定所述标准规范文件各目录关键字,并打包形成规则库。在该实施例中,标准规范文件为人用药品注册技术要求国际协调标准ICH,当然也可以用于其他标准规范文件。其中,规则库是按照(目录编号,目录名称,(关键字1、关键字2、---关键字n))的结构存储。该智能归档方法的最终目的就是将未知的文件智能归档到相应目录中。如附图7所示,该步骤具体可包括如下内容。
步骤S511,导入并识别ICH的标准规范文件,生成文件归档目录树。其中将ICH的标准规范文件导入,包括将eCTD目录树生成,另外针对某些有模版文件的目录,比如对附图8中的目录2.6.3导入模版文件。导入后,系统将会把Word或者PDF文件的内容识别成计算机可读的文本。
具体的,如果标准规范文件中的目录存在模版文件,则对模版文件进行智能分词,通过医药字典库提取具有较高关联性的关键字,形成用于规则库的匹配规则,所述匹配规则包括但不限于相互对应的目录编号、目录名称和关键字。
如果导入的ICH标准规范文件为Word文件,则可使用java的第三方库如jacob进行文字内容获取;如果导入的ICH标准规范文件为PDF文件,则可使用java的第三方库如PDFbox来将PDF格式的规范文件转换成文字。而对于有模版文件的目录,则自动对模版文件进行智能分词,再用医药的字典库将相关性高的关键词提取出来,形成匹配规则,最终将得到以(目录编号,目录名称,(关键字1、关键字2、---关键字n))为结构存储形式的规则库内容。
步骤S512,对各目录标题进行划词并获取关键字,将关键字绑定至文件归档目录树。具体的,通过划词并获取关键字,绑定到eCTD目录树,对于没有模版的目录,或者自动生成的关键字不满意的,也可通过手工添加关键字方式进行关键字补录。
步骤S513,将所述文件归档目录树和其绑定的各关键字打包形成一规则库。在本实施例中,具体规则文件格式内容可以包容如下内容:
目录编号1,目录名称1,(关键字1、关键字2、---关键字n);
目录编号1.2,目录名称1.2,(关键字1、关键字2、---关键字n);
目录编号1.3,目录名称1.3,(关键字1、关键字2、---关键字n)。
步骤S52,选择归档所需至少一个规则库,并对所选规则库设置规则库优先级。其中,规则库包括但不限于第一优先规则、第二优先规则和/或第三优先规则,其中所述第一优先规则被配置为优先将目录树的编号和/或标题制作成规则文件;所述第二优先规则被配置为优先通过提取模版文件内容或手工设置关键字制作成规则文件;所述第三优先规则被配置为根据文件后缀优先将实验室数据和/或材料放置在预先规定目录中。
具体的,规则库可以有多个规则文件组成,其中规则文件被统一上传到规则库中。例如规则库包含如下规则文件:
标题优先规则.reg ,可以通过系统自动将目录树的“编号”或者目录树的“标题”制作成规则文件,该规则文件可适用于某些文件名称和所属目录相同的文件。
关键字优先规则.reg ,可以通过自动提取模版文件内容,或者手工设置关键字,制作成规则文件。其中用户可会根据各自认为命名习惯,分成多个关键字规则。
特定格式规则.reg ,可以基于实验室数据和材料,该类文档需要归档放置在特定目录中。具体的,该类文档拥有自己的特定后缀,可通过文档后缀进行识别分类和归档。
其中步骤S52还可以包括:设置各规则库的优先级,其中优先级被配置为各药品文档根据所述规则库优先级进行依次匹配,对已完成匹配的药品文档不再匹配低优先级规则库。即规则库根据优先级排序,优先级高的先进行匹配。高优先级的库一旦匹配,就不用再匹配低优先级的库。
步骤S53,获取需编排的药品文档列表,识别文档标题和文件内容,并进行文档关键字提取。对于获取需编排的药品文档列表,可以识别文档标题和文件内容,通过TF-IDF算法获取当前文档的特性关键字。
步骤S54,根据规则库优先级依次对各药品文档进行关键字和/或特定关系匹配,对匹配到相应规则库的药品文档进行编排处理后归档至相应目录中。如附图9所示,所述步骤S54具体包括:
步骤S541,根据所选规则库及其优先级,依次对各药品文档进行规则匹配。
例如在一具体实施例中,将标题优先规则设置为最高优先级,将特定格式规则设置为中等优先级,将关键字规则设置为低等优先级。则在对各药品文档进行规则匹配时,会先优先匹配当前文件的标题,是否和标题优先规则规则匹配,只要找到匹配的规则,就终止寻找,否则进入下一优先级的规则。下一级规则,轮到比较后缀和特定格式的规则。然后是根据目录模块的关键字去匹配关键字规则。
步骤S542,将已完成与归档目录树中目录对应的药品文档进行文件移动,并在数据库记录中对该文件移动状态进行标示。经过前序步骤,已经将文档和eCTD目录树的关系找到,即(文档A,目录A)或者(文档A,无)。系统将自动把找到对应关系的文档A,进行文件系统层面的移动,并且在数据库的记录中标注此文件已经移动到xx目录。如果没有找到对应关系,则不进行移动和数据库标注。当一个药品文档经过一个或多个匹配规则匹配,可归档至目录树中的多个子目录中,则调用程序对药品文档进行多份复制后将复制的多份文档分别移动至相应目录下。例如对于实验室数据和材料文档等,通过将文档与规则库的匹配和自动复制归档,能自动发现需要重复使用的文档,提高医药文档整理和归档的效率。
本实施例通过对识别归档所参照的标准规范文件来确定所述标准规范文件各目录关键字并打包形成规则库,然后根据所选规则库依次对已完成超链接编辑的各药品文档进行关键字或特定关系匹配,对匹配到相应规则库的药品文档进行编排处理后归档至相应目录中。利用这种采用预定义规则库智能识别文档,自动匹配规则并编排文档的方法,从而达到各类型文档自动编排到相应目录的效果,达到灵活选取相应的规则库进入一键将文件归档的效果,极大的提高了药品申报的速度,同时还允许用户提供自己的匹配方案进而提高匹配灵活程度。最终实现对批量导入药品文档自动实现超链接编辑和归档整理,快速高效的生成符合ICH标准等各类申报标准的eCTD文件,大大提高药品申报人员的工作效率,降低其材料整理工作强度。
如附图10所示,本发明还提供了一种对PDF药品文档进行超链接编辑的系统1,包括存储器11、处理器12以及存储在所述存储器11中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述各实施例中描述的对PDF药品文档进行超链接编辑的方法的各个步骤。
所述对PDF药品文档进行超链接编辑的系统可包括但不仅限于处理器、存储器。本领域技术人员可以理解,所述示意图仅仅是对PDF药品文档进行超链接编辑的系统的示例,并不构成对对PDF药品文档进行超链接编辑的系统设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述对PDF药品文档进行超链接编辑的系统设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述对PDF药品文档进行超链接编辑的系统设备的控制中心,利用各种接口和线路连接整个对PDF药品文档进行超链接编辑的系统设备的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述对PDF药品文档进行超链接编辑的系统设备的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
所述对PDF药品文档进行超链接编辑的系统数据管理方法如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个实现负载均衡的任务调度管理方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
总之,以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所作的均等变化与修饰,皆应属本发明专利的涵盖范围。

Claims (9)

1.一种对PDF药品文档进行超链接编辑的方法,其特征在于,包括:
S1,对导入的至少一PDF药品文档内容进行识别;
S2,根据待处理超链接项目的特征编辑相应的匹配规则;
S3,根据所述匹配规则形成链接项目集合,所述链接项目集合包括各项目的源文件属性、目标文件属性、以及源文件与目标文件对应关系,所述源文件当前正在编辑超链接的PDF药品文档,所述目标文件即超链接将要指向的文件;
S4,遍历各经过预处理的PDF药品文档的链接项目集合,验证并删除无效目标文件属性后创建剩余的各超文本链接。
2.根据权利要求1所述的对PDF药品文档进行超链接编辑的方法,其特征在于:所述待处理超链接项目包括但不限于注释、相关章节、参考文献、附录、表格和/或数字中的一个或多个。
3.根据权利要求2所述的对PDF药品文档进行超链接编辑的方法,其特征在于,所述步骤S2具体包括:
S21,在系统中编辑语法规则,根据句法结构归纳数据库将关键词和句型规则存储至模板中;
S22,对PDF药品文档识别的文本以句子为单位进行拆分;
S23,根据所述语法规则生成相应正则表达式,关键词和句型规则将形成a*b种不同规则;
S24,将规则进行匹配以获取剩余内容,对所述剩余内容进行文本纠错并去除停用词。
4.根据权利要求3所述的对PDF药品文档进行超链接编辑的方法,其特征在于:所述源文件属性包括但不限于源文件所在物理磁盘路径、文档内页码和位置,所述目标文件属性包括但不限于目标文件名称、所属页面、章节、图表和附录。
5.根据权利要求4所述的对PDF药品文档进行超链接编辑的方法,其特征在于,所述步骤S4具体包括:
S41,遍历各预处理的PDF药品文档链接项目集合,判断各目标文件指向位置是否已有超文本链接;
S42,当存在超文本链接时,判断目标文件属性是否存在变化,如有变化则删除原链接并创建新超链接,否则保持原超链接;
S43,当不存在超文本链接则创建新超链接。
6.根据权利要求5所述的对PDF药品文档进行超链接编辑的方法,其特征在于,所述步骤S42,还包括:
当存在超文本链接时,判断目标文件属性是否存在变化;
当目标文件属性存在变化时删除原超链接,并判断目标文件属性是否存在对应页面或章节,如存在则创建新超链接,否则放弃创建;
当目标文件属性无变化时,判断目标文件属性是否存在对应页面或章节,如存在则保持原超链接,否则删除原超链接。
7.根据权利要求6所述的对PDF药品文档进行超链接编辑的方法,其特征在于,还包括:
识别归档所参照的标准规范文件,确定所述标准规范文件各目录关键词,并打包形成归档规则库;
根据归档规则库依次对完成超链接添加的各目标文件进行关键词和/或特定关系匹配,对匹配到相应归档规则库的目标文件进行编排处理后归档至相应目录中。
8.一种对PDF药品文档进行超链接编辑的系统,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于:所述处理器执行所述计算机程序时实现如权利要求1-7任一所述方法的步骤。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1-7任一所述方法的步骤。
CN202010445799.0A 2020-05-25 2020-05-25 一种对pdf药品文档进行超链接编辑的方法和系统 Active CN111353280B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010445799.0A CN111353280B (zh) 2020-05-25 2020-05-25 一种对pdf药品文档进行超链接编辑的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010445799.0A CN111353280B (zh) 2020-05-25 2020-05-25 一种对pdf药品文档进行超链接编辑的方法和系统

Publications (2)

Publication Number Publication Date
CN111353280A true CN111353280A (zh) 2020-06-30
CN111353280B CN111353280B (zh) 2020-11-13

Family

ID=71195136

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010445799.0A Active CN111353280B (zh) 2020-05-25 2020-05-25 一种对pdf药品文档进行超链接编辑的方法和系统

Country Status (1)

Country Link
CN (1) CN111353280B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112328852A (zh) * 2020-11-05 2021-02-05 武汉联影医疗科技有限公司 文档管理方法、装置、计算机设备和存储介质
CN113689198A (zh) * 2021-08-31 2021-11-23 远光软件股份有限公司 项目文件生成方法、装置、存储介质及终端设备
CN115544983A (zh) * 2022-11-29 2022-12-30 明度智云(浙江)科技有限公司 基于矩阵类设备的数据处理方法、装置、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105893485A (zh) * 2016-03-29 2016-08-24 浙江大学 一种基于图书目录的专题自动生成方法
CN106649597A (zh) * 2016-11-22 2017-05-10 浙江大学 一种基于图书内容的图书书后索引自动构建方法
CN106776537A (zh) * 2016-11-18 2017-05-31 畅捷通信息技术股份有限公司 文本中的时间信息及主题信息的抽取方法和系统
CN108572942A (zh) * 2018-04-20 2018-09-25 北京深度智耀科技有限公司 一种创建超链接的方法和装置
CN109241003A (zh) * 2018-09-20 2019-01-18 广东电网有限责任公司 文件管理方法和装置
CN110674244A (zh) * 2019-08-20 2020-01-10 南京医渡云医学技术有限公司 一种医疗文本的结构化处理方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105893485A (zh) * 2016-03-29 2016-08-24 浙江大学 一种基于图书目录的专题自动生成方法
CN106776537A (zh) * 2016-11-18 2017-05-31 畅捷通信息技术股份有限公司 文本中的时间信息及主题信息的抽取方法和系统
CN106649597A (zh) * 2016-11-22 2017-05-10 浙江大学 一种基于图书内容的图书书后索引自动构建方法
CN108572942A (zh) * 2018-04-20 2018-09-25 北京深度智耀科技有限公司 一种创建超链接的方法和装置
CN109241003A (zh) * 2018-09-20 2019-01-18 广东电网有限责任公司 文件管理方法和装置
CN110674244A (zh) * 2019-08-20 2020-01-10 南京医渡云医学技术有限公司 一种医疗文本的结构化处理方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112328852A (zh) * 2020-11-05 2021-02-05 武汉联影医疗科技有限公司 文档管理方法、装置、计算机设备和存储介质
CN113689198A (zh) * 2021-08-31 2021-11-23 远光软件股份有限公司 项目文件生成方法、装置、存储介质及终端设备
CN115544983A (zh) * 2022-11-29 2022-12-30 明度智云(浙江)科技有限公司 基于矩阵类设备的数据处理方法、装置、设备及介质
CN115544983B (zh) * 2022-11-29 2023-03-21 明度智云(浙江)科技有限公司 基于矩阵类设备的数据处理方法、装置、设备及介质

Also Published As

Publication number Publication date
CN111353280B (zh) 2020-11-13

Similar Documents

Publication Publication Date Title
CN111352898B (zh) 一种药品申报文档的智能归档方法和系统
CN111353280B (zh) 一种对pdf药品文档进行超链接编辑的方法和系统
CN101673256B (zh) 一种基于文字流的文章元数据信息自动抽取方法及系统
US20130036348A1 (en) Systems and Methods for Identifying a Standard Document Component in a Community and Generating a Document Containing the Standard Document Component
US20060206462A1 (en) Method and system for document manipulation, analysis and tracking
CN111353004A (zh) 一种药品文档的数据关联分析方法和系统
CN108255972A (zh) 一种全文检索方法及系统
CN111353005A (zh) 一种药品研发申报文档管理方法和系统
KR20190062388A (ko) 전자 기록물 태깅을 위한 시스템 및 방법
US10678820B2 (en) System and method for computerized semantic indexing and searching
CN111382184A (zh) 一种对药品文档进行校验的方法和药品文档校验系统
JP5424798B2 (ja) メタデータ設定方法及びメタデータ設定システム、並びにプログラム
CN102214091A (zh) 一种定位软件开发中需求变更影响范围的方法和系统
JP4769822B2 (ja) ページグループを用いた情報検索サービス提供サーバー、方法及びシステム
US20070185832A1 (en) Managing tasks for multiple file types
CN112328738A (zh) 语音检索方法、终端设备及可读存储介质
CN114297143A (zh) 一种搜索文件的方法、显示文件的方法、装置及移动终端
CN115809649A (zh) 一种NeeS电子文档的eCTD转换方法、系统和存储介质
KR102593884B1 (ko) 문서 자동 작성 시스템 및 방법, 컴퓨터로 독출 가능한 기록 매체
Beals Stuck in the Middle: Developing Research Workflows for a Multi-Scale Text Analysis
Klein et al. Bootstrapping a historical commodities lexicon with SKOS and DBpedia
Sojka Digitization Workflow in the Czech Digital Mathematics Library
Zeitlyn et al. Testing Google Scholar bibliographic data: estimating error rates for Google Scholar citation parsing
Kuć Solr Cookbook
JP7377565B2 (ja) 図面検索装置、図面データベース構築装置、図面検索システム、図面検索方法、及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 310056 room 1701, 17th floor, building 3, No. 316, Jianghong South Road, Changhe street, Binjiang District, Hangzhou, Zhejiang

Patentee after: Mingdu Zhiyun (Zhejiang) Technology Co.,Ltd.

Address before: 310000 1, 3 building, No. 316 Jianghong Road, Changhe street, Binjiang District, Hangzhou, Zhejiang.

Patentee before: ZHEJIANG MINGDU INTELLIGENT CONTROL TECHNOLOGY Co.,Ltd.