CN111352898A - 一种药品申报文档的智能归档方法和系统 - Google Patents

一种药品申报文档的智能归档方法和系统 Download PDF

Info

Publication number
CN111352898A
CN111352898A CN202010445804.8A CN202010445804A CN111352898A CN 111352898 A CN111352898 A CN 111352898A CN 202010445804 A CN202010445804 A CN 202010445804A CN 111352898 A CN111352898 A CN 111352898A
Authority
CN
China
Prior art keywords
document
file
rule
priority
rule base
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010445804.8A
Other languages
English (en)
Other versions
CN111352898B (zh
Inventor
唐裕辉
郝华
魏巍
包卿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mingdu Zhiyun Zhejiang Technology Co Ltd
Original Assignee
Zhejiang Mingdu Intelligent Control Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Mingdu Intelligent Control Technology Co ltd filed Critical Zhejiang Mingdu Intelligent Control Technology Co ltd
Priority to CN202010445804.8A priority Critical patent/CN111352898B/zh
Publication of CN111352898A publication Critical patent/CN111352898A/zh
Application granted granted Critical
Publication of CN111352898B publication Critical patent/CN111352898B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/113Details of archiving
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/156Query results presentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Library & Information Science (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种药品申报文档的智能归档方法,包括识别归档所参照的标准规范文件,确定所述标准规范文件各目录关键字并打包形成规则库;选择归档所需至少一个规则库并对所选规则库设置规则库优先级;获取需编排的药品申报文档列表,识别文档标题和文件内容,并进行文档关键字提取;根据规则库优先级依次对各药品申报文档进行关键字和/或特定关系匹配,对匹配到相应规则库的药品申报文档进行编排处理后归档至相应目录中。达到各类型文档自动编排到相应目录的效果,实现了灵活选取相应的规则库进入快速文件归档的效果,极大的提高了药品申报的速度。

Description

一种药品申报文档的智能归档方法和系统
技术领域
本发明涉及药品信息技术领域,尤其涉及一种药品申报文档的智能归档方法和系统。
背景技术
药品电子技术通用技术文档(Electronic Common Technical Document),简称eCTD,是药品的质量、安全和有效性方面的通用文件,是制药企业向药物监管机构进行信息传输的一种形式,其内容需满足通用技术文件CTD的要求。目前eCTD电子递交流程大体上可以分为三个阶段,即撰写、文档编辑与提交。申请者首先要将各类资料、数据、实验数据等进行撰写,之后由根据相关法规要求构建eCTD申报文档,再由申报负责人通过事先建立好的电子传输通道,将申报文件提交至药监部门。在整个过程中,便捷、高效、规范、环保是其主要特点,因此eCTD因其在药品注册申报环节中的诸多优势而受到美国、日本等国家药审部门的青睐,eCTD正成为全球药品注册申报的重要趋势。但目前的大多数eCTD申报软件,均需要人工将各类药品文件放置到文档结构中,很多时候所需归档的文档目录树,按照ICH标准的M2-M4就有近千个文件夹,如果药品的成分信息再复杂一些,将有上万个文件夹,因此依靠手工拖拽文档来进行归档的方式,将会带来例如找不到相应的文件夹、拖动速度慢、容易拖动出错等各类问题,严重制约文件归档效率和可靠性。
发明内容
本发明针对现有技术中的不足,提供了一种药品申报文档的智能归档方法,包括:
S1,识别归档所参照的标准规范文件,确定所述标准规范文件各目录关键字,并打包形成规则库;
S2,选择归档所需至少一个规则库,并对所选规则库设置规则库优先级;
S3,获取需编排的药品申报文档列表,识别文档标题和文件内容,并进行文档关键字提取;
S4,根据规则库优先级依次对各药品申报文档进行关键字和/或特定关系匹配,对匹配到相应规则库的药品申报文档进行编排处理后归档至相应目录中。
优选的,所述标准规范文件为人用药品注册技术要求国际协调标准ICH。
优选的,所述步骤S1具体包括:
S11,导入并识别ICH的标准规范文件,生成文件归档目录树;
S12,对各目录标题进行划词并获取关键字,将关键字绑定至文件归档目录树;
S13,将所述文件归档目录树和其绑定的各关键字打包形成一规则库。
优选的,所述规则库包括但不限于第一优先规则、第二优先规则和/或第三优先规则,其中所述第一优先规则被配置为优先将目录树的编号和/或标题制作成规则文件;所述第二优先规则被配置为优先通过提取模版文件内容或手工设置关键字制作成规则文件;所述第三优先规则被配置为根据文件后缀优先将实验室数据和/或材料放置在预先规定目录中。
优选的,所述步骤S2还包括:设置各规则库的优先级,所述优先级被配置为各药品申报文档根据所述规则库优先级进行依次匹配,对已完成匹配的药品申报文档不再匹配低优先级规则库。
优选的,所述步骤S11还包括:如果标准规范文件中的目录存在模版文件,则对模版文件进行智能分词,通过医药字典库提取具有较高关联性的关键字,形成用于规则库的匹配规则,所述匹配规则包括但不限于相互对应的目录编号、目录名称和关键字。
优选的,所述步骤S3具体包括:获取需编排的药品申报文档列表,识别文档标题和文件内容,通过TF-IDF算法获取当前文档的特性关键字。
优选的,所述步骤S4具体包括:
S41,根据所选规则库及其优先级,依次对各药品申报文档进行规则匹配;
S42,将已完成与归档目录树中目录对应的药品申报文档进行文件移动,并在数据库记录中对该文件移动状态进行标示。
本发明还公开了一种药品申报文档智能归档系统,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一所述方法的步骤。
本发明还公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如上述任一所述方法的步骤。
本发明公开的药品申报文档的智能归档方法,通过对识别归档所参照的标准规范文件来确定所述标准规范文件各目录关键字并打包形成规则库,然后根据所选规则库依次对各药品申报文档进行关键字或特定关系匹配,对匹配到相应规则库的药品申报文档进行编排处理后归档至相应目录中。利用这种采用预定义规则库智能识别文档,自动匹配规则并编排文档的方法,从而达到各类型文档自动编排到相应目录的效果,实现了灵活选取相应的规则库进入一键将文件归档的效果,极大的提高了药品申报的速度,同时还允许用户提供自己的匹配方案进而提高匹配灵活程度。解决了现有的eCTD申报软件中,需要人工将文件放置到文档结构中,从而造成找不到相应的文件夹,拖动速度慢和容易拖动出错等各种问题。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为实施例公开的药品申报文档的智能归档方法的流程示意图。
图2为实施例公开的步骤S1的具体流程示意图。
图3为实施例公开的ICH的标准规范文件部分归档目录的示意图。
图4为为实施例公开的步骤S4的具体流程示意图。
图5为为实施例公开的步骤S5的具体流程示意图。
图6为为实施例公开的步骤S52的具体流程示意图。
图7为为实施例公开的步骤S54的具体流程示意图。
图8为为实施例公开的药品申报文档的智能归档系统的原理框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明中,除非另有明确的规定和限定,此处使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明专利申请说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。同样,“一个”或者“一”等类似词语也不表示数量限制,而是表示存在至少一个。
eCTD全称电子通用技术文档,是电子化的一种药品申报格式,文档结构树一般是固定的,按照ICH的标准生成。相比之前需要将药品研究资料打印成纸质,eCTD方式的药品申报更先进、快捷。但在目前的eCTD申报软件中,需要人工将文件放置到文档结构中。很多时候文档树比较大,按照ICH标准的M2-M4就有近千个文件夹,如果药品的成分信息再复杂一些,将有上万个文件夹。在现有的eCTD申报软件中,一般往往右侧是等待归档的文件,左侧是eCTD结构的文件夹(目录)结构树,现有技术中需要将右侧等待归档的文件手工拖动到相应的左侧目录,这种手工拖拽的方式将会带来很多问题:比如找不到相应的文件夹,拖动速度慢,容易拖动出错等。为解决这些问题,如附图1所示,本实施例公开了一种药品申报文档的智能归档方法,通过采用预定义规则库,实现智能识别文档、自动匹配规则并编排文档,从而达到各类型文档自动编排到相应目录的效果,该方法包括如下步骤。
步骤S1,识别归档所参照的标准规范文件,确定所述标准规范文件各目录关键字,并打包形成规则库。在该实施例中,标准规范文件为人用药品注册技术要求国际协调标准ICH,当然也可以用于其他标准规范文件。其中,规则库是按照(目录编号,目录名称,(关键字1、关键字2、---关键字n))的结构存储。该智能归档方法的最终目的就是将未知的文件智能归档到相应目录中。如附图2所示,该步骤具体可包括如下内容。
步骤S11,导入并识别ICH的标准规范文件,生成文件归档目录树。其中将ICH的标准规范文件导入,包括将eCTD目录树生成,另外针对某些有模版文件的目录,比如对附图3中的目录2.6.3导入模版文件。导入后,系统将会把Word或者PDF文件的内容识别成计算机可读的文本。
具体的,如果标准规范文件中的目录存在模版文件,则对模版文件进行智能分词,通过医药字典库提取具有较高关联性的关键字,形成用于规则库的匹配规则,所述匹配规则包括但不限于相互对应的目录编号、目录名称和关键字。
如果导入的ICH标准规范文件为Word文件,则可使用java的第三方库如jacob进行文字内容获取;如果导入的ICH标准规范文件为PDF文件,则可使用java的第三方库如PDFbox来将PDF格式的规范文件转换成文字。而对于有模版文件的目录,则自动对模版文件进行智能分词,再用医药的字典库将相关性高的关键词提取出来,形成匹配规则,最终将得到以(目录编号,目录名称,(关键字1、关键字2、---关键字n))为结构存储形式的规则库内容。
步骤S12,对各目录标题进行划词并获取关键字,将关键字绑定至文件归档目录树。具体的,通过划词并获取关键字,绑定到eCTD目录树,对于没有模版的目录,或者自动生成的关键字不满意的,也可通过手工添加关键字方式进行关键字补录。
步骤S13,将所述文件归档目录树和其绑定的各关键字打包形成一规则库。在本实施例中,具体规则文件格式内容可以包容如下内容:
目录编号1,目录名称1,(关键字1、关键字2、---关键字n);
目录编号1.2,目录名称1.2,(关键字1、关键字2、---关键字n);
目录编号1.3,目录名称1.3,(关键字1、关键字2、---关键字n)。
步骤S2,选择归档所需至少一个规则库,并对所选规则库设置规则库优先级。其中,规则库包括但不限于第一优先规则、第二优先规则和/或第三优先规则,其中所述第一优先规则被配置为优先将目录树的编号和/或标题制作成规则文件;所述第二优先规则被配置为优先通过提取模版文件内容或手工设置关键字制作成规则文件;所述第三优先规则被配置为根据文件后缀优先将实验室数据和/或材料放置在预先规定目录中。
具体的,规则库可以有多个规则文件组成,其中规则文件被统一上传到规则库中。例如规则库包含如下规则文件:
标题优先规则.reg ,可以通过系统自动将目录树的“编号”或者目录树的“标题”制作成规则文件,该规则文件可适用于某些文件名称和所属目录相同的文件。
关键字优先规则.reg ,可以通过自动提取模版文件内容,或者手工设置关键字,制作成规则文件。其中用户可会根据各自认为命名习惯,分成多个关键字规则。
特定格式规则.reg ,可以基于实验室数据和材料,该类文档需要归档放置在特定目录中。具体的,该类文档拥有自己的特定后缀,可通过文档后缀进行识别分类和归档。
其中步骤S2还可以包括:设置各规则库的优先级,其中优先级被配置为各药品申报文档根据所述规则库优先级进行依次匹配,对已完成匹配的药品申报文档不再匹配低优先级规则库。即规则库根据优先级排序,优先级高的先进行匹配。高优先级的库一旦匹配,就不用再匹配低优先级的库。
步骤S3,获取需编排的药品申报文档列表,识别文档标题和文件内容,并进行文档关键字提取。对于获取需编排的药品申报文档列表,可以识别文档标题和文件内容,通过TF-IDF算法获取当前文档的特性关键字。
步骤S4,根据规则库优先级依次对各药品申报文档进行关键字和/或特定关系匹配,对匹配到相应规则库的药品申报文档进行编排处理后归档至相应目录中。如附图4所示,所述步骤S4具体包括:
S41,根据所选规则库及其优先级,依次对各药品申报文档进行规则匹配。
例如在一具体实施例中,将标题优先规则设置为最高优先级,将特定格式规则设置为中等优先级,将关键字规则设置为低等优先级。则在对各药品申报文档进行规则匹配时,会先优先匹配当前文件的标题,是否和标题优先规则规则匹配,只要找到匹配的规则,就终止寻找,否则进入下一优先级的规则。下一级规则,轮到比较后缀和特定格式的规则。然后是根据目录模块的关键字去匹配关键字规则。
S42,将已完成与归档目录树中目录对应的药品申报文档进行文件移动,并在数据库记录中对该文件移动状态进行标示。经过前序步骤,已经将文档和eCTD目录树的关系找到,即(文档A,目录A)或者(文档A,无)。系统将自动把找到对应关系的文档A,进行文件系统层面的移动,并且在数据库的记录中标注此文件已经移动到xx目录。如果没有找到对应关系,则不进行移动和数据库标注。当一个药品文档经过一个或多个匹配规则匹配,可归档至目录树中的多个子目录中,则调用程序对药品文档进行多份复制后将复制的多份文档分别移动至相应目录下。例如对于实验室数据和材料文档等,通过将文档与规则库的匹配和自动复制归档,能自动发现需要重复使用的文档,提高医药文档整理和归档的效率。
本实施例提供的药品申报文档的智能归档方法,通过对识别归档所参照的标准规范文件来确定所述标准规范文件各目录关键字并打包形成规则库,然后根据所选规则库依次对各药品申报文档进行关键字或特定关系匹配,对匹配到相应规则库的药品申报文档进行编排处理后归档至相应目录中。利用这种采用预定义规则库智能识别文档,自动匹配规则并编排文档的方法,从而达到各类型文档自动编排到相应目录的效果,实现了灵活选取相应的规则库进入一键将文件归档的效果,极大的提高了药品申报的速度,同时还允许用户提供自己的匹配方案进而提高匹配灵活程度。解决了现有的eCTD申报软件中,需要人工将文件放置到文档结构中,从而造成找不到相应的文件夹,拖动速度慢和容易拖动出错等各种问题。
在另一些具体实施例中,该药品申报文档的智能归档方法,还可包括如下步骤:步骤S5,对完成归档的多个PDF药品文档内容进行识别,根据待处理超链接项目的特征编辑相应的匹配规则,根据所述匹配规则形成链接项目集合并遍历各经过预处理的PDF药品文档的链接项目集合,验证并删除无效目标文件属性后创建剩余的超文本链接。具体的,如附图5所示,该步骤具体可包括。
步骤S51,对完成归档的多个PDF药品文档内容进行识别。
具体的,获取已完成归档的多个PDF药品文档。通过PDFBox或者OCR等技术来识别这些药品文档的内容。此步骤主要是将PDF转化为可编辑或复制的文字。若有些PDF不可选中,可通过OCR光学识别进行文字提取。
步骤S52,根据待处理超链接项目的特征编辑相应的匹配规则。具体的,可根据需求对各药品文档中进行超链接添加的具体项目进行选择,从而进行灵活的超链接编辑。其中待处理超链接项目包括但不限于注释、相关章节、参考文献、附录、表格或数字中的一个或多个。每个项目的句法结构不相同,例如:
章节一般由「数字或中文+标题」组成,如“1. 概述”,“2.1 申请人及监管机构的责任”等。
附录一般由「附件X+文件名」组成,如“附件一:光盘封面模板”。
表格一般由「表+数字+表格名称」如“表1 实验记录表”。
参考文献一般由「《文件名》」或者有指定文字如“参考如下文献”等表明。
根据各项目的句法结构生成具体的匹配规则。另外也可对需进行超链接编辑和添加的药品文档区域进行选择和限制,具体的可对需进行超链接编辑的相应段落或相应页码区间的页面进行超链接编辑。具体的,如附图6所示,步骤S52具体可包括如下内容。
步骤S521,在系统中编辑语法规则,根据句法结构归纳数据库将关键词和句型规则存储至模板中。
在系统中编辑语法规则,所示语法规则包括关键词和句型规则。根据中文句法结构的总结,即被存储在句法结构归纳数据库中的中文句法结构总结,将关键词和句型规则罗列到模板中。其中量词为数字或中文数字,分隔符通常为“:-,.空格”等。除了特定前后缀,还有某些关键词,也可以作为规则,如“参考”,“参见”,“见xx章”等,编辑的语法规则具体如下所示:
{
“特征项”:“章节”,
“关键词”:[“章节”,“章”],
“句型规则”:[
“<关键词><量词><分隔符,(0)><剩余内容>”,
“<量词><分隔符,(0)><剩余内容><关键词>”
“<量词><分隔符,(0)><剩余内容>”
]
},{
“特征项”:“附录”,
“关键词”:[“附录”,“附件”,“附表”,“附图”],
“句型规则”:[
“<关键词><量词><分隔符,(0)><书名,(0)><剩余内容><书名,(0)>”,
] }。
步骤S522,对PDF药品文档识别的文本以句子为单位进行拆分。
步骤S523,根据所述语法规则生成相应正则表达式,关键词和句型规则将形成a*b种不同规则。
例如“^章节[1-9]\d*\.\d*|0\.\d*[1-9]\d*[\u4e00-\u9fa5]*$”,“^章[1-9]\d*\.\d*|0\.\d*[1-9]\d*[\u4e00-\u9fa5]*$”
步骤S524,将语法规则进行匹配以获取剩余内容,对所述剩余内容进行文本纠错并去除停用词。
步骤S53,根据所述匹配规则形成链接项目集合,所述链接项目集合包括各项目的源文件属性、目标文件属性、以及源文件与目标文件对应关系,所述源文件当前正在编辑超链接的PDF药品文档,所述目标文件即超链接将要指向的文件。所述源文件属性包括但不限于源文件所在物理磁盘路径、文档内页码和位置,所述目标文件属性包括但不限于目标文件名称、所属页面、章节、图表和附录。
所示链接项目集合为文档与超链接项目的集合,集合中包括每个项目的源文件属性及目标文件属性,源文件即当前正在编辑超链接的文件,目标文件即超链接将要指向的文件,目标文件也可以是自身。其中源文件属性包括但不限于所在物理磁盘路径、文档内页码和位置等,所述目标文件属性包括但不限于文件名称、所属页面、章节、图表和附录等。
本实施例例举了一个具体的源文件属性示例,如下:
[ID]: 6ee99848-eeea-4789-a808-73c7a14aa7ea
[FILENAME]: eCTD技术分析
[TITLE]:
[SECTION]:
[Page]: 3
[BoundTopX]: 59.900123965487914
[BoundTopY]: 544.9078444202657
[BoundBotX]: 157.20030923870056
[BoundBotY]: 523.8572042733047。
例举了一个具体的目标文件属性示例,如下:
[TargetID]: 858d6a55-96fe-484b-8cfd-d5e40329ad6f
[SelectedSubmission_ID]: d725b971-d3d3-4241-9d74-15088d05533b
[FILENAME]:
[TITLE]: eCTD验证标准
[SECTION]: 6-PDF分析
[TargetPage]: 27。
步骤S54,遍历各经过预处理的PDF药品文档的链接项目集合,验证并删除无效目标文件属性后创建剩余的各超文本链接。具体的,如附图7所示,该步骤具体可包括:
步骤S541,遍历各预处理的PDF药品文档链接项目集合,判断各目标文件指向位置是否已有超文本链接。例如经过前述步骤S53或先前已经自动创建过的超链接等,数据库将会有一些数据记录。由于eCTD规范要求不允许同一位置有多个超链接,故需要判断是否重复,若同一个文档中的相同区域,已经有“原链接”,则“新链接”为可能重复的链接,则进入步骤S542。若数据库中无相同位置的链接,则进入步骤S543。
步骤S542,当存在超文本链接时,判断目标文件属性是否存在变化,如有变化则删除原链接并创建新超链接,否则保持原超链接。例如,如果表格中的文档的“新链接”与“原链接”是相同位置,且目标文件target的相关属性发生了变化,则系统判断其为更新操作,即可删除“原链接”。如果无变化,则不进行修改。
在一些具体实施例中,该步骤S542,还包括:当存在超文本链接时,判断目标文件属性是否存在变化;当目标文件属性存在变化时删除原超链接,并判断目标文件属性是否存在对应页面或章节,如存在则创建新超链接,否则放弃创建;当目标文件属性无变化时,判断目标文件属性是否存在对应页面或章节,如存在则保持原超链接,否则删除原超链接。
步骤S543,当不存在超文本链接则创建新超链接。
在本实施例中,该步骤S54还包括判断目标文件属性是否有效信息,如该目标文件属性为有效信息则进行添加,否则放弃添加该超链接。验证内容可包括验证该目标文件属性有无文档,有无相应页面,相应区域属性等
该实施例公开的药品申报文档的智能归档方法,通过对完成归档的药品文档内容进行识别,对待处理超链接项目的特征编辑相应的匹配规则,然后根据所述匹配规则形成链接项目集合,最终遍历各经过预处理的PDF药品文档的链接项目集合,验证并删除无效目标文件属性后创建剩余的各超文本链接。通过上述这种批量文件导入,PDF文字自动识别然后自动匹配规则并获取制作超链接相关属性来实现自动搜寻文件来进行新增或删除相关超链接,达到多个文档自动编辑超链接,并将各超链接自动编排到相应文件的注释、相关章节、参考文献、附录或表格等各个位置,能适应各类文档的超链接编辑要求,极大的提高了药品申报的速度。解决了目前的eCTD申报文档系统只能依靠人工编辑PDF超链接,面对成百上千的pdf文件,无法快速找不到相应的目标文件,查询效率低下、超链接添加繁琐且容易出错等问题。最终实现对批量导入药品文档自动实现超链接编辑和归档整理,快速高效的生成符合ICH标准等各类申报标准的eCTD文件,大大提高药品申报人员的工作效率,降低其材料整理工作强度。
如附图8所示,本发明还提供了一种药品申报文档的智能归档系统,包括存储器1、处理器2以及存储在所述存储器1中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述各实施例中描述的药品申报文档智能归档的方法的各个步骤。
所述药品申报文档的智能归档系统可包括但不仅限于处理器、存储器。本领域技术人员可以理解,所述示意图仅仅是对药品申报文档的智能归档系统的示例,并不构成对药品申报文档的智能归档系统设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述药品申报文档的智能归档系统设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述药品申报文档的智能归档系统设备的控制中心,利用各种接口和线路连接整个药品申报文档的智能归档系统设备的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述对药品申报文档的智能归档系统设备的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
所述对药品申报文档的智能归档方法如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个实现负载均衡的任务调度管理方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
总之,以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所作的均等变化与修饰,皆应属本发明专利的涵盖范围。

Claims (10)

1.一种药品申报文档的智能归档方法,其特征在于,包括:
S1,识别归档所参照的标准规范文件,确定所述标准规范文件各目录关键字,并打包形成规则库;
S2,选择归档所需至少一个规则库,并对所选规则库设置规则库优先级;
S3,获取需编排的药品申报文档列表,识别文档标题和文件内容,并进行文档关键字提取;
S4,根据规则库优先级依次对各药品申报文档进行关键字和/或特定关系匹配,对匹配到相应规则库的药品申报文档进行编排处理后归档至相应目录中。
2.根据权利要求1所述的智能归档方法,其特征在于:所述标准规范文件为人用药品注册技术要求国际协调标准ICH。
3.根据权利要求2所述的智能归档方法,其特征在于,所述步骤S1具体包括:
S11,导入并识别ICH的标准规范文件,生成文件归档目录树;
S12,对各目录标题进行划词并获取关键字,将关键字绑定至文件归档目录树;
S13,将所述文件归档目录树和其绑定的各关键字打包形成一规则库。
4.根据权利要求3所述的智能归档方法,其特征在于,所述规则库包括第一优先规则、第二优先规则和/或第三优先规则,其中
所述第一优先规则被配置为优先将目录树的编号和/或标题制作成规则文件;
所述第二优先规则被配置为优先通过提取模版文件内容或手工设置关键字制作成规则文件;
所述第三优先规则被配置为根据文件后缀优先将实验室数据和/或材料放置在预先规定目录中。
5.根据权利要求4所述的智能归档方法,其特征在于,所述步骤S2还包括:设置各规则库的优先级,所述优先级被配置为各药品申报文档根据所述规则库优先级进行依次匹配,对已完成匹配的药品申报文档不再匹配低优先级规则库。
6.根据权利要求5所述的智能归档方法,其特征在于,所述步骤S11还包括:如果标准规范文件中的目录存在模版文件,则对模版文件进行智能分词,通过医药字典库提取具有较高关联性的关键字,形成用于规则库的匹配规则,所述匹配规则包括相互对应的目录编号、目录名称和/或关键字。
7.根据权利要求6所述的智能归档方法,其特征在于,所述步骤S3具体包括:获取需编排的药品申报文档列表,识别文档标题和文件内容,通过TF-IDF算法获取当前文档的特性关键字。
8.根据权利要求7所述的智能归档方法,其特征在于,所述步骤S4具体包括:
S41,根据所选规则库及其优先级,依次对各药品申报文档进行规则匹配;
S42,将已完成与归档目录树中目录对应的药品申报文档进行文件移动,并在数据库记录中对该文件移动状态进行标示。
9.一种药品申报文档智能归档系统,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于:所述处理器执行所述计算机程序时实现如权利要求1-8任一所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1-8任一所述方法的步骤。
CN202010445804.8A 2020-05-25 2020-05-25 一种药品申报文档的智能归档方法和系统 Active CN111352898B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010445804.8A CN111352898B (zh) 2020-05-25 2020-05-25 一种药品申报文档的智能归档方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010445804.8A CN111352898B (zh) 2020-05-25 2020-05-25 一种药品申报文档的智能归档方法和系统

Publications (2)

Publication Number Publication Date
CN111352898A true CN111352898A (zh) 2020-06-30
CN111352898B CN111352898B (zh) 2020-09-08

Family

ID=71193433

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010445804.8A Active CN111352898B (zh) 2020-05-25 2020-05-25 一种药品申报文档的智能归档方法和系统

Country Status (1)

Country Link
CN (1) CN111352898B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112328852A (zh) * 2020-11-05 2021-02-05 武汉联影医疗科技有限公司 文档管理方法、装置、计算机设备和存储介质
CN112528602A (zh) * 2020-07-28 2021-03-19 浙江明度智控科技有限公司 一种医药文档结构化内容分析方法、系统和存储介质
CN113157642A (zh) * 2021-03-19 2021-07-23 浪潮云信息技术股份公司 一种实现电子材料数字化流程自动化的方法
CN114939532A (zh) * 2022-07-11 2022-08-26 河北汇金集团股份有限公司 乱序文档的分拣方法
CN117670258A (zh) * 2024-01-31 2024-03-08 成都双流建工建设集团有限公司 施工资料分类识别管理系统及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101676899A (zh) * 2008-09-18 2010-03-24 上海宝信软件股份有限公司 海量数据库记录的归档和查询方法
CN104636469A (zh) * 2015-02-10 2015-05-20 广州供电局有限公司 文件自动分类管理方法和系统
CN105760554A (zh) * 2016-03-31 2016-07-13 华律网络科技(武汉)有限公司 一种用于法律诉讼电子文件的自动化归档系统及归档方法
CN108509542A (zh) * 2018-03-19 2018-09-07 合肥泓泉档案信息科技有限公司 一种档案快速归档系统及其归档方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101676899A (zh) * 2008-09-18 2010-03-24 上海宝信软件股份有限公司 海量数据库记录的归档和查询方法
CN104636469A (zh) * 2015-02-10 2015-05-20 广州供电局有限公司 文件自动分类管理方法和系统
CN105760554A (zh) * 2016-03-31 2016-07-13 华律网络科技(武汉)有限公司 一种用于法律诉讼电子文件的自动化归档系统及归档方法
CN108509542A (zh) * 2018-03-19 2018-09-07 合肥泓泉档案信息科技有限公司 一种档案快速归档系统及其归档方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112528602A (zh) * 2020-07-28 2021-03-19 浙江明度智控科技有限公司 一种医药文档结构化内容分析方法、系统和存储介质
CN112528602B (zh) * 2020-07-28 2021-05-04 浙江明度智控科技有限公司 一种医药文档结构化内容分析方法、系统和存储介质
CN112328852A (zh) * 2020-11-05 2021-02-05 武汉联影医疗科技有限公司 文档管理方法、装置、计算机设备和存储介质
CN113157642A (zh) * 2021-03-19 2021-07-23 浪潮云信息技术股份公司 一种实现电子材料数字化流程自动化的方法
CN114939532A (zh) * 2022-07-11 2022-08-26 河北汇金集团股份有限公司 乱序文档的分拣方法
CN114939532B (zh) * 2022-07-11 2022-11-08 河北汇金集团股份有限公司 乱序文档的分拣方法
CN117670258A (zh) * 2024-01-31 2024-03-08 成都双流建工建设集团有限公司 施工资料分类识别管理系统及方法

Also Published As

Publication number Publication date
CN111352898B (zh) 2020-09-08

Similar Documents

Publication Publication Date Title
CN111352898B (zh) 一种药品申报文档的智能归档方法和系统
CN101673256B (zh) 一种基于文字流的文章元数据信息自动抽取方法及系统
CN111353280B (zh) 一种对pdf药品文档进行超链接编辑的方法和系统
US7890486B2 (en) Document creation, linking, and maintenance system
US8200642B2 (en) System and method for managing electronic documents in a litigation context
US8315997B1 (en) Automatic identification of document versions
US20170308511A1 (en) File format agnostic document viewing, link creation and validation in a multi-domain document hierarchy
US20160224601A1 (en) System and method of search indexes using key-value attributes to searchable metadata
US20060206462A1 (en) Method and system for document manipulation, analysis and tracking
US20140040714A1 (en) Information Management System and Method
CN111353005A (zh) 一种药品研发申报文档管理方法和系统
CN111353004A (zh) 一种药品文档的数据关联分析方法和系统
KR20190062388A (ko) 전자 기록물 태깅을 위한 시스템 및 방법
CN110688349A (zh) 一种文档整理方法、装置、终端及计算机可读存储介质
CN111382184A (zh) 一种对药品文档进行校验的方法和药品文档校验系统
WO2011040025A1 (en) Method for setting metadata, system for setting metadata, and program
CN117194322A (zh) 文件分类管理方法、系统及计算设备
CN112328738A (zh) 语音检索方法、终端设备及可读存储介质
CN115809649A (zh) 一种NeeS电子文档的eCTD转换方法、系统和存储介质
Beals Stuck in the Middle: Developing Research Workflows for a Multi-Scale Text Analysis
US20170091886A1 (en) Methods, systems, and computer readable media for optimized case management
Klein et al. Bootstrapping a historical commodities lexicon with SKOS and DBpedia
US20160019231A1 (en) Reporting tool and method therefor
Zeitlyn et al. Testing Google Scholar bibliographic data: estimating error rates for Google Scholar citation parsing
Rajeswari et al. Development and customization of in-house developed OCR and its evaluation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: 310056 room 1701, 17th floor, building 3, No. 316, Jianghong South Road, Changhe street, Binjiang District, Hangzhou, Zhejiang

Patentee after: Mingdu Zhiyun (Zhejiang) Technology Co.,Ltd.

Address before: 310000 1, 3 building, No. 316 Jianghong Road, Changhe street, Binjiang District, Hangzhou, Zhejiang.

Patentee before: ZHEJIANG MINGDU INTELLIGENT CONTROL TECHNOLOGY Co.,Ltd.

CP03 Change of name, title or address