CN111353005A - 一种药品研发申报文档管理方法和系统 - Google Patents
一种药品研发申报文档管理方法和系统 Download PDFInfo
- Publication number
- CN111353005A CN111353005A CN202010445836.8A CN202010445836A CN111353005A CN 111353005 A CN111353005 A CN 111353005A CN 202010445836 A CN202010445836 A CN 202010445836A CN 111353005 A CN111353005 A CN 111353005A
- Authority
- CN
- China
- Prior art keywords
- document
- structured data
- uploaded
- drug
- data unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/26—Visual data mining; Browsing structured data
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种药品研发申报文档管理方法,包括对上传的药品文档内容进行分析,评估上传文档完成度;对达到预设文档完成度的药品文档进行结构化处理形成多个结构化数据单元;将数据库中的各结构化数据单元的标签字段与新上传药品文档的结构化数据单元的标签字段进行相似度计算,根据相似度确定各结构化数据单元间关联关系并保存。可方便用户检查关联文档内容的一致性及其变化情况,便于跟踪同一试验内容或结果,从而实现关联文档内容的快速筛选和发现,及时高效的跟踪同一试验内容或结果。
Description
技术领域
本发明涉及信息技术领域,尤其涉及一种药品研发申报文档管理方法和系统。
背景技术
医药行业近几年迎来了大发展与机遇,同时也存在非常多的挑战。随着国家对药企监管的加深、新药品管理法等法规的频繁出台、以及法规逐渐趋同国际等多方面影响,给药企内部管理带来了相当大的压力。另外国外药企在国内开设公司,抢占国内市场,给国内药企带来巨大的市场竞争压力。所以药企也不断开始认识到从仿制药到创新研发的重要性,很多上市企业渐渐加大对于研发的投入。随着中国医药产业创新的,药企在医药研发信息化方面的投入逐渐加大。目前中国医药研发在项目管理、药品注册申报、实验室管理及实验数据管理方面,主要依靠人工,效率较低、项目进度跟踪难、数据有效性和一致性难以保障,导致医药研发进度滞缓,成本增加。
发明内容
本发明针对现有技术中的不足,提供了一种药品研发申报文档管理方法,包括:
S1,对上传的药品文档内容进行分析,评估上传文档完成度;
S2,对达到预设文档完成度的药品文档进行结构化处理形成多个结构化数据单元,所述结构化数据单元包括用于精确搜索和内容分析的标签字段,和用于预览搜索结果和内容分析结果时对段落表格进行定位的位置字段;
S3,将数据库中的各结构化数据单元的标签字段与新上传药品文档的结构化数据单元的标签字段进行相似度计算,根据相似度确定各结构化数据单元间关联关系并保存。
优选的,所述步骤S1具体包括:
S11,获取药品研发过程各阶段上传的药品文档;
S12,比较上传药品文档的名称与文档模板库中对应所属阶段文档名称的相似度,若相似度大于某一阈值,则判断该文档进度已完成;
S13,根据药品研发过程各阶段上传的药品文档进度情况,获取药品项目进度,所述药品项目进度为所包括各阶段药品文档进度平均值。
优选的,所述步骤S2具体包括:
S21,对上传的药品文档内容进行读取,获取文档内各段落和/或表格的文字内容和位置信息,并对各段落和表格进行标签提取,结构化处理后形成一结构化数据单元;
S22,采用基于统计的机器学习方法搜索获取上传药品文档内新词或专业术语词汇;
S23,将发现的新词及用户上传的自定义词典中的词语加入到分词器的词典,对文档各段落和/或表格的内容进行分词,去除停用词,将获得的各词语作为段落表格的标签字段;
S24,将具有标签字段的结构化数据单元存储到搜索引擎中。
优选的,所述步骤S23具体包括:
S231,将发现的新词及用户上传的自定义词典中的词语加入到分词器的词典;
S232,对文档段落表格内容进行分词,去除停用词,将获得的各词语作为段落表格的标签字段;
S233,对各段落表格所属的章节标题,文档标题进行分词,通过IFIDF算法计算各词权重,提取权重大于预设阈值的词语作为关键词加入到相应段落表格标签中。
优选的,其中结构化数据单元包括但不限于:该结构化数据单元所属的项目id、文档名称、文字内容、在文档中的位置信息、标签以及与标签一一对应的用于结构化数据单元关联分析的标签权重。
优选的,步骤S3具体包括:
S31,从搜索引擎中查询出所有已保存的结构化数据单元,提取各结构化数据单元的标签字段;
S32,通过各标签字段计算新上传结构化数据单元与已保存结构化数据单元间的相似度指标;
S33,选择相似度大于预设阈值的结构化数据单元作为关联数据单元,将数据单元的关联关系及相似度指标保存到系统数据库中。
优选的,药品研发申报文档管理方法,还包括:
S4,对新上传文档的结构化数据单元与其关联数据单元进行数据对比分析,若存在特定数据不同则发出通知。
优选的,步骤S4具体包括:
S41,搜索新上传文档的结构化数据单元中包含歧义特征的段落表格,确认歧义内容,其中所述歧义特征为预设歧义特征数据库中信息;
S42,在与新上传文档的结构化数据单元关联的关联数据单元中搜索数据变量名称,比较相同变量名称的变量数据值,若数据不同则判断为歧义内容;
S43,将歧义内容及其位置信息向用户进行发送。
本发明还公开了一种药品研发申报文档管理系统,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一所述方法的步骤。
本发明还公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现上述任一所述方法的步骤。
本发明公开的药品研发申报文档管理方法通过对对上传的药品文档内容进行分析评估上传文档完成度,然后对达到预设文档完成度的药品文档进行结构化处理形成多个结构化数据单元;然后将已存储的各结构化数据单元的标签字段与新上传药品文档的结构化数据单元的标签字段进行相似度计算,根据相似度确定各结构化数据单元间关联关系并保存。可以有效管理项目基础信息及项目进度,利用内置文档内容与项目阶段知识库可自动识别药品项目或文档进度,对完成度达到要求的文档建立结构化数据单元并建立各数据单元间关联关系,可方便用户检查关联文档内容的一致性及其变化情况,便于跟踪同一试验内容或结果。使得用户在进行文档内容预览或查看搜索结果时,可以选择某一个段落或表格查看与其关联的段落或表格,实现关联文档内容的快速筛选和发现,及时高效的跟踪同一试验内容或结果。另外,通过在该药品研发申报文档管理方法中增加对新上传文档的结构化数据单元与其关联数据单元进行数据对比分析的异常分析步骤,可以对包括同一对象不同表述或数据不一致性等异常问题进行自动检查发现并通知给用户,辅助用户发现文档内容表述或数据的不一致,保证文档合规性。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为一实施例公开的药品研发申报文档管理方法的流程示意图。
图2为实施例公开的步骤S1的具体流程示意图。
图3为实施例公开的步骤S2的具体流程示意图。
图4为实施例公开的步骤S23的具体流程示意图。
图5为实施例公开的步骤S3的具体流程示意图。
图6为另一实施例公开的药品研发申报文档管理方法的流程示意图。
图7为实施例公开的步骤S4的具体流程示意图。
图8为另一实施例公开的药品研发申报文档管理方法的流程示意图。
图9为实施例公开的步骤S5的具体流程示意图。
图10为实施例公开的步骤S52的具体流程示意图。
图11为实施例公开的步骤S54的具体流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明中,除非另有明确的规定和限定,此处使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明专利申请说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。同样,“一个”或者“一”等类似词语也不表示数量限制,而是表示存在至少一个。
附图1为实施例公开的一种药品研发申报文档管理方法,该管理方法可以用于针对药品研发与申报过程产生的各种文档的文档管理与分析系统,其中的文档管理系统可包括数据层、业务层和用户使用层,其中数据层包括文件系统和搜索引擎,用于存储文件和实现快速全文搜索。业务层可以包括权限管理模块、项目管理模块、文档管理模块、全文搜索模块、内容分析模块等模块组成。其中权限管理模块可用于实现不同用户使用系统各项功能权限的精准管理,项目管理模块可用于管理各药品研发申报项目,文档管理模块可用于文档的上传下载、版本管理和在线预览。其中全文搜索模块用于文档内容的精确搜索和定位,内容分析模块用于专有名词术语的发现、文档内容关联程度的分析、异常内容的自动检测。用户使用层通过web浏览器应用实现与用户的交互,且可以查看用户对系统各项功能的使用记录。该实施例的药品研发申报文档管理方法可以实现大量药品文档的统一存储管理,可对文档内容进行结构化,实现文档内容的精确搜索、文档内容关联关系的准确建立、文档异常内容的主动检测发现并通知用户等,从而帮助用户有效推动药品研发项目的进行,满足国家法规要求,缩短药品研发周期,加速药品申报上市。如附图1所示,该药品研发申报文档管理方法具体可包括:
步骤S1,对上传的药品文档内容进行分析,评估上传文档完成度。在药品研发过程的各个阶段都具有必须要提交的文档,如在立项阶段的可行性报告、调研报告、立项申请等,在合同启动阶段的招投标合同、研究方案等,在工艺验证阶段的方法转移方案、工艺验证方案等。在其药品文档管理系统中的文档内容知识库中保存有各阶段应包括的文档名称及数量,其中该各阶段应包括的文档名称及数量可以由用户预先设置,也可在中途进行修改。通过对比上传文档的药品文档与文档内容知识库中的对应阶段文档的要求,即可判断该文档完成度。如附图2所示,该步骤S1具体可包括如下具体过程。
步骤S11,获取药品研发过程各阶段上传的药品文档。其中药品文档包括但不限于在立项阶段的可行性报告、调研报告、立项申请文档,在合同启动阶段的招投标合同、研究方案文档,在工艺验证阶段的方法学转移方案文档、工艺验证方案文档。
步骤S12,比较上传药品文档的名称与文档模板库中对应所属阶段文档名称的相似度,若相似度大于某一阈值,则判断该文档进度已完成。
其中在药品文档内容知识库中保存有各阶段应包括的文档名称及数量,比较上传文档的名称与知识库中文档名称的相似度,若相似度大于某一阈值,则认为该文档进度已完成。
步骤S13,根据药品研发过程各阶段上传的药品文档进度情况,获取药品项目进度,所述药品项目进度为所包括各阶段药品文档进度平均值。具体的,通过统计获取在特定阶段的进度状态为已完成的药品文档数量为m,在药品文档内容知识库中该阶段应包括的文档数为n,则该阶段进度为m/n*100%。计算获取每个阶段的进度,计算各阶段进度平均值即为项目进度。
通过预先设置存储药品研发过程中各阶段包括但不限于立项、合同启动、小试、试生产、生物等效试验、工艺验证、申报资料整理阶段所需包含的各相应文档内容的文档名称及数量,通过将上传的文档与预设设置阶段所必需的文档名称及数量进行对比,来自动估计该药品文档所在的项目进度。
步骤S2,对达到预设文档完成度的药品文档进行结构化处理形成多个结构化数据单元,所述结构化数据单元包括用于精确搜索和内容分析的标签字段,和用于预览搜索结果和内容分析结果时对段落表格进行定位的位置字段。其中结构化数据单元包括但不限于:该结构化数据单元所属的项目id、文档名称、文字内容、在文档中的位置信息、标签以及与标签一一对应的用于结构化数据单元关联分析的标签权重。
如附图3所示,所述步骤S2具体包括:
步骤S21,对上传的药品文档内容进行读取,获取文档内各段落和/或表格的文字内容和位置信息,并对各段落和表格进行标签提取,结构化处理后形成一结构化数据单元。
步骤S22,采用基于统计的机器学习方法搜索获取上传药品文档内新词或专业术语词汇。具体的,基于上传的文档进行新词发现,以发现专业术语词汇,新词发现可以采用基于统计的监督机器学习方法,例如HMM、CRF、SVM等,也可采用无监督机器学习方法实现。
步骤S23,将发现的新词及用户上传的自定义词典中的词语加入到分词器的词典,对文档各段落和/或表格的内容进行分词,去除停用词,将获得的各词语作为段落表格的标签字段。分词可以采用基于匹配的算法、HMM模型算法、N-gram模型算法来实现。
具体的,如附图4所示,所述步骤S23具体包括:
步骤S231,将发现的新词及用户上传的自定义词典中的词语加入到分词器的词典;
步骤S232,对文档段落表格内容进行分词,去除停用词,将获得的各词语作为段落表格的标签字段;
步骤S233,对各段落表格所属的章节标题,文档标题进行分词,通过IFIDF算法计算各词权重,提取权重大于预设阈值的词语作为关键词加入到相应段落表格标签中。具体的,对各段落表格所属的章节标题、文档标题进行分词,通过IFIDF算法计算各词语权重,提取权重大于某一阈值的词语作为关键词,加入到相应的段落表格标签中;此处的权重阈值可以选取整篇文档内容所有分词的权重平均值,也可以根据用户需求进行预先设定。
步骤S24,将具有标签字段的结构化数据单元存储到搜索引擎中。其中结构化数据单元包括标签字段和位置字段,其中标签字段,用于精确搜索、内容分析。位置字段,用于预览搜索结果和内容分析结果时对段落表格进行定位。
该结构化的数据单元在Elasticsearch中的数据格式如下:
"projectId": {
"type": "keyword"
},
"fileName": {
"analyzer": "ik_max_word",
"type": "text"
},
"text": {
"analyzer": "ik_max_word",
"type": "text"
},
"location": {
"type": "keyword"
},
"tags": {
"analyzer": "whitespace",
"search_analyzer": "whitespace",
"type": "text"
},
"textType": {
"type": "keyword"
},
"weights": {
"analyzer": "whitespace",
"type": "text"
}
其中,projectId为该数据单元所属的项目id。fileName为该数据单元所属的文档名称。text为该数据单元的文字内容,用于预览搜索结果和内容分析结果时对段落表格进行还原。location为该数据单元在文档中的位置信息,用于预览搜索结果和内容分析结果时对段落表格进行定位。tags为该数据单元的标签用于精确搜索、内容分析。textType为该数据单元的类型,是段落还是表格。weights为该数据单元的标签权重,与标签一一对应,用于数据单元的关联分析,标签权重采用词频*逆文档频率。
通过结构化数据单元的标签,可对段落表格内容进行精确搜索。可以输入若干个搜索词,通过查找与搜索词完全匹配的数据单元标签,可以定位到相应的段落表格。将搜索结果传输给用户使用层浏览器,用户可以在内容预览界面查看搜索结果,搜索词高亮显示。
步骤S3,将数据库中的各结构化数据单元的标签字段与新上传药品文档的结构化数据单元的标签字段进行相似度计算,根据相似度确定各结构化数据单元间关联关系并保存。结构化数据单元间的关联关系分析可用于分析药品项目中所有药品文档包含的段落表格内容间的关联关系。药品研发申报过程中的药品文档都具有很强的相关性,同样的内容数据可能出现在各阶段的不同药品文档中。文档内容的关联分析可以便于检查审核关联内容的一致性,及其变化情况,跟踪同一试验内容或结果。如附图5所示,该关联分析步骤的具体实现过程如下。
步骤S31,从搜索引擎中查询出所有已保存的结构化数据单元,提取各结构化数据单元的标签字段。
步骤S32,通过各标签字段计算新上传结构化数据单元与已保存结构化数据单元间的相似度指标。
具体的,可通过数据单元标签字段计算各数据单元间的相似度,相似度算法可以采用Jaccard距离,词袋模型加余弦距离,SimHash加Hamming距离等算法。在本实施例中,优选使用带权重的Jaccard距离作为相似度。具体的,若计算数据单元a和数据单元b的相似度,其相似度计算过程如下:设定a的各标签形成集合A,b的各标签形成集合B,求A和B的交集。查出每个交集元素在a中的权重wia1、wia2... wian,在b中的权重wib1、wib2...wibn,获取A和B的并集,查出每个并集元素在a中的权重wua1、wua2... wuan,在b中的权重wub1、wub2...wubn,若A或B中没有并集中的某元素,则该元素在a或b中的权重为0,带权重的Jaccard距离为(wia1+wia2+...+wian+wib1+wib2+...+wibn)/(wua1+wua2+...+wuan+wub1+wub2+...+wubn),将其作为数据单元a和数据单元b的相似度指标。
步骤S33,选择相似度大于预设阈值的结构化数据单元作为关联数据单元,将数据单元的关联关系及相似度指标保存到系统数据库中。其中该预设阈值可以根据各需求或前期相似度分析结果进行设定或调整。例如需要获取更多关联数据,即可将阈值调小。如需获取跟精确相似度更高数据,可将阈值适当调大。
每当有新上传的药品文档或文档的新版本,可计算新上传的结构化数据单元与已存储的原有各结构化数据单元的关联关系,更新数据库中保存的关联关系。当用户在进行文档内容预览或查看搜索结果时,可以选择某一个段落或表格,查看与其关联的段落或表格。
在另一些具体实施例中,如附图6所示,该药品研发申报文档管理方法还可包括如下步骤:
步骤S4,对新上传文档的结构化数据单元与其关联数据单元进行数据对比分析,若存在特定数据不同则发出通知。该步骤可用于对文档内容的表述不一致和数据不一致的异常情况进行分析和自动发现。具体的,如附图7所示,步骤S4具体包括:
S41,搜索新上传文档的结构化数据单元中包含歧义特征的段落表格,确认歧义内容,其中所述歧义特征为预设歧义特征数据库中信息。其中用户也可以通过上传歧义信息至预设歧义特征数据库中,其中该歧义信息可以包含同一对象可能存在的不同表述。
S42,在与新上传文档的结构化数据单元关联的关联数据单元中搜索数据变量名称,比较相同变量名称的变量数据值,若数据不同则判断为歧义内容。基于预设歧义特征数据库,在数据单元中搜索包含歧义表述的段落表格,判断为歧义内容。同时,在关联数据单元中搜索数据变量名称,比较相同变量名称的变量数据值,若数据不同则判断为歧义内容。
S43,将歧义内容及其位置信息向用户进行发送。具体的,系统将歧义内容及其位置以站内信的形式发送给用户供其检查。
该方法通过对对上传的药品文档内容进行分析评估上传文档完成度,然后对达到预设文档完成度的药品文档进行结构化处理形成多个结构化数据单元;然后将已存储的各结构化数据单元的标签字段与新上传药品文档的结构化数据单元的标签字段进行相似度计算,根据相似度确定各结构化数据单元间关联关系并保存。该方法可以有效管理项目基础信息及项目进度,利用内置文档内容与项目阶段知识库可自动识别药品项目或文档进度,对完成度达到要求的文档建立结构化数据单元并建立各数据单元间关联关系,可方便用户检查关联文档内容的一致性及其变化情况,便于跟踪同一试验内容或结果。使得用户在进行文档内容预览或查看搜索结果时,可以选择某一个段落或表格查看与其关联的段落或表格,实现关联文档内容的快速筛选和发现,及时高效的跟踪同一试验内容或结果。另外,通过在该药品研发申报文档管理方法中增加对新上传文档的结构化数据单元与其关联数据单元进行数据对比分析的异常分析步骤,可以对包括同一对象不同表述或数据不一致性等异常问题进行自动检查发现并通知给用户,辅助用户发现文档内容表述或数据的不一致,保证文档合规性。
对在另一些具体实施例中,如附图8所示,该药品研发申报文档的管理方法,还可包括如下步骤:步骤S5,对完成度达到预设值的药品研发申报文档内容进行识别,根据待处理超链接项目的特征编辑相应的匹配规则,根据所述匹配规则形成链接项目集合并遍历各经过预处理的药品文档的链接项目集合,验证并删除无效目标文件属性后创建剩余的超文本链接。具体的,如附图9所示,该步骤具体可包括。
步骤S51,对完成度达到预设值的的药品研发申报文档内容进行识别。
具体的,获取完成度达到预设值的PDF药品研发申报文档。其中完成度可通过前述步骤S1来获取,例如可对完成度大于90%的药品研发申报文档进行识别来为后续超链接编辑进行准备。通过PDFBox或者OCR等技术来识别这些药品研发申报文档的内容。此步骤主要是将PDF转化为可编辑或复制的文字。若有些PDF不可选中,可通过OCR光学识别进行文字提取。
步骤S52,根据待处理超链接项目的特征编辑相应的匹配规则。具体的,可根据需求对各药品研发申报文档中进行超链接添加的具体项目进行选择,从而进行灵活的超链接编辑。其中待处理超链接项目包括但不限于注释、相关章节、参考文献、附录、表格或数字中的一个或多个。每个项目的句法结构不相同,例如:
章节一般由「数字或中文+标题」组成,如“1. 概述”,“2.1 申请人及监管机构的责任”等。
附录一般由「附件X+文件名」组成,如“附件一:光盘封面模板”。
表格一般由「表+数字+表格名称」如“表1 实验记录表”。
参考文献一般由「《文件名》」或者有指定文字如“参考如下文献”等表明。
根据各项目的句法结构生成具体的匹配规则。另外也可对需进行超链接编辑和添加的药品研发申报文档区域进行选择和限制,具体的可对需进行超链接编辑的相应段落或相应页码区间的页面进行超链接编辑。具体的,如附图10所示,步骤S52具体可包括如下内容。
步骤S521,在系统中编辑语法规则,根据句法结构归纳数据库将关键词和句型规则存储至模板中。
在系统中编辑语法规则,所示语法规则包括关键词和句型规则。根据中文句法结构的总结,即被存储在句法结构归纳数据库中的中文句法结构总结,将关键词和句型规则罗列到模板中。其中量词为数字或中文数字,分隔符通常为“:-,.空格”等。除了特定前后缀,还有某些关键词,也可以作为规则,如“参考”,“参见”,“见xx章”等,编辑的语法规则具体如下所示:
{
“特征项”:“章节”,
“关键词”:[“章节”,“章”],
“句型规则”:[
“<关键词><量词><分隔符,(0)><剩余内容>”,
“<量词><分隔符,(0)><剩余内容><关键词>”
“<量词><分隔符,(0)><剩余内容>”
]
},{
“特征项”:“附录”,
“关键词”:[“附录”,“附件”,“附表”,“附图”],
“句型规则”:[
“<关键词><量词><分隔符,(0)><书名,(0)><剩余内容><书名,(0)>”,
] }。
步骤S522,对PDF药品研发申报文档识别的文本以句子为单位进行拆分。
步骤S523,根据所述语法规则生成相应正则表达式,关键词和句型规则将形成a*b种不同规则。
例如“^章节[1-9]\d*\.\d*|0\.\d*[1-9]\d*[\u4e00-\u9fa5]*$”,“^章[1-9]\d*\.\d*|0\.\d*[1-9]\d*[\u4e00-\u9fa5]*$”
步骤S524,将语法规则进行匹配以获取剩余内容,对所述剩余内容进行文本纠错并去除停用词。
步骤S53,根据所述匹配规则形成链接项目集合,所述链接项目集合包括各项目的源文件属性、目标文件属性、以及源文件与目标文件对应关系,所述源文件当前正在编辑超链接的PDF药品研发申报文档,所述目标文件即超链接将要指向的文件。所述源文件属性包括但不限于源文件所在物理磁盘路径、文档内页码和位置,所述目标文件属性包括但不限于目标文件名称、所属页面、章节、图表和附录。
所示链接项目集合为文档与超链接项目的集合,集合中包括每个项目的源文件属性及目标文件属性,源文件即当前正在编辑超链接的文件,目标文件即超链接将要指向的文件,目标文件也可以是自身。其中源文件属性包括但不限于所在物理磁盘路径、文档内页码和位置等,所述目标文件属性包括但不限于文件名称、所属页面、章节、图表和附录等。
本实施例例举了一个具体的源文件属性示例,如下:
[ID]: 6ee99848-eeea-4789-a808-73c7a14aa7ea
[FILENAME]: eCTD技术分析
[TITLE]:
[SECTION]:
[Page]: 3
[BoundTopX]: 59.900123965487914
[BoundTopY]: 544.9078444202657
[BoundBotX]: 157.20030923870056
[BoundBotY]: 523.8572042733047。
例举了一个具体的目标文件属性示例,如下:
[TargetID]: 858d6a55-96fe-484b-8cfd-d5e40329ad6f
[SelectedSubmission_ID]: d725b971-d3d3-4241-9d74-15088d05533b
[FILENAME]:
[TITLE]: eCTD验证标准
[SECTION]: 6-PDF分析
[TargetPage]: 27。
步骤S54,遍历各经过预处理的PDF药品研发申报文档的链接项目集合,验证并删除无效目标文件属性后创建剩余的各超文本链接。具体的,如附图11所示,该步骤具体可包括:
步骤S541,遍历各预处理的PDF药品研发申报文档链接项目集合,判断各目标文件指向位置是否已有超文本链接。例如经过前述步骤S53或先前已经自动创建过的超链接等,数据库将会有一些数据记录。由于eCTD规范要求不允许同一位置有多个超链接,故需要判断是否重复,如附图4所示,同一个文档1中的相同区域,已经有“链接1”,则“新链接1”为可能重复的链接,则进入步骤S542。若数据库中无相同位置的链接,则进入步骤S543。
步骤S542,当存在超文本链接时,判断目标文件属性是否存在变化,如有变化则删除原链接并创建新超链接,否则保持原超链接。如附图5所示,表格中的文档1的“新链接1”与“链接1”是相同位置,且目标文件target的相关属性发生了变化,则系统判断其为更新操作,即可删除“链接1”。如果无变化,则不进行修改。
在一些具体实施例中,该步骤S542,还包括:当存在超文本链接时,判断目标文件属性是否存在变化;当目标文件属性存在变化时删除原超链接,并判断目标文件属性是否存在对应页面或章节,如存在则创建新超链接,否则放弃创建;当目标文件属性无变化时,判断目标文件属性是否存在对应页面或章节,如存在则保持原超链接,否则删除原超链接。
步骤S543,当不存在超文本链接则创建新超链接。
在本实施例中,该步骤S54还包括判断目标文件属性是否有效信息,如该目标文件属性为有效信息则进行添加,否则放弃添加该超链接。验证内容可包括验证该目标文件属性有无文档,有无相应页面,相应区域属性等
该实施例公开的药品研发申报文档管理方法,可通过对达到一定完成度的药品研发申报文档内容进行识别,对待处理超链接项目的特征编辑相应的匹配规则,然后根据所述匹配规则形成链接项目集合,最终遍历各经过预处理的PDF药品研发申报文档的链接项目集合,验证并删除无效目标文件属性后创建剩余的各超文本链接。通过上述这种批量文件导入,PDF文字自动识别然后自动匹配规则并获取制作超链接相关属性来实现自动搜寻文件来进行新增或删除相关超链接,达到多个文档自动编辑超链接,并将各超链接自动编排到相应文件的注释、相关章节、参考文献、附录或表格等各个位置,能适应各类文档的超链接编辑要求,极大的提高了药品申报的速度。解决了目前的eCTD申报文档系统对上传的药品研发申报文档只能依靠人工编辑PDF超链接,面对成百上千的pdf文件,无法快速找不到相应的目标文件,查询效率低下、超链接添加繁琐且容易出错等问题。最终实现对批量导入药品文档自动实现超链接编辑和归档整理,快速高效的生成符合ICH标准等各类申报标准的eCTD文件,大大提高药品申报人员的工作效率,降低其材料整理工作强度。
本发明还提供了一种药品研发申报文档管理系统,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述各实施例中描述的药品研发申报文档管理方法的各个步骤。
所述药品研发申报文档管理系统可包括但不仅限于处理器、存储器。本领域技术人员可以理解,所述示意图仅仅是对药品研发申报文档管理系统的示例,并不构成对药品研发申报文档管理系统设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述药品研发申报文档管理系统设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述药品研发申报文档管理系统设备的控制中心,利用各种接口和线路连接整个药品研发申报文档管理系统设备的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述对药品研发申报文档管理系统设备的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(FlashCard)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
所述对药品研发申报文档管理方法如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个实现负载均衡的任务调度管理方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
总之,以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所作的均等变化与修饰,皆应属本发明专利的涵盖范围。
Claims (10)
1.一种药品研发申报文档管理方法,其特征在于,包括:
S1,对上传的药品文档内容进行分析,评估上传文档完成度;
S2,对达到预设文档完成度的药品文档进行结构化处理形成多个结构化数据单元,所述结构化数据单元包括用于精确搜索和内容分析的标签字段,和用于预览搜索结果和内容分析结果时对段落表格进行定位的位置字段;
S3,将数据库中的各结构化数据单元的标签字段与新上传药品文档的结构化数据单元的标签字段进行相似度计算,根据相似度确定各结构化数据单元间关联关系并保存。
2.根据权利要求1所述的药品研发申报文档管理方法,其特征在于,所述步骤S1具体包括:
S11,获取药品研发过程各阶段上传的药品文档;
S12,比较上传药品文档的名称与文档模板库中对应所属阶段文档名称的相似度,若相似度大于某一阈值,则判断该文档进度已完成;
S13,根据药品研发过程各阶段上传的药品文档进度情况,获取药品项目进度,所述药品项目进度为所包括各阶段药品文档进度平均值。
3.根据权利要求2所述的药品研发申报文档管理方法,其特征在于,所述步骤S2具体包括:
S21,对上传的药品文档内容进行读取,获取文档内各段落和/或表格的文字内容和位置信息,并对各段落和表格进行标签提取,结构化处理后形成一结构化数据单元;
S22,采用基于统计的机器学习方法搜索获取上传药品文档内新词或专业术语词汇;
S23,将发现的新词及用户上传的自定义词典中的词语加入到分词器的词典,对文档各段落和/或表格的内容进行分词,去除停用词,将获得的各词语作为段落表格的标签字段;
S24,将具有标签字段的结构化数据单元存储到搜索引擎中。
4.根据权利要求3所述的药品研发申报文档管理方法,其特征在于,所述步骤S23具体包括:
S231,将发现的新词及用户上传的自定义词典中的词语加入到分词器的词典;
S232,对文档段落表格内容进行分词,去除停用词,将获得的各词语作为段落表格的标签字段;
S233,对各段落表格所属的章节标题,文档标题进行分词,通过IFIDF算法计算各词权重,提取权重大于预设阈值的词语作为关键词加入到相应段落表格标签中。
5.根据权利要求4所述的药品研发申报文档管理方法,其特征在于:其中结构化数据单元包括但不限于:该结构化数据单元所属的项目id、文档名称、文字内容、在文档中的位置信息、标签以及与标签一一对应的用于结构化数据单元关联分析的标签权重。
6.根据权利要求5所述的药品研发申报文档管理方法,其特征在于,步骤S3具体包括:
S31,从搜索引擎中查询出所有已保存的结构化数据单元,提取各结构化数据单元的标签字段;
S32,通过各标签字段计算新上传结构化数据单元与已保存结构化数据单元间的相似度指标;
S33,选择相似度大于预设阈值的结构化数据单元作为关联数据单元,将数据单元的关联关系及相似度指标保存到系统数据库中。
7.根据权利要求6所述的药品研发申报文档管理方法,其特征在于,还包括:
S4,对新上传文档的结构化数据单元与其关联数据单元进行数据对比分析,若存在特定数据不同则发出通知。
8.根据权利要求7所述的药品研发申报文档管理方法,其特征在于,步骤S4具体包括:
S41,搜索新上传文档的结构化数据单元中包含歧义特征的段落表格,确认歧义内容,其中所述歧义特征为预设歧义特征数据库中信息;
S42,在与新上传文档的结构化数据单元关联的关联数据单元中搜索数据变量名称,比较相同变量名称的变量数据值,若数据不同则判断为歧义内容;
S43,将歧义内容及其位置信息向用户进行发送。
9.一种药品研发申报文档管理系统,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于:所述处理器执行所述计算机程序时实现如权利要求1-8任一所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1-8任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010445836.8A CN111353005A (zh) | 2020-05-25 | 2020-05-25 | 一种药品研发申报文档管理方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010445836.8A CN111353005A (zh) | 2020-05-25 | 2020-05-25 | 一种药品研发申报文档管理方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111353005A true CN111353005A (zh) | 2020-06-30 |
Family
ID=71195080
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010445836.8A Pending CN111353005A (zh) | 2020-05-25 | 2020-05-25 | 一种药品研发申报文档管理方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111353005A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112001795A (zh) * | 2020-09-11 | 2020-11-27 | 支付宝(杭州)信息技术有限公司 | 一种跨境业务的申报文件校验方法、装置及设备 |
CN112214977A (zh) * | 2020-07-28 | 2021-01-12 | 浙江明度智控科技有限公司 | 一种用于医药行业的表格差异化内容分析方法、系统和存储介质 |
CN114841680A (zh) * | 2022-06-30 | 2022-08-02 | 汇通达网络股份有限公司 | 线上商城的研发管理方法、装置、设备及可读存储介质 |
US11573790B2 (en) | 2019-12-05 | 2023-02-07 | International Business Machines Corporation | Generation of knowledge graphs based on repositories of code |
US11954424B2 (en) | 2022-05-02 | 2024-04-09 | International Business Machines Corporation | Automatic domain annotation of structured data |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102479248A (zh) * | 2011-05-30 | 2012-05-30 | 北京中科希望软件股份有限公司 | 一种电子文档结构化处理的方法和系统 |
CN108563747A (zh) * | 2018-04-13 | 2018-09-21 | 北京深度智耀科技有限公司 | 一种文档处理方法及装置 |
CN108572942A (zh) * | 2018-04-20 | 2018-09-25 | 北京深度智耀科技有限公司 | 一种创建超链接的方法和装置 |
CN109254949A (zh) * | 2018-07-18 | 2019-01-22 | 北京深度智耀科技有限公司 | 一种文档处理的方法及装置 |
CN110362596A (zh) * | 2019-07-04 | 2019-10-22 | 上海润吧信息技术有限公司 | 一种文本抽取信息结构化数据处理的控制方法及装置 |
-
2020
- 2020-05-25 CN CN202010445836.8A patent/CN111353005A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102479248A (zh) * | 2011-05-30 | 2012-05-30 | 北京中科希望软件股份有限公司 | 一种电子文档结构化处理的方法和系统 |
CN108563747A (zh) * | 2018-04-13 | 2018-09-21 | 北京深度智耀科技有限公司 | 一种文档处理方法及装置 |
CN108572942A (zh) * | 2018-04-20 | 2018-09-25 | 北京深度智耀科技有限公司 | 一种创建超链接的方法和装置 |
CN109254949A (zh) * | 2018-07-18 | 2019-01-22 | 北京深度智耀科技有限公司 | 一种文档处理的方法及装置 |
CN110362596A (zh) * | 2019-07-04 | 2019-10-22 | 上海润吧信息技术有限公司 | 一种文本抽取信息结构化数据处理的控制方法及装置 |
Non-Patent Citations (2)
Title |
---|
和平使者: "ICH eCTD 技术规范 V3.2.2中文翻译稿", 《道客巴巴》 * |
李东昂等: "我国药品注册申报资料实施eCTD格式的策略研究", 《机电信息》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11573790B2 (en) | 2019-12-05 | 2023-02-07 | International Business Machines Corporation | Generation of knowledge graphs based on repositories of code |
CN112214977A (zh) * | 2020-07-28 | 2021-01-12 | 浙江明度智控科技有限公司 | 一种用于医药行业的表格差异化内容分析方法、系统和存储介质 |
CN112214977B (zh) * | 2020-07-28 | 2024-04-19 | 明度智云(浙江)科技有限公司 | 一种用于医药行业的表格差异化内容分析方法、系统和存储介质 |
CN112001795A (zh) * | 2020-09-11 | 2020-11-27 | 支付宝(杭州)信息技术有限公司 | 一种跨境业务的申报文件校验方法、装置及设备 |
US11954424B2 (en) | 2022-05-02 | 2024-04-09 | International Business Machines Corporation | Automatic domain annotation of structured data |
CN114841680A (zh) * | 2022-06-30 | 2022-08-02 | 汇通达网络股份有限公司 | 线上商城的研发管理方法、装置、设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111353005A (zh) | 一种药品研发申报文档管理方法和系统 | |
US11615246B2 (en) | Data-driven structure extraction from text documents | |
US9135252B2 (en) | System and method for near and exact de-duplication of documents | |
CN111353004A (zh) | 一种药品文档的数据关联分析方法和系统 | |
US20220237230A1 (en) | System and method for automated file reporting | |
US20100169311A1 (en) | Approaches for the unsupervised creation of structural templates for electronic documents | |
CN111352898B (zh) | 一种药品申报文档的智能归档方法和系统 | |
TWI682287B (zh) | 知識圖譜產生裝置、方法及其電腦程式產品 | |
CN111382184A (zh) | 一种对药品文档进行校验的方法和药品文档校验系统 | |
CN111353280B (zh) | 一种对pdf药品文档进行超链接编辑的方法和系统 | |
CN115687647A (zh) | 公证文书生成方法、装置、电子设备及存储介质 | |
Cheng et al. | A similarity integration method based information retrieval and word embedding in bug localization | |
Balsmeier et al. | Automated disambiguation of us patent grants and applications | |
CN116049376B (zh) | 一种信创知识检索回复的方法、装置和系统 | |
CN111400369A (zh) | 一种基于大数据分析的政策信息服务系统及方法 | |
Sloan et al. | Data preparation and fuzzy matching techniques for improved statistical modeling | |
CN112965998B (zh) | 一种化合物数据库建立及检索方法及系统 | |
US11789903B1 (en) | Tagging tool for managing data | |
CN111881294B (zh) | 一种语料标注系统、方法及存储介质 | |
Kaur et al. | Granularity-Based assessment of similarity between short text strings | |
CN113722421A (zh) | 一种合同审计方法和系统,及计算机可读存储介质 | |
US20240086448A1 (en) | Detecting cited with connections in legal documents and generating records of same | |
US20210295031A1 (en) | Automated classification and interpretation of life science documents | |
EP4109297A2 (en) | Automated classificaton and interpretation of life science documents | |
Goode et al. | A Toolkit for the Analysis of the NIME Proceedings Archive |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200630 |
|
RJ01 | Rejection of invention patent application after publication |