CN111382184A - 一种对药品文档进行校验的方法和药品文档校验系统 - Google Patents

一种对药品文档进行校验的方法和药品文档校验系统 Download PDF

Info

Publication number
CN111382184A
CN111382184A CN202010445811.8A CN202010445811A CN111382184A CN 111382184 A CN111382184 A CN 111382184A CN 202010445811 A CN202010445811 A CN 202010445811A CN 111382184 A CN111382184 A CN 111382184A
Authority
CN
China
Prior art keywords
document
data
data block
medicine
drug
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010445811.8A
Other languages
English (en)
Inventor
江岭
林加旗
魏巍
包卿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Mingdu Intelligent Control Technology Co ltd
Original Assignee
Zhejiang Mingdu Intelligent Control Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Mingdu Intelligent Control Technology Co ltd filed Critical Zhejiang Mingdu Intelligent Control Technology Co ltd
Priority to CN202010445811.8A priority Critical patent/CN111382184A/zh
Publication of CN111382184A publication Critical patent/CN111382184A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24573Query processing with adaptation to user needs using data annotations, e.g. user-defined metadata
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种对药品文档进行校验的方法,包括对新上传药品文档进行内容识别和读取,根据文档段落和/或标题对所述药品文档进行划分形成多个独立数据块;依据预设关键词对所述数据块设置唯一标签,并记录各数据块在该药品文档中的位置信息,依据各数据块位置信息将该药品文档包含的各数据块关联形成结构化数据单元;从数据库中搜索获取新上传药品文档对应的至少一个历史版本文档,将所述上传药品文档的数据块依据其位置信息依次与历史版本文档中的对应数据块进行对比,筛选新增和/或删除和/或修改的数据块。该方法可自动进行内容比对来找出内容差异内容,可大大节省人力,并降低因多篇文档数据不一致导致的注册申报失败风险。

Description

一种对药品文档进行校验的方法和药品文档校验系统
技术领域
本发明涉及信息技术领域,尤其涉及一种对药品文档进行校验的方法和药品文档校验系统。
背景技术
医药行业近几年迎来了大发展与机遇,同时也存在非常多的挑战。随着国家对药企监管的加深、新药品管理法等法规的频繁出台、以及法规逐渐趋同国际等多方面影响,给药企内部管理带来了相当大的压力。另外国外药企在国内开设公司,抢占国内市场,给国内药企带来巨大的市场竞争压力。所以药企也不断开始认识到从仿制药到创新研发的重要性,很多上市企业渐渐加大对于研发的投入。随着中国医药产业创新的,药企在医药研发信息化方面的投入逐渐加大。目前中国医药研发在项目管理、药品注册申报、实验室管理及实验数据管理方面,主要依靠人工,效率较低、项目进度跟踪难、数据有效性和一致性难以保障,导致医药研发进度滞缓,成本增加。同时,对于在医药研发的项目管理、药品注册申报、实验室数据管理各个阶段都会产生大量文档,传统方式对此类文档类数据管理都是以人力采集记录、统计汇总、编辑处理为主,过度依赖用户对经验和能力,各药品文档或文档各部分间的数据有效性和一致性难以保障。
发明内容
本发明针对现有技术中的不足,提供了一种对药品文档进行校验的方法,包括:
S1,对新上传药品文档进行内容识别和读取,根据文档段落和/或标题对所述药品文档进行划分形成多个独立数据块;
S2,依据预设关键词对所述数据块设置唯一标签,并记录各数据块在该药品文档中的位置信息,依据各数据块位置信息将该药品文档包含的各数据块关联形成结构化数据单元;
S3,从数据库中搜索获取新上传药品文档对应的至少一个历史版本文档,将所述上传药品文档的数据块依据其位置信息依次与历史版本文档中的对应数据块进行对比,筛选新增和/或删除和/或修改的数据块。
优选的,所述步骤S1具体包括:对上传的药品文档内容进行读取,获取文档内各段落和/或表格的文字内容和位置信息,并对各段落和表格进行标签提取,结构化处理后划分成多个独立数据块。
优选的,所述步骤S1还包括:分别对新上传药品文档中的段落、标题、表格进行识别和分离,并对应形成第一类型数据块、第二类型数据块和第三类型数据块。
优选的,所述步骤S2还包括:
S21,获取数据块类型,并根据数据块类型检索获取对应预设关键词;
S22,依据预设关键词对所述数据块设置唯一标签,并记录各数据块在该药品文档中的位置信息;
优选的,所述步骤S2还包括:
S23,将数据库中的各结构化数据单元所包含的数据块标签与新上传药品文档的结构化数据单元所包含的数据块标签进行相似度计算,根据相似度确定各结构化数据单元和/或各数据块间关联关系。
优选的,所述步骤S23还包括:
S231,从搜索引擎中查询出所有已保存的结构化数据单元,提取各结构化数据单元所包含的数据块标签;
S232,通过各数据块标签计算新上传结构化数据单元与已保存结构化数据单元间的相似度指标;
S233,选择相似度大于预设阈值的结构化数据单元作为关联数据单元,将数据单元的关联关系及相似度指标保存到系统数据库中。
优选的,所述步骤S23还包括:S234,通过各数据块标签计算新上传结构化数据单元中的各数据块与已保存结构化数据单元中的各数据块的相似度指标;选择相似度大于预设阈值的数据块作为关联数据块,将数据块的关联关系及相似度指标保存到系统数据库中。
优选的,对药品文档进行校验的方法,还包括:S4,获取所识别的药品文档内容所在数据块位置信息和对应标签,根据位置信息检索该药品文档,与所选取文档内容进行比对,快速定位到相应的文档段落位置,并根据相似度高低进行排序。
本发明还公开了一种药品文档校验系统,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如前述任一所述方法的步骤。
本发明还公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如前述任一所述方法的步骤。
本发明公开的对药品文档进行校验的方法基于内容识别技术,将各类药品文档中的段落内容作为测试对象,通过结合预设关键词为每个数据块设置唯一标签,并根据文档上下文段落关系将每个数据块关联起来形成结构化数据,以便于后期根据关键词进行全文检索,及根据某标签内容查找相似度较大的段落,辨别查询目标在全文中的差异。另外该方法可以前端图形、文字高亮形式展现文档内容一致性校验的结果,实现对文档内容差异性的检索对比,提升文档内容核查效率,大幅度缩减数据处理时间,提升文档处理效率。该方法在管理文档类数据过程中,对内容进行读取、对比,一方面根据用户预设的关键词,校验全文中的相似内容并进行高亮标识;另一方面将两篇或多篇文档进行对比来获得其差异之处,以校验多篇文档内容数据一致性。该对药品文档进行校验的方法基于内容识别、读取,对全文内容进行结构化处理,并记录各数据块在文档中的位置,后续通过关键词、标签进行检索,可有效提高数据处理效率并降低管理成本。另外对于整个系统中单个项目所涉及的文档,依据关键词、标签,对比段落内容、多篇文档,自动进行内容比对来找出内容差异内容,并通过前端页面展示其差异之处,可大大节省人力,并降低因多篇文档数据不一致导致的注册申报失败风险。有效解决了传统方式对此类文档类数据管理和校对都是以人力采集记录、统计汇总、编辑处理为主,过度依赖用户对经验和能力进而导致数据有效性和一致性难以保障的问题。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为实施例公开的对药品文档进行校验的方法的流程示意图。
图2为实施例公开的步骤S2的具体流程示意图。
图3为实施例公开的步骤S23的具体流程示意图。
图4为实施例公开的文档内容校验显示示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明中,除非另有明确的规定和限定,此处使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明专利申请说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。同样,“一个”或者“一”等类似词语也不表示数量限制,而是表示存在至少一个。
在医药研发全过程中,项目管理、药品注册申报、实验室数据管理都会产生很多文档,传统方式对此类文档类数据管理都是以人力采集记录、统计汇总、编辑处理为主,过度依赖用户对经验和能力。而目前常规的文档处理方法大多是识别文档、读取内容后,以行的形式输出文档内容,且数据的位置没有记录,为半结构化形式,后续在检索信息以及对比查找过程中,很难做到高效执行、对资源的消耗也比较大。为大幅降低管理成本,提高文档处理效率,迫切需要一种自动识别、读取文档内容,并通过计算机技术快速的对项目文档内容一致性进行校验的方法。基于此,本实施例公开了一种对药品文档进行校验的方法,该方法基于文档内容识别、读取,将标题、段落、图表等进行数据块划分,对各数据块进行标签提取,并记录各数据块在文档内的位置,即将全文进行数据结构化处理。后续基于关键词或标签进行检索,对比多篇文档、多段落内容的差异性,通过前端页面将差异内容、差异点进行展示。如附图1所示,该对药品文档进行校验的方法具体如下。
步骤S1,对新上传药品文档进行内容识别和读取,根据文档段落和/或标题对所述药品文档进行划分形成多个独立数据块。
具体的,以项目制形式管理医药研发文档资料,根据文档类型、业务功能进行归档。同时,对每篇文档按照标题、段落形式进行拆分,形成数据块,并依据预设关键词对各数据块进行标签提取,并记录各数据块在文档内的位置,以此建立结构化数据库。可对上传的药品文档内容进行读取,获取文档内各段落和/或表格的文字内容和位置信息,并对各段落和表格进行标签提取,结构化处理后划分成多个独立数据块。
可以分别对新上传药品文档中的段落、标题、表格进行识别和分离,并对应形成第一类型数据块、第二类型数据块和第三类型数据块,其中第一类型数据块可以为段落类型数据,第二类型数据块可以为标题类型数据,第三类型数据块可以为表格类型数据。
其中药品文档可以是在药品研发过程各阶段上传的,包括但不限于在立项阶段的可行性报告、调研报告、立项申请文档,在合同启动阶段的招投标合同、研究方案文档,在工艺验证阶段的方法学转移方案文档、工艺验证方案文档。
在一些具体实施例中,在该步骤中还可包括:对上传的药品文档内容进行分析,评估上传文档完成度。具体的,包括:
步骤S101,获取药品研发过程各阶段上传的药品文档。其中药品文档包括但不限于在立项阶段的可行性报告、调研报告、立项申请文档,在合同启动阶段的招投标合同、研究方案文档,在工艺验证阶段的方法学转移方案文档、工艺验证方案文档。
步骤S102,比较上传药品文档的名称与文档模板库中对应所属阶段文档名称的相似度,若相似度大于某一阈值,则判断该文档进度已完成。其中在药品文档内容知识库中保存有各阶段应包括的文档名称及数量,比较上传文档的名称与知识库中文档名称的相似度,若相似度大于某一阈值,则认为该文档进度已完成。
步骤S103,根据药品研发过程各阶段上传的药品文档进度情况,获取药品项目进度,所述药品项目进度为所包括各阶段药品文档进度平均值。具体的,通过统计获取在特定阶段的进度状态为已完成的药品文档数量为m,在药品文档内容知识库中该阶段应包括的文档数为n,则该阶段进度为m/n*100%。计算获取每个阶段的进度,计算各阶段进度平均值即为项目进度。通过预先设置存储药品研发过程中各阶段包括但不限于立项、合同启动、小试、试生产、生物等效试验、工艺验证、申报资料整理阶段所需包含的各相应文档内容的文档名称及数量,通过将上传的文档与预设设置阶段所必需的文档名称及数量进行对比,来自动估计该药品文档所在的项目进度。
步骤S2,依据预设关键词对所述数据块设置唯一标签,并记录各数据块在该药品文档中的位置信息,依据各数据块位置信息将该药品文档包含的各数据块关联形成结构化数据单元。所述数据块包括用于精确搜索和内容分析的标签字段,和用于预览搜索结果和内容分析结果时对段落表格进行定位的位置字段。其中索结包括但不限于该数据块所属的项目id、文档名称、文字内容、在文档中的位置信息、标签以及与标签一一对应的用于数据块关联分析的标签权重。如附图2所示,该步骤具体可包括如下内容。
步骤S21,获取数据块类型,并根据数据块类型检索获取对应预设关键词。
这些数据中关键词可以提前预设,根据文档内容上下文关系对标签进行关联设置,该匹配权重可以按照需要进行设置。在识别、读取文档内容后,划分段落、标题、表格形成数据块,对各数据块进行标签提取,即对其建立唯一标识,并记录各数据块在文档内的位置,方便后续检索,以此保证文档完整性和数据查询、对比的效率。
采用基于统计的机器学习方法搜索获取上传药品文档内新词或专业术语词汇。具体的,基于上传的文档进行新词发现,以发现专业术语词汇,新词发现可以采用基于统计的监督机器学习方法,例如HMM、CRF、SVM等,也可采用无监督机器学习方法实现。
将发现的新词及用户上传的自定义词典中的词语加入到分词器的词典,对文档各标题、段落和/或表格的内容进行分词,去除停用词,将获得的各词语作为段落表格的标签字段。分词可以采用基于匹配的算法、HMM模型算法、N-gram模型算法来实现。其具体可包括:
步骤S201,将发现的新词及用户上传的自定义词典中的词语加入到分词器的词典。
步骤S202,对文档段落表格内容进行分词,去除停用词,将获得的各词语作为段落表格的标签字段。
步骤S203,对各段落表格所属的章节标题,文档标题进行分词,通过IFIDF算法计算各词权重,提取权重大于预设阈值的词语作为关键词加入到相应段落表格标签中。具体的,对各段落表格所属的章节标题、文档标题进行分词,通过IFIDF算法计算各词语权重,提取权重大于某一阈值的词语作为关键词,加入到相应的段落表格标签中;此处的权重阈值可以选取整篇文档内容所有分词的权重平均值,也可以根据用户需求进行预先设定。
步骤S22,依据预设关键词对所述数据块设置唯一标签,并记录各数据块在该药品文档中的位置信息。
将具有标签字段的各数据块或其所属的结构化数据单元存储到搜索引擎中。其中数据块包括标签字段和位置字段,其中标签字段,用于精确搜索、内容分析。位置字段,用于预览搜索结果和内容分析结果时对段落表格进行定位。
该结构化的数据块在Elasticsearch中的数据格式如下:
"projectId": {
"type": "keyword"
},
"fileName": {
"analyzer": "ik_max_word",
"type": "text"
},
"text": {
"analyzer": "ik_max_word",
"type": "text"
},
"location": {
"type": "keyword"
},
"tags": {
"analyzer": "whitespace",
"search_analyzer": "whitespace",
"type": "text"
},
"textType": {
"type": "keyword"
},
"weights": {
"analyzer": "whitespace",
"type": "text"
}
其中,projectId为该数据块所属的项目id。fileName为该数据块所属的文档名称。text为该数据块的文字内容,用于预览搜索结果和内容分析结果时对段落表格进行还原。location为该数据块在文档中的位置信息,用于预览搜索结果和内容分析结果时对段落表格进行定位。tags为该数据块的标签用于精确搜索、内容分析。textType为该数据块的类型,是段落还是表格。weights为该数据块的标签权重,与标签一一对应,用于数据块的关联分析,标签权重采用词频*逆文档频率。通过结构化数据块的标签,可对段落表格内容进行精确搜索。可以输入若干个搜索词,通过查找与搜索词完全匹配的数据块标签,可以定位到相应的段落表格。将搜索结果传输给用户使用层浏览器,用户可以在内容预览界面查看搜索结果,搜索词高亮显示。
通过按项目名称、文档类型、段落、标题划分,对其进行标签提取,并记录各数据块在文档内的位置。这种结构化数据的方式不仅保留了文档完整性,同时能快速检索局部信息,对细枝末节进行快速校验。数据结构化的具有多个优点;数据处理效率高,将文档进行划分并记录各数据块在文档中的位置,能有效提高检索和对比数据处理的效率;并且由于对文档管理的粒度更细,记录各数据块在文档中的位置对各部分的权限控制能更灵活;另外数据处理效率提高、文档权限管理更优化,以促进减少人力、时间等管理成本。
步骤S23,将数据库中的各结构化数据单元所包含的数据块标签与新上传药品文档的结构化数据单元所包含的数据块标签进行相似度计算,根据相似度确定各结构化数据单元和/或各数据块间关联关系。结构化数据单元间或各数据块间的关联关系分析可用于分析药品项目中所有药品文档包含的段落表格内容间的关联关系。药品研发申报过程中的药品文档都具有很强的相关性,同样的内容数据可能出现在各阶段的不同药品文档中。文档内容的关联分析可以便于检查审核关联内容的一致性,及其变化情况,跟踪同一试验内容或结果。具体的,如附图3所示,该步骤可包括如下内容。
步骤S231,从搜索引擎中查询出所有已保存的结构化数据单元,提取各结构化数据单元所包含的数据块标签。
步骤S232,通过各数据块标签计算新上传结构化数据单元与已保存结构化数据单元间的相似度指标。具体的,可通过数据单元标签字段计算各数据块的相似度,相似度算法可以采用Jaccard距离,词袋模型加余弦距离,SimHash加Hamming距离等算法。在本实施例中,优选使用带权重的Jaccard距离作为相似度。具体的,若计算数据单元a和数据单元b的相似度,其相似度计算过程如下:设定a的各标签形成集合A,b的各标签形成集合B,求A和B的交集。查出每个交集元素在a中的权重wia1、wia2... wian,在b中的权重wib1、wib2...wibn,获取A和B的并集,查出每个并集元素在a中的权重wua1、wua2... wuan,在b中的权重wub1、wub2...wubn,若A或B中没有并集中的某元素,则该元素在a或b中的权重为0,带权重的Jaccard距离为(wia1+wia2+...+wian+wib1+wib2+...+wibn)/(wua1+wua2+...+wuan+wub1+wub2+...+wubn),将其作为数据块a和数据块b的相似度指标。
步骤S233,选择相似度大于预设阈值的结构化数据单元作为关联数据单元,将数据单元的关联关系及相似度指标保存到系统数据库中。或者,选择相似度大于预设阈值的数据块作为关联数据块,将各数据块间的关联关系及相似度指标保存到系统数据库中。其中该预设阈值可以根据各需求或前期相似度分析结果进行设定或调整。例如需要获取更多关联数据,即可将阈值调小。如需获取跟精确相似度更高数据,可将阈值适当调大。
步骤S234,通过各数据块标签计算新上传结构化数据单元中的各数据块与已保存结构化数据单元中的各数据块的相似度指标;选择相似度大于预设阈值的数据块作为关联数据块,将数据块的关联关系及相似度指标保存到系统数据库中。
每当有新上传的药品文档或文档的新版本,可计算新上传的结构化数据单元所包含的各数据块与已存储的原有各结构化数据单元中的各数据块的关联关系,更新数据库中保存的关联关系。当用户在进行文档内容预览或查看搜索结果时,可以选择某一个段落或表格,查看与其关联的段落或表格。
步骤S3,从数据库中搜索获取新上传药品文档对应的至少一个历史版本文档,将所述上传药品文档的数据块依据其位置信息依次与历史版本文档中的对应数据块进行对比,筛选新增和/或删除和/或修改的数据块。对比两篇或多篇文档,依据关键词、段落内容对比,找出新增内容、修改内容、删除内容,及时给出校验结果。
例如在医药注册申报过程中,存在一份文档有多次更新的情况,多版本之间必然存在新增、修改以及删除的内容,为快速找到多版本之间的差异性,需进行一致性校验。在对该药品文档进行校验时,将项目内所有文档内容以标题、段落、表格为基础数据单元形式,对文档进行划分,并进行标签提取,记录各数据块在文档内的位置,形成结构化数据,以此能快速对比找出多篇文档之间的差异,并进行快速定位。
具体的,将文档内容一致性校验的结果,通过前端页面进行展示如下,例如附图4所示的校验结果页面。例如为校验文档A和文档B内容一致性,将其进行差异性对比。即通过记录各数据块,包括标题、段落内容和表格的在文档内的位置,对比A和B内容后,对文档内的新增内容、修改内容和删除内容进行定位,然后高亮的形式展示,并通过点击差异点可快速定位到内容页面,查看其详细信息。
在一些具体实施例中,对药品文档进行校验的方法还可包括步骤S4,获取所识别的药品文档内容所在数据块位置信息和对应标签,根据位置信息检索该药品文档,与所选取文档内容进行比对,快速定位到相应的文档段落位置,并根据相似度高低进行排序。
可以是直接在药品文档上框选某段落。在判断输入设备的动作为对药品文档一段落框选后。获取所框选段落所在数据块位置信息和对应标签,根据位置信息检索该药品文档。通过查找相似内容的操作,进行全文检索,找出项目中与此段内容相似的所有文档内容,每段内容都经过内容识别并按照所记录的数据内容在文档中的位置,进行一一比对,按同样内容占总内容比重的算法获得相似比,并根据比重大小进行排序,且对其中所包含的预设关键词进行高亮显示。
或者也可对所需要查找的内容进行划词选取。在判断输入设备的动作为对某一短语或词语为文本的查找请求时。获取所框选短语或词语所在数据块位置信息和对应标签,根据位置信息检索该药品文档。通过查找相似内容的操作,进行全文检索,找出项目中与此段内容相似的所有文档内容,每段内容都经过内容识别并按照所记录的数据内容在文档中的位置,进行一一比对,按同样内容占总内容比重的算法获得相似比,并根据比重大小进行相似度排序,且对其中所包含的预设关键词进行高亮显示。
上述实施例公开的对药品文档进行校验的方法基于内容识别技术,可将doc、docx、pdf类药品文档中的段落内容作为测试对象,通过结合预设关键词为每个数据块设置唯一标签,并根据文档上下文段落关系将每个数据块关联起来形成结构化数据,以便于后期根据关键词进行全文检索,及根据某标签内容查找相似度较大的段落,辨别查询目标在全文中的差异。另外该方法可以前端图形、文字高亮形式展现文档内容一致性校验的结果,实现对文档内容差异性的检索对比,提升文档内容核查效率,大幅度缩减数据处理时间,提升文档处理效率。该方法在管理文档类数据过程中,对内容进行读取、对比,一方面根据用户预设的关键词,校验全文中的相似内容并进行高亮标识;另一方面将两篇或多篇文档进行对比来获得其差异之处,以校验多篇文档内容数据一致性。该对药品文档进行校验的方法基于内容识别、读取,对全文内容进行结构化处理,并记录各数据块在文档中的位置,后续通过关键词、标签进行检索,可有效提高数据处理效率并降低管理成本。另外对于整个系统中单个项目所涉及的文档,依据关键词、标签,对比段落内容、多篇文档,自动进行内容比对来找出内容差异内容,并通过前端页面展示其差异之处,可大大节省人力,并降低因多篇文档数据不一致导致的注册申报失败风险。有效解决了传统方式对此类文档类数据管理和校对都是以人力采集记录、统计汇总、编辑处理为主,过度依赖用户对经验和能力进而导致数据有效性和一致性难以保障的问题。
本发明还提供了一种药品文档校验系统,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述各实施例中描述的对药品文档进行校验的方法的各个步骤。所述药品文档校验系统可包括但不仅限于处理器、存储器。本领域技术人员可以理解,所述示意图仅仅是对药品文档校验系统的示例,并不构成对药品文档校验系统设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述药品文档校验系统设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述药品研发申报文档管理系统设备的控制中心,利用各种接口和线路连接整个药品研发申报文档管理系统设备的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述对药品研发申报文档管理系统设备的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(FlashCard)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
所述对药品研发申报文档管理方法如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个实现负载均衡的任务调度管理方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
总之,以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所作的均等变化与修饰,皆应属本发明专利的涵盖范围。

Claims (10)

1.一种对药品文档进行校验的方法,其特征在于,包括:
S1,对新上传药品文档进行内容识别和读取,根据文档段落和/或标题对所述药品文档进行划分形成多个独立数据块;
S2,依据预设关键词对所述数据块设置唯一标签,并记录各数据块在该药品文档中的位置信息,依据各数据块位置信息将该药品文档包含的各数据块关联形成结构化数据单元;
S3,从数据库中搜索获取新上传药品文档对应的至少一个历史版本文档,将所述上传药品文档的数据块依据其位置信息依次与历史版本文档中的对应数据块进行对比,筛选新增和/或删除和/或修改的数据块。
2.根据权利要求1所述的对药品文档进行校验的方法,其特征在于,所述步骤S1具体包括:
对上传的药品文档内容进行读取,获取文档内各段落和/或表格的文字内容和位置信息,并对各段落和表格进行标签提取,结构化处理后划分成多个独立数据块。
3.根据权利要求2所述的对药品文档进行校验的方法,其特征在于,所述步骤S1还包括:
分别对新上传药品文档中的段落、标题、表格进行识别和分离,并对应形成第一类型数据块、第二类型数据块和第三类型数据块。
4.根据权利要求3所述的对药品文档进行校验的方法,其特征在于,所述步骤S2还包括:
S21,获取数据块类型,并根据数据块类型检索获取对应预设关键词;
S22,依据预设关键词对所述数据块设置唯一标签,并记录各数据块在该药品文档中的位置信息。
5.根据权利要求4所述的对药品文档进行校验的方法,其特征在于,所述步骤S2还包括:
S23,将数据库中的各结构化数据单元所包含的数据块标签与新上传药品文档的结构化数据单元所包含的数据块标签进行相似度计算,根据相似度确定各结构化数据单元和/或各数据块间关联关系。
6.根据权利要求5所述的对药品文档进行校验的方法,其特征在于,所述步骤S23还包括:
S231,从搜索引擎中查询出所有已保存的结构化数据单元,提取各结构化数据单元所包含的数据块标签;
S232,通过各数据块标签计算新上传结构化数据单元与已保存结构化数据单元间的相似度指标;
S233,选择相似度大于预设阈值的结构化数据单元作为关联数据单元,将数据单元的关联关系及相似度指标保存到系统数据库中。
7.根据权利要求6所述的对药品文档进行校验的方法,其特征在于,所述步骤S23还包括:
S234,通过各数据块标签计算新上传结构化数据单元中的各数据块与已保存结构化数据单元中的各数据块的相似度指标;选择相似度大于预设阈值的数据块作为关联数据块,将数据块的关联关系及相似度指标保存到系统数据库中。
8.根据权利要求7所述的对药品文档进行校验的方法,其特征在于,还包括:
S4,获取所识别的药品文档内容所在数据块位置信息和对应标签,根据位置信息检索该药品文档,与所选取文档内容进行比对,快速定位到相应的文档段落位置,并根据相似度高低进行排序。
9.一种药品文档校验系统,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于:所述处理器执行所述计算机程序时实现如权利要求1-8任一所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1-8任一所述方法的步骤。
CN202010445811.8A 2020-05-25 2020-05-25 一种对药品文档进行校验的方法和药品文档校验系统 Pending CN111382184A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010445811.8A CN111382184A (zh) 2020-05-25 2020-05-25 一种对药品文档进行校验的方法和药品文档校验系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010445811.8A CN111382184A (zh) 2020-05-25 2020-05-25 一种对药品文档进行校验的方法和药品文档校验系统

Publications (1)

Publication Number Publication Date
CN111382184A true CN111382184A (zh) 2020-07-07

Family

ID=71222104

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010445811.8A Pending CN111382184A (zh) 2020-05-25 2020-05-25 一种对药品文档进行校验的方法和药品文档校验系统

Country Status (1)

Country Link
CN (1) CN111382184A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112214977A (zh) * 2020-07-28 2021-01-12 浙江明度智控科技有限公司 一种用于医药行业的表格差异化内容分析方法、系统和存储介质
CN113094508A (zh) * 2021-04-27 2021-07-09 平安普惠企业管理有限公司 数据检测方法、装置、计算机设备和存储介质
CN113254598A (zh) * 2021-06-23 2021-08-13 中国银行股份有限公司 文档比对方法、装置、服务器、介质及产品
CN114490510A (zh) * 2021-12-24 2022-05-13 杭州趣链科技有限公司 文本流归档方法、装置、计算机设备及存储介质
CN115329169A (zh) * 2022-06-27 2022-11-11 海南电网有限责任公司信息通信分公司 一种基于深度神经模型的档案归档计算方法
US20230351096A1 (en) * 2022-04-29 2023-11-02 Adobe Inc. Dynamic persona-based document navigation

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105679319A (zh) * 2015-12-29 2016-06-15 百度在线网络技术(北京)有限公司 语音识别处理方法及装置
CN108563747A (zh) * 2018-04-13 2018-09-21 北京深度智耀科技有限公司 一种文档处理方法及装置
CN109710466A (zh) * 2019-01-03 2019-05-03 浪潮商用机器有限公司 一种数据备份方法及装置
CN109740124A (zh) * 2018-12-25 2019-05-10 东软集团股份有限公司 文档比较的差异输出方法、装置、存储介质及电子设备
US20200073890A1 (en) * 2018-08-22 2020-03-05 Three10 Solutions, Inc. Intelligent search platforms

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105679319A (zh) * 2015-12-29 2016-06-15 百度在线网络技术(北京)有限公司 语音识别处理方法及装置
CN108563747A (zh) * 2018-04-13 2018-09-21 北京深度智耀科技有限公司 一种文档处理方法及装置
US20200073890A1 (en) * 2018-08-22 2020-03-05 Three10 Solutions, Inc. Intelligent search platforms
CN109740124A (zh) * 2018-12-25 2019-05-10 东软集团股份有限公司 文档比较的差异输出方法、装置、存储介质及电子设备
CN109710466A (zh) * 2019-01-03 2019-05-03 浪潮商用机器有限公司 一种数据备份方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李敬民等: "《中州传统音乐资料数据库研究的理论与实践》", 31 July 2014, 河南大学出版社 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112214977A (zh) * 2020-07-28 2021-01-12 浙江明度智控科技有限公司 一种用于医药行业的表格差异化内容分析方法、系统和存储介质
CN112214977B (zh) * 2020-07-28 2024-04-19 明度智云(浙江)科技有限公司 一种用于医药行业的表格差异化内容分析方法、系统和存储介质
CN113094508A (zh) * 2021-04-27 2021-07-09 平安普惠企业管理有限公司 数据检测方法、装置、计算机设备和存储介质
CN113254598A (zh) * 2021-06-23 2021-08-13 中国银行股份有限公司 文档比对方法、装置、服务器、介质及产品
CN113254598B (zh) * 2021-06-23 2024-02-20 中国银行股份有限公司 文档比对方法、装置、服务器、介质及产品
CN114490510A (zh) * 2021-12-24 2022-05-13 杭州趣链科技有限公司 文本流归档方法、装置、计算机设备及存储介质
US20230351096A1 (en) * 2022-04-29 2023-11-02 Adobe Inc. Dynamic persona-based document navigation
US11907643B2 (en) * 2022-04-29 2024-02-20 Adobe Inc. Dynamic persona-based document navigation
CN115329169A (zh) * 2022-06-27 2022-11-11 海南电网有限责任公司信息通信分公司 一种基于深度神经模型的档案归档计算方法
CN115329169B (zh) * 2022-06-27 2023-10-20 海南电网有限责任公司信息通信分公司 一种基于深度神经模型的档案归档计算方法

Similar Documents

Publication Publication Date Title
CN111382184A (zh) 一种对药品文档进行校验的方法和药品文档校验系统
CN109992645B (zh) 一种基于文本数据的资料管理系统及方法
CN110765770B (zh) 一种合同自动生成方法及装置
US9418144B2 (en) Similar document detection and electronic discovery
US20220237230A1 (en) System and method for automated file reporting
CN111353004A (zh) 一种药品文档的数据关联分析方法和系统
CN102053991B (zh) 用于多语言文档检索的方法及系统
US20110103699A1 (en) Image metadata propagation
US8606780B2 (en) Image re-rank based on image annotations
CN109145110B (zh) 标签查询方法和装置
CN111353005A (zh) 一种药品研发申报文档管理方法和系统
US8626737B1 (en) Method and apparatus for processing electronically stored information for electronic discovery
CN111506727B (zh) 文本内容类别获取方法、装置、计算机设备和存储介质
KR101577376B1 (ko) 텍스트 기준점 기반의 저작권 침해 판단 시스템 및 그 방법
US11397756B2 (en) Data archiving method and computing device implementing same
KR100876214B1 (ko) 문맥기반 광고 장치와 그 방법 및 이를 구현할 수 있는컴퓨터로 읽을 수 있는 기록 매체
CN116719785A (zh) 一种基于元数据的数据库管理系统
CN111881294B (zh) 一种语料标注系统、方法及存储介质
CN117421333A (zh) 一种企业文档库构建和检索方法及系统
CN112200212A (zh) 一种基于人工智能的企业物资分类目录构建方法
CN110442614B (zh) 元数据的搜索方法及装置、电子设备、存储介质
CN111859042A (zh) 一种检索方法、装置及电子设备
CN113806311B (zh) 基于深度学习的文件分类方法、装置、电子设备及介质
Tang et al. One person labels one million images
Liang et al. SLAX: An improved leaf-clustering based approximate XML join algorithm for integrating XML data at subtree classes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200707