CN115512376A - 生命科学文档的自动分类和解释 - Google Patents

生命科学文档的自动分类和解释 Download PDF

Info

Publication number
CN115512376A
CN115512376A CN202210637798.5A CN202210637798A CN115512376A CN 115512376 A CN115512376 A CN 115512376A CN 202210637798 A CN202210637798 A CN 202210637798A CN 115512376 A CN115512376 A CN 115512376A
Authority
CN
China
Prior art keywords
document
documents
life science
computer
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210637798.5A
Other languages
English (en)
Inventor
加里·道格拉斯·肖特
巴里·马修·阿伦斯
诺埃尔·百利·本·阿卜杜拉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Iqvia Inc
Original Assignee
IMS Health Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US17/339,334 external-priority patent/US20210295031A1/en
Application filed by IMS Health Inc filed Critical IMS Health Inc
Publication of CN115512376A publication Critical patent/CN115512376A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)
  • Facsimiles In General (AREA)

Abstract

描述了一种计算机实施的用于执行生命科学文档的质量审查的方法。一个或更多个生命科学文档由移动设备扫描,其中一个或更多个生命科学文档被发送到数据库。生命科学文档中检查的内容包括语言、图像、旋转和噪音,其中检查一个或更多个生命科学文档之间的相似性、可疑更改、文档布局和缺失部分。此外,基于有关成像、旋转和噪声以及相似性、可疑更改、文档布局和缺失部分的内容,系统向生命科学文档的创始人发送反馈。

Description

生命科学文档的自动分类和解释
相关申请的交叉引用
本申请是2020年12月4日提交的标题为“生命科学文档的自动分类和解释”的美国序列号17/112,322的部分继续申请,该申请是2020年10月14日提交的标题为“生命科学文档的自动分类和解释”的美国序列号17/070,533的部分继续申请,它是2019年3月1日提交的标题为“生命科学文档的自动分类和解释”的美国序列号16/289,729的继续申请,现为美国专利号10,839,205,其全部内容通过引用并入本文。
背景技术
自动分类通常用于有效地管理文档中的文本、图像和非结构化信息。自动分类也称为归类、聚类或文本分类,通常使文档能够基于一组预定义的种类或类别进行划分和组织,以快速且轻松地检索信息。
发明内容
一种计算机实施的工具,用于自动分类和解释文档(诸如支持临床试验的生命科学文档),被配置为执行文本、文档结构和图像分析的组合,以通过实现对文档内容的更全面的基于机器的理解来提高分类准确性。与传统的自动分类工具相比,该分析组合通过利用文本与图像元素之间的空间关系、识别元素的特征和格式以及从文档中提取附加的元数据,而为分类提供了上下文。
文本分析识别原始文本及其在文档中的大致位置。在某些实现中,可以选择性地追踪文本序列。通过识别相关的上下文,诸如空间结构信息(例如图像在页面上的位置;页眉、页脚和标题中的文本的位置;表格中的行和列的使用等)和格式化(例如加粗、倾斜、字体、文本大小等),文档结构分析为自动分类和解释工具提供了对文档的附加理解。文档结构分析还可以通过追踪与任一侧的文档元素相邻的文本来维持文档元素之间的连接关系。图像分析针对图形内容,诸如徽标、图解、图表和表格、插图说明等,以提取附加的上下文,从而进一步加深对文档的基于机器的理解。
尽管可以在一些有限的分类实现中,单独使用文本分析来获得令人满意的结果,但是通常不将结构分析和图像分析配置为针对文档分类的单独操作。然而,这三种分析的组合通过协同操作来帮助消除文档类别之间的歧义,从而提高分类准确性,在某些情况下文档类别可能很多且具有细微的区别。分析的组合通过使用已识别的相关上下文提供附加的含义区分文档类别,这使得原本模糊的文档文本可以有效地用于分类目的。
在各种例示性示例中,自动分类和解释工具被配置为将机器学习应用于由历史分类文档训练的人工智能(AI)引擎。AI引擎可以通过自动分类和解释工具访问,或者全部或部分合并到该工具中,并用于整体或部分地执行组合的文本分析、文档结构分析和图像分析。人工操作员可以通过自动分类和解释工具上显示的用户界面(UI)对分析算法进行调整。这些调整可用于改善自动文档的分类和解释,并且可用作机器学习输入,以总体上改善分类和解释工具的性能。
支持自动分类和解释工具的计算设备可以包含图像捕获设备,诸如照相机或扫描仪、或者被配置为与用于数字化生命科学文档的离散图像捕获设备进行交互操作。该工具可以在现场进行操作,以应用文本分析、文档结构分析和图像分析,从而向人工操作员提供已被捕获的文档的实时分类反馈。在一些实现方式中,实时分类反馈可以包括已被捕获的文档的建议分类以及相关联的元数据。操作员可以审查该建议文档分类和元数据,并通过UI提供批准或更正。更正可以被用作机器学习输入,以提高自动分类和解释工具的准确性。
所述计算机实施的自动分类和解释工具通过提供提高的分类准确性来提供对其所执行的计算设备的基础操作的改进。更具体地,原始文本分析、文档结构分析和图像分析的组合使用,能够通过提高机器的知识深度,实现有效利用处理周期、内存需求和网络带宽以产生更准确的分类,从而减少对执行手动重新分类或丢弃不准确的分类结果的需求。自动分类和解释工具还可以提高计算设备上的人机界面的效率,因为该工具可以更准确地对生命科学文档进行分类,这提高了后续计算机辅助文档搜索和检索的效率。
本发明内容以简化的形式提供以介绍一些概念,这些概念将在下面的具体实施方式中进一步描述。发明内容既不旨在标识所要求保护的主题的关键特征或必要特征,其也不旨在用于帮助确定所要求保护的主题的范围。此外,所要求保护的主题不限于解决在本公开的任何部分中指出的任何或所有缺点的实现方式。将意识到的是,上述主题可以被实现为计算机控制的装置、计算机处理器、计算系统、或者诸如一种或更多种计算机可读存储介质之类的制造品。通过阅读以下具体实施方式并查看相关附图,这些和各种其他特征将变得显而易见。
附图说明
图1示出了计算环境,在该计算环境中,计算机实施的自动分类和解释工具在计算设备上执行;
图2示出了例示性分类模型,在该模型下,生命科学文档被分类为试验主文档(TMF)的一部分;
图3示出了在计算设备上执行的计算机实施的自动分类和解释工具的例示性细节;
图4示出了在计算机实施的自动分类和解释工具的操作期间与组合应用的分析相关联的例示性数据结构;
图5和图6示出了可归入TMF的例示性生命科学文档;
图7示出了文本分析过程的例示性操作细节;
图8示出了结构分析过程的例示性操作细节;
图9示出了图像分析过程的例示性操作细节;
图10A-图10C示出了生命科学文档的质量审查;
图11A-图11D示出了生命科学文档的自动反馈;
图12A-图12B示出了用于生命科学文档的多语言NLG文档创建器;
图13是示出例示性分类过程的流程图;
图14示出了对在计算机实施的自动分类和解释工具上操作的过程的例示性手动调整,其可以用作机器学习输入;
图15示出了由自动分类和解释工具提供给人工操作员的例示性实时分类反馈;
图16、图17和图18示出了例示性方法;以及
图19是可以至少部分地用于实现生命科学文档的本自动分类和解释的说明性计算设备的框图。
图中相同的附图标记表示相同的元件,除非另有说明,否则元件未按比例绘制。
具体实施方式
图1示出了例示性计算环境100,在该计算环境中,人工操作员105使用计算设备110,该计算设备110被配置为支持计算机实施的自动分类和解释工具115。该工具例如可以作为在计算设备上执行的软件应用程序被实施。在可替代实施方式中,根据生命科学文档的当前自动分类和解释的特定实施方式的需要,自动分类和解释工具可以通过使用硬件、固件或其组合来实施。自动分类和解释工具可以与可实现人工智能(AI)引擎120接口或直接结合,该人工智能引擎120可以例如使用神经或深度学习网络、专家系统或被配置成用于机器学习的其他合适的系统来实施。
计算设备110包括电子设备,诸如个人计算机、服务器、手持设备、工作站、多媒体控制台、智能手机、平板计算机、膝上型计算机等。在后续的讨论中,术语“计算设备”的使用旨在涵盖执行某些计算操作的所有电子设备,无论它们是在本地、远程地还是通过本地和远程操作的组合来实施的。
自动分类和解释工具115可以被配置为可选地通过通信网络链路125与远程计算设备、资源或服务130进行通信。虽然该例示性示例采用了本地计算设备110处的处理(如附图标记140所示),应该注意的是,也可以使用其他处理分配和布置。例如,自动分类和解释工具可以实例化为远程或基于云的应用程序。本地处理140和远程处理(如附图标记150所示)的多种组合可以被实施,以与已知的自动分类和解释工具实施方式相适配。
通信网络链路125可以通过各种组合或子组合中的各种网络类型和网络基础设施中的任何一种实现,包括局域网(LAN)、广域网(WAN)、蜂窝网络、卫星网络、IP(互联网协议)网络(诸如IEEE 802.11下的Wi-Fi和IEEE 802.3下的以太网)、公共交换电话网(PSTN)和/或短距离网络(诸如
Figure BDA0003679779010000051
网络)。网络基础结构可以由诸如移动运营商、企业、互联网服务提供商(ISP)、电话服务提供商、数据服务提供商等支持。通信网络链路125可以利用互联网的部分(未示出)或者包含支持与互联网的连接的接口,从而使得计算设备110可以访问数据或内容和/或提供由远程服务提供商和/或其他服务提供商(未示出)支持的用户体验。
在计算环境中,可以利用各种图像捕获设备155来捕获如下所述被解构的生命科学文档的图像。图像捕获设备可以是诸如相机或扫描仪之类的独立设备,或者可以被合并入其他计算设备110中。图像捕获设备可以本地或远程地部署。例如,图像可以在远程工作站点被捕获并传输到本地计算设备110或传输到基于云的存储服务,然后由计算设备通过网络链路进行访问。可替代地,计算设备和图像捕获设备可以同地协作。
图2示出了例示性分类模型205,在该模型下,生命科学文档160可以被分类为试验主文档(TMF)215的一部分。生命科学行业通常需要遵守监管机构对其临床试验的设计、实施、记录和报告进行监督的要求。检查人员对TMF进行检查,以证明申办者、试验监督员和研究人员对适用标准和监管要求的遵守情况。TMF是生命科学文档的集合,其通常允许评估临床试验的合规性和所产生的质量。要注意的是,术语“生命科学文档”对通常收集在TMF中的文档具有普遍适用性。
TMF 215是由不同种类或类别的生命科学文档220……225构成的。在某些实施方式中,各种子类别230和内容235也可以被包含在TMF中或在使用TMF的分类系统之外的分类系统中使用。在某些情况下,可以组织TMF以包括由药物信息协会(Drug InformationAssociation,DIA)定义的种类或类别。
图3示出了在计算设备110上执行的计算机实施的自动分类和解释工具115的例示性细节。该工具的输入包括生命科学文档160,以及来自该工具的输出包括分别适用于文档160中的每个文档的类别标签330和事件标签335。类别标签对类别220……225(或者子类别或适当的内容)进行识别,生命科学通过工具的操作被归入这些类别中。事件标签对该工具解释为对事件、动作和/或触发器具有意义的文档中的对象进行识别。例如,事件标签可以对与安全问题、法规因素、数据管理以及与文档内容相关联的其他信息有关的文档内容进行识别。
计算机实施的自动分类和解释工具115包括被配置为用于文档解构305、文本分析310、文档结构分析315、图像分析320以及分类和解释分析325的功能。分类和解释分析可通过分类模型205和解释模型340来支持,该分类模型和解释模型被实施为自动分类和解释工具115的一部分,或者在其他计算设备上作为数据库或资源在外部实施。
文档解构305包括将捕获的生命科学文档160转换为数字化形式,该数字化形式在所有文档上使用标准化数据结构,例如使用XML(eXtensible Markup Language,可扩展标记语言)或其他合适的表示。在通常的实施方式中,源材料的质量可能存在很大的差异。因此,文档解构可以应用各种技术来容纳数字化过程中的噪声和不期望的伪影,从而提高自动分类和解释工具115的输入的质量。在某些情况下,可以为输入生命科学文档收集诸如元数据之类的相关的描述性信息,并进行存储,这样的信息可以用于例如TMF管理和其他目的。
图4示出了分别与文本分析、文档结构分析和图像分析相关联的例示性数据结构,该文本分析、文档结构分析和图像分析在计算机实施的自动分类和解释工具115的操作期间被组合应用。生命科学文档文本结构405支持文本分析310,以实现通常在不考虑序列上下文的情况下(即,使用“词袋(bag ofwords)”方法)从生命科学文档160(图1)中识别原始文本。但是,在该工具的某些实施方式中,可以追踪和利用文本序列。
生命科学文档基础元数据结构410支持文档结构分析315,以实现文档上下文的利用,诸如文档元素的空间构造信息(例如图像在页面上的位置;文本在页眉、页脚、标题中的位置;表格中行和列的使用等)和格式化(例如,加粗、倾斜、字体、文本大小等)。文档结构分析还可以通过追踪与任一侧的文档元素相邻的文本来维持文档元素之间的连接。文档图像结构415支持图像分析320,以使诸如徽标、图解、图表和表格、说明文字等的图形内容能够提取附加的上下文,从而进一步加深对生命科学文档的基于机器的理解。
现在介绍将文本分析、文档结构分析和图像分析应用于生命科学文档的例示性示例。图5和图6示出了可以在TMF中分类的例示性生命科学文档。图5示出了例示性协议概要505,并且图6示出了例示性知情同意表605。与示例的呈现无关的细节已从生命科学文档505和605中被修改。该示例中的文档在DIA指导下被不同地分类,但是每个文档都具有包括“研究(study)”一词的相似的文本内容。下面的讨论说明了当前的计算机实施的自动分类和解释工具以及文本分析、文档结构分析和图像分析的组合的应用是如何实现消除模糊并精确分类文档的。
对于数字化的临床试验协议,可以提取部分。因此,通过使用结构化库、结构化模块和风险评估方法以及文本分析、文档结构分析和图像分析来应用自动化协议数字化、模块化和监控风险。自然语言处理(NLP)和机器学习(ML)可用于创建特定模块。
如图7所示,文本分析310包括在不考虑格式的情况下对原始文本的分析(如附图标记705所示)。如上所述,在一些实施方式中,可以选择性地利用文本序列(710)以提供附加的上下文。在这里,例如,文本分析识别的词语“研究”被包括在知情同意文档605中。
如图8所示,文档结构分析315包括分析诸如文本和图像的文档元素的相对空间位置(805),还分析了元素特征(810),包括文本字体、大小和格式(例如,加粗、倾斜、下划线、下标、上标等)。还可以使用例如“最近邻居”概念,通过保持元素的连接位置与发生在之前和之后的文本信息相关,来分析上下文连接关系(815)。这种内容连接允许理解文档元素(例如,图像)相对于其在文档内的位置的相关性。
在该示例中,文档结构分析315将协议概要文档505中的词语“研究”(study)识别为使用加粗字体位于文档的第一页的顶部。文档结构分析315进一步识别了文档结构包括位于具有相邻文本“研究标题”的表格中的单元格中的词语。这些特征构成元数据,以提供附加的上下文,从而使得计算机实施的自动分类和解释工具能够获得对协议概要文档505更深入的理解,进而消除其与知情同意文档605的歧义(图6)。
如图9所示,图像分析320包括分析文档中的图像以生成附加的元数据,从而辅助文档分类和解释(905)。图像在文档中的位置也可以被识别(910)。在一些实施方式中,图像到文本的转换(915)可以被应用于创建可能包含在图像中的文本元素的数字化。在该示例中,图像分析识别手写的“湿墨”签名920和日期925,以验证知情同意文档已签名。在某些情况下,签名和日期可以被转换为数字化表示。图像分析还可以促进对图形公司徽标930的理解,以使得能够进一步理解拥有文档的实体。
在一个示例中,结构化库方法可以应用于文本分析310、文档结构分析315和图像分析320。可以收集关键元数据,能够收集可以清楚识别协议的关键字段,例如文本、图像和结构,以及日期、作者和制药公司等区域。可以应用ML模型将协议内容分类为相似性集群。ML模型可以识别带有生命科学文件的新协议是否是实际上的新协议、先前协议的重复还是先前协议的修改。随着新协议进入其数字结构,ML模型可以为新协议提供TOC对齐。还可能存在构建算法的需要,其中特定算法位于协议内。在其他示例中,也可以与其他生命科学文档进行比较。
通过结构化模块方法,自然语言处理(NLP)功能可被用于查找相关文本,并将文本与标记关联。特定模块所需的文本的部分通过模块算法被识别。NLP还可以被用于与研究信息提取、启动信息提取和操作信息提取。此外,NLP可以被用于统计操作信息和医疗信息。除此之外,可以创建子模块内容,该子模块内容包括患者负担、风险因素、安全因素和监管因素。
关于风险评估方法,可以执行关联分析,在这种情况下,可以识别出正常预期结构之外存在相似之处的情况。也可能发生文本元素的去标识化,例如名称、地址、药物和任何特定公司。此外,还可以对图像和徽标进行去标识化。协议之间差异的标记可能会出现。协议之间的模块化相似性也可以被识别。临床试验数据和操作风险可以被审查。此外,使用这些模块,风险领域可以被突出和识别,其中生物标志物可以与更高程度的风险相关联。除此之外,鉴于上述的结构库和结构模块,可以识别协议修改中的变化。因此,利用新的修改,可以识别风险的变化。此外,突出这些风险有助于专注于立即采取动作。一旦发生人工审核并导致编辑,系统可以将信息反馈到NLP数据库以进行进一步更新和其他编辑。
图10A示出了生命科学文档的质量审查1000。iphone 1010扫描接收的新生命科学文档1015,并将生命科学文档发送到数据库。每一份生命科学文档都经过数字化1020,并创建了唯一ID。文档IQXML结构、完整的元数据和生命科学文档的图像被数字化。这样,生命科学文档的唯一密钥ID 1030由此从生命科学文档的数字化1020创建。唯一ID 1030被应用于iphone数据库1040。用户可以在现场再次使用iphone 1010。因此,当iphone 1010扫描用户以前看过的旧文档时,唯一ID 1030立即提醒用户该文档具有唯一密钥ID 1030。
图10B示出了质量审查1000如何涉及检查生命科学文档的内容。iphone 1010可以涉及扫描生命科学文件1015。文档被数字化1020。检查文档的内容1035。内容1035可以包括旋转、图像分割、日期检查、签名检查和页数检查。内容1035还可以包括噪声检查、每个文档内的基本语言、私人数据、手写检查和文本可读性检查。文档布局1045还可以包括处理任何类似的文档、文档的缺失部分、文档中的可疑更改以及版本问题(例如正确的版本)。
在图10B中,基于文档的内容1035和文档布局1045向用户发送反馈1055。系统可以向生命科学文档的创始人发送反馈。反馈可以基于关于但不限于成像、旋转、噪声、相似性、可疑更改、文档布局和缺失部分的内容。反馈还包括生命科学文档是否没有任何问题或者生命科学文档是否包括一个或更多个问题。此外,该系统还为经过内容检查的生命科学文档提供了一个识别(ID)。
图10C示出了质量审查1000,其中可以全球共享编辑数据。编辑数据可以在欧洲1060、美洲1065和还可以在亚洲1070。可以从欧洲、美洲和亚洲扫描生命科学文档。此外,还识别了需要潜在编辑的生命科学文档的内容。此类内容可以包括但不限于私人数据和信息。任何后续系统1075也可以在没有任何GDPR问题的情况下使用科学文档。
图11A-图11D描述了一个自动常量下载1100。在图11A中,IQVXML Worker代理被配置为连续下载和更新临床文档的主数据集。临床文档用于多个分类器的监督学习。跟踪器数据库1105与生产文档1110一起被示出。还示出了过滤器1115。跟踪器数据库1105、生产文档1110和过滤器1115馈送到过期过滤器1120。过期过滤器1120是目录创建假定时间是提交文档的时间的地方。在步骤1122,从目录中获得最新的IQVXML信息。在步骤1124,从跟踪器数据库1105检查文档名称和关于该文件的信息的最后几位。在步骤1126,更新文档。然而,在步骤1128,检查文件是否存在。如果文件不存在,则工作代理在目录或IQV.XML数据结构1130处提取文件。
参考图11B,临床文档的主集被更新。因此,每个临床文档的基本事实标签也会更新。示出了利用IQV.XML数据结构或用作文档的数字孪生的专有标准的过程1100。
在图11B中,示出了IQV.XML数据结构1130。在过期过滤器1120处,生成基本事实标签。在步骤1135,设置文件名。文件名将符合IQV.XML数据结构1130。在步骤1140,可以检查源系统。可以检查索引和占用。示出了基本事实(gt)列表1145。文件名可以是例如IQVDocumentGroundTruth。
参考图11C,示出了人工智能(AI)分析数据帧的自动生成。显示了生成用于多种目的的AI分析数据帧的自动化过程1150。示出了gt列表1145。在步骤1155,获得文件名。文件名将符合IQV.XML数据结构1130。在步骤1160,生成基本事实和AI数据帧。生成基本事实和AI数据帧以最终生成AI分析数据帧。因此,最终产生了AI分析数据帧1165。
在图11D中,连续自动训练发生在1170。此外,会出现具有自动特征搜索和自动新类别检测的持续自动训练。使用最新输入收集和重新加权临床文档特定特征,以允许持续学习。此外,由于系统会自动检测、收集和训练新的文档类型,因此大大减少了人工劳动。此外,修改和删除的文档类型会自动退出训练。
参考图11D,IQV.XML数据结构1130显示在过程1170中。此外,还示出了查询管理器1167。查询管理器1167提取特定数据集1172。数据集1172用于创建数据帧。在步骤1175,创建数据帧1180。数据帧1180可用于训练数据集1182。训练数据集1182可用于进一步分析。训练数据集1182可以在模型人工制品1184上使用。由于来自训练数据集1182的分析,模型人工制品可以包括一个或更多个人工制品。此外,分析报告1186可以从模型人工制品1184中产生。分析报告1186可以包括数据集1170的错误分析。这样,从数据结构1130中提取数据集1170以创建数据帧1180,其最终可以产生训练数据集1182、模型人工制品1184和分析报告1186。
在图12A中,示出了用于来自文档的多语言文本的自然语言处理器(NLP)自动创建器。示出了过程1200,其中英语文档1205和德语文档1210被放置在文档结构1215中。过程1200不限于比较英语文档1205和德语文档1210。不同类型的文档(例如科学标签与患者标签)也可以对齐。文档结构1215包括文档IQXML结构、全元数据结构和图像结构。第一文档1205的文本1220被传递给机器学习(ML)模型1225。ML模型将部分、格式和翻译文本与第二文档1210进行比较。在步骤1227,ML模型1225比较第一文档1205和第二文档1210之间的部分、格式和翻译文本。第一文档1205和第二文档1210的部分、格式和翻译文本的比较能够产生多语言结构或多语言XLIFF 1230。此外,还使用了比较模板。特别地,比较模板被配置为识别每个不同文档1205、1210的文档类型。通过在科学标签与患者标签的情况下使用比较模板,比较模板可以显示科学标签的每个部分与患者标签的每个部分匹配的位置。因此,用于各种不同文档比较的比较模板允许将来自一个源的文档部分与不同文档的另一部分对齐。另一个示例可以是协议。例如,该协议可以具有包括临床试验所需的统计方法的部分。因此,该部分(通过比较模板)将与统计分析计划对齐。因此,图12A显示了既可以对同一文档进行多语言比较,也可以对不同文档进行比较的能力,前提是比较模板是比较不同语言的同一文档之间的桥梁,也是不同文件的比较的桥梁。
参考图12B,过程1250示出了如何跨多个国家收集来自历史数据的文档。文档是根据跨多个国家1212收集的历史数据构建的。在步骤1227,ML模型1225使用比较模板从文档结构1215比较文档的部分、格式和翻译文本。根据部分、格式和翻译文本的比较,相似性分数1255被分配给文档结构1215内的文档。此外,比较模板被配置为识别被比较的每个不同文档的文档类型。ML模型1225然后挑选部分、格式、文本和多语言文本。所选部分、格式、文本和多语言文本被发送以供人工审查1260。人工审查1260可以审查具有由ML模型1225导入的部分、格式、文本和多语言文本的文档。当审查已经从跨多个国家收集的历史数据构建的文档时,人工审查1260还可以使用具有建议文本1265的模板。此外,基于比较模板所做的文档标识创建特定标签。
图13是示出可以用作分类和解释分析325(图3)的一部分的例示性分类过程的流程图。在步骤1305中,收集感兴趣的生命科学文档的相关页。在步骤1310检查文档标识(ID)。在步骤1315中,执行潜在语义分析(latent semantic analysis,LSA),其可以针对相关性加权文档特征(例如,加粗的文本、标题位置、徽标等)。在步骤1320中,将LSA结果整理到非参数的协方差分析(ANCOVA)中。在步骤1325中,执行最大似然估计,并在步骤1330中,文档被归类为诸如核心DIA的标准。
图14示出了对在可用作机器学习输入1410的计算机实施的自动分类和解释工具115(图1)上操作的各种文本分析、文档结构分析和图像分析的例示性手动调整1405。在该示例中,人工操作员105可以对从工具输出的类别标签330和事件标签335进行审查1415。操作员可以对自动分类和解释工具可分析的文档分类进行调整,以在基础自动分析中进行适当的更改。可替代地,操作员本身可以直接调整分析以实现期望的结果。在某些情况下,操作员可以执行多次调整迭代,以通过指定不同的分类结果或通过改变每次迭代的处理参数来辅助机器学习过程。
图15示出了由自动分类和解释工具115提供给人工操作员105的例示性实时分类反馈1505。在该示例中,该工具可以在包括诸如集成相机的图像捕获设备的便携式计算设备110上单独实例化。因此,设备110可以在例如与生命科学文档160位于共同位置的现场位置1500中操作。可替代地,自动分类和解释工具可以部分地由位于家庭办公室或公司企业的计算设备110的支持,和/或在云计算配置中使用远程服务130,该云计算配置使用各种网络链路1510和1515以在各计算元件之间建立通信和互操作性。
自动分类和解释工具115可以在现场位置1500中操作,以快速应用文本分析310、文档结构分析315和图像分析320,以将所捕获的文档的实时分类反馈1505提供给人工操作员105。在某些实施方式中,实时分类反馈可以包括所捕获的文档的建议分类以及相关联的元数据。操作员可以审查建议的文档分类和元数据,并通过工具上显示的UI提供批准或更正。校正可以被用作机器学习输入1410,以提高自动分类和解释工具的准确性。
图16、图17和图18示出了用于生命科学文档的自动分类的例示性方法。除非特别说明,流程图中显示的和其随附文本中描述的方法或步骤不限于特定的顺序或序列。除此之外,这些方法或步骤中的一些可以同时发生或执行,并且根据这样的实现方式的要求,并非所有方法或步骤都必须在已知的实施方式中执行,并且可以选择性地利用一些方法或步骤。
图16是可以由支持自动分类和解释工具115(图1)的计算设备执行的例示性方法1300的流程图。在步骤1605中,设备接收生命科学文档的数字化表示,该数字化表示包括文档元素,该文档元素包括文本或图像中的一个或多个。在步骤1610中,设备对生命科学文档的数字化表示进行文本分析,该文本分析包括识别文本中的原始词语。在步骤1615中,设备对生命科学文档的数字化表示进行结构分析,该结构分析包括识别文档上下文,该文档上下文描述文档元素的特征以及文档元素在生命科学文档页面上的相对空间位置。在步骤1620中,设备对生命科学文档的数字化表示进行图像分析,该图像分析包括识别图像并处理所识别的图像以提取文档元素的附加特征。在步骤1625中,设备共同地利用文本分析、结构分析和图像分析的结果以将生命科学文档分类为一个或更多个预定义的类别。
图17是可由支持自动分类和解释工具115(图1)的计算设备执行的例示性方法1700的流程图。在步骤1705中,设备将一个或多个生命科学文档解构为标准化数据结构,以生成包括图像和数字化文本的文档元素,作为对计算机实施的自动分类和解释工具的输入。在步骤1710中,设备对文档元素执行文本分析、结构分析和图像分析的组合,以创建生命科学文档的基于上下文的表示,从而识别文档元素之间的空间关系。在步骤1715中,设备提取描述一个或多个文档元素的元数据。在步骤1725中,设备利用基于上下文的表示和提取的元数据来辅助将生命科学文档分类为预定义的类别。
图18是可以由支持自动分类和解释工具115(图1)的计算设备执行的例示性方法1800的流程图。在步骤1805中,设备识别数字化生命科学文档中的原始文本。在步骤1810中,该设备识别数字化生命科学文档的构造,以识别数字化生命科学文档中的文本和图像元素的相对空间位置。在步骤1815中,设备识别图像以提取数字化形式的文本。在步骤1820中,设备识别原始的和所提取的文本的特征。在步骤1825中,设备结合使用每个识别步骤的结果来生成元数据。在步骤1830中,设备利用所生成的元数据对生命科学文档进行分类。
图19示出了用于例如服务器的设备的例示性架构1900,其能够执行本文所述的用于所述生命科学文档的自动化分类和解释的各种组件。图19中示出的架构1900包括一个或多个处理器1902(例如,中央处理单元、专用人工智能芯片、图形处理单元等)、包括RAM(随机存取存储器)1906和ROM(只读存储器)1908的系统存储器1904、以及可操作地且功能上耦接架构1900中的组件的系统总线1910。包含有助于在架构1900内的元件之间传输信息的基本例程的基本输入/输出系统,例如在启动期间,通常存储在ROM 1908中。架构1900还包括大容量存储设备1912,用于存储用于实现应用、文档系统和操作系统的软件代码或其他计算机执行的代码。大容量存储设备1912通过连接至总线1910的大容量存储控制器(未示出)连接至处理器1902。大容量存储设备1912及其关联的计算机可读存储介质为架构1900提供了非易失性存储。尽管本文包含的对计算机可读存储介质的描述是指大容量存储设备,诸如硬盘、固态驱动器或光盘驱动器,可以理解的是,计算机可读存储介质可以是可由架构1900访问的任何可用的存储介质。
作为示例而非限制性的,计算机可读存储介质可以包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据之类的信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。例如,计算机可读介质包括但不限于:RAM、ROM、EPROM(可擦除可编程只读存储器)、EEPROM(电可擦除可编程只读存储器)、闪存或其他固态存储技术、CD-ROM、DVD、HD-DVD(高清DVD)、蓝光或其他光学存储、盒式磁带、磁带、磁盘存储设备或其他磁性存储设备、或可用于存储所需信息且架构1600可以访问的任何其他介质。
根据各种实施例,架构1600可以使用通过网络与远程计算机的逻辑连接在网络环境中操作。架构1600可以通过连接至总线1610的网络接口单元1616连接至网络。可以理解,网络接口单元1616还可以用于连接至其他类型的网络和远程计算机系统。架构1600还可以包括输入/输出控制器1618,用于接收和处理来自若干其他设备的输入,包括键盘、鼠标、触摸板、触摸屏、诸如按钮和开关的控制设备或电子笔(图16中未示出)。类似地,输入/输出控制器1618可以向显示屏、用户界面、打印机或其他类型的输出设备(也未在图16中示出)提供输出。
可以理解的是,当本文描述的软件组件被加载到处理器1602中并被执行时,可以将处理器1602和整个架构1600从通用计算系统变换成定制的专用计算系统,以有助于本文所提出的功能。处理器1602可以由任意数量的晶体管或其他分立电路元件构成,它们可以单独或共同地呈现任意数量的状态。更具体地,处理器1602可以响应于包含在本文所公开的软件模块内的可执行指令而作为有限状态机来操作。这些计算机可执行指令可以通过指定处理器1602如何在状态之间转换来对处理器1602进行变换,从而对构成处理器1602的晶体管或其他分立硬件元件进行变换。
对本文提出的软件模块进行编码还可以变换本文提出的计算机可读存储介质的物理结构。在本说明书的不同实现方式中,物理结构的特定变换可以取决于各种因素。这些因素的示例可以包括但不限于:用于实现计算机可读存储介质的技术、无论计算机可读存储介质被表征为主存储还是副存储等。例如,如果计算机可读存储介质被实现为基于半导体的存储器,则本文公开的软件可以通过变换半导体存储器的物理状态而被编码在计算机可读存储介质上。例如,软件可以变换构成半导体存储器的晶体管、电容器或其他分立电路元件的状态。该软件还可以变换这些组件的物理状态,以便在其上存储数据。
作为另一示例,本文所公开的计算机可读存储介质可以使用磁或光技术来实现。在这样的实现方式中,当软件在磁性或光学介质中被编码时,本文提出的软件可以变换磁性或光学介质的状态。这些变换可以包括改变给定磁性介质内的特定位置的磁性特征。这些变换还可以包括改变给定光学介质内的特定位置的物理特征或特性,以改变那些位置的光学特性。在不脱离本说明书的范围和精神的情况下,物理介质的其他变换是可能的,提供前述示例仅是为了有助于该讨论。
鉴于以上内容,可以理解的是,为了存储和执行本文提出的软件组件,在架构1600中发生了许多类型的物理变换。还可以理解,架构1600可以包括其他类型的计算设备,包括可穿戴设备、手持式计算机、嵌入式计算机系统、智能电话、PDA以及本领域技术人员已知的其他类型的计算设备。还可以构想,架构1600可以不包括图16所示的所有组件,可以包括在图16中未明确示出的其他组件,或者可以利用与图16所示的架构完全不同的架构。
以上描述的主题仅以例示的方式提供,并且不应被解释为限制性的。可以在不遵循所示出和描述的示例实施方式和应用的情况下,并且在不脱离本发明的真实精神和范围的情况下,对本文描述的主题进行各种修改和改变。

Claims (10)

1.一种计算机实施的方法,用于执行生命科学文档的质量审查,所述方法包括:
通过移动设备扫描一个或更多个生命科学文档,其中所述一个或更多个生命科学文档被发送到数据库;
检查所述一个或更多个生命科学文档的内容,其中,语言、图像、旋转和噪声是所述生命科学文档中检查的内容,其中在所述一个或更多个生命科学文档中检查相似性、可疑更改、文档布局和缺失部分;
基于有关成像、旋转和噪声以及相似性、可疑更改、文档布局和缺失部分的内容,系统向所述生命科学文档的创始人发送反馈,其中所述反馈包括所述生命科学文档是否没有任何问题或者所述生命科学文档是否包括一个或更多个问题,其中所述系统为经过内容检查的生命科学文档提供ID;以及
共享所述生命科学文档的编辑内容,其中识别需要潜在编辑的内容。
2.根据权利要求1所述的计算机实施的方法,其中,所述内容检查包括检查隐私数据或至少一个有效签名。
3.根据权利要求1所述的计算机实施的方法,其中,执行所述一个或更多个生命科学文档的可读性的检查。
4.一种计算机实施的方法,用于执行自动反馈循环,所述方法包括:
下载和更新用于多个分类器的监督学习的临床文档主数据集;
更新每个临床文档的基本事实标签,其中随着所述临床文档的主数据集更新而更新所述基本事实标签;
基于为所述临床文档的主数据集生成的基本事实标签生成AI分析数据帧,其中执行自动缺陷检测和置信度重新校准以生成所述AI分析数据帧;以及
提供训练数据集,其中所生成的AI分析数据帧提供新的训练数据集。
5.根据权利要求8所述的计算机实施的方法,其中,所述置信度重新校准包括检查最终输出的混淆指标。
6.根据权利要求4所述的计算机实施的方法,其中,以自动方式更新对未来AI输出的置信度。
7.根据权利要求4所述的计算机实施的方法,其中,检测、收集和训练新的文档类型。
8.一种计算机实施的方法,用于多语言文档创建器,所述方法包括:
将一组文档上传到设备中,其中所述一组文档是不同语言类型的文档;
基于比较模板比较不同语言的文档,其中可以使用文档结构、元数据和图像,以便可以比较每个不同语言文档的部分、每个不同语言文档的格式以及每个不同语言文档的翻译文本,其中所述比较模板被配置为识别每个比较的不同文档的文档类型;以及
使用所述不同文档的比较从历史数据构建文档集,其中特定标签是基于所述比较模板所做的文档标识创建的。
9.根据权利要求8所述的计算机实施的方法,其中,机器学习(ML)模型识别最佳/最优文本以自动填充所述不同的语言文档。
10.根据权利要求8所述的计算机实施的方法,其中,机器学习(ML)模型识别不同语言文档中的最佳/最优文档。
CN202210637798.5A 2021-06-04 2022-06-06 生命科学文档的自动分类和解释 Pending CN115512376A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/339,334 US20210295031A1 (en) 2019-03-01 2021-06-04 Automated classification and interpretation of life science documents
US17/339,334 2021-06-04

Publications (1)

Publication Number Publication Date
CN115512376A true CN115512376A (zh) 2022-12-23

Family

ID=81877941

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210637798.5A Pending CN115512376A (zh) 2021-06-04 2022-06-06 生命科学文档的自动分类和解释

Country Status (2)

Country Link
EP (1) EP4109297A3 (zh)
CN (1) CN115512376A (zh)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10839164B1 (en) * 2018-10-01 2020-11-17 Iqvia Inc. Automated translation of clinical trial documents
US11574491B2 (en) * 2019-03-01 2023-02-07 Iqvia Inc. Automated classification and interpretation of life science documents
US10839205B2 (en) * 2019-03-01 2020-11-17 Iqvia Inc. Automated classification and interpretation of life science documents

Also Published As

Publication number Publication date
EP4109297A3 (en) 2023-03-15
EP4109297A2 (en) 2022-12-28

Similar Documents

Publication Publication Date Title
US11869263B2 (en) Automated classification and interpretation of life science documents
US20220237230A1 (en) System and method for automated file reporting
Khusro et al. On methods and tools of table detection, extraction and annotation in PDF documents
JP7392120B2 (ja) 自然言語処理を使用する病理報告内の自動化された情報の抽出及び改良
Park et al. Automated extraction of chemical structure information from digital raster images
US11574491B2 (en) Automated classification and interpretation of life science documents
US20210366055A1 (en) Systems and methods for generating accurate transaction data and manipulation
US11645556B2 (en) Generating software services for a software solution determined from analysis of unstructured text input using machine learning
US11537788B2 (en) Methods, systems, and storage media for automatically identifying relevant chemical compounds in patent documents
US20210295031A1 (en) Automated classification and interpretation of life science documents
CN110750540A (zh) 构建医疗业务知识库的方法、获得医疗业务语义模型的方法及系统、介质
Kumar Rai et al. Medical prescription and report analyzer
CN116721713B (zh) 一种面向化学结构式识别的数据集构建方法和装置
CN116756392B (zh) 一种医疗信息溯源方法、云平台及存储介质
EP4009194A1 (en) Automated classification and interpretation of life science documents
CN117725182A (zh) 基于大语言模型的数据检索方法、装置、设备和存储介质
CN116976034A (zh) 一种基于cad软件的零件库系统
EP4109297A2 (en) Automated classificaton and interpretation of life science documents
KR101800975B1 (ko) 필기체가 인식되어 생성된 전자문서의 공유 방법 및 그 장치
CN115272649A (zh) 分子结构图的图像识别、检索、录入方法及系统、介质
WO2022061259A1 (en) System and method for automatic analysis and management of a workers' compensation claim
Tan et al. Checking Refactoring Detection Results Using Code Changes Encoding for Improved Accuracy
Flynn Document classification in support of automated metadata extraction form heterogeneous collections
Jose et al. Smart Industrial Scanner for Implementation of Relevant Data Parsing from Prescriptions Using SSWF Algorithm
CN111966794B (zh) 一种诊疗数据的识别方法、系统和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination