CN111639178A - 生命科学文档的自动分类和解释 - Google Patents
生命科学文档的自动分类和解释 Download PDFInfo
- Publication number
- CN111639178A CN111639178A CN202010129780.5A CN202010129780A CN111639178A CN 111639178 A CN111639178 A CN 111639178A CN 202010129780 A CN202010129780 A CN 202010129780A CN 111639178 A CN111639178 A CN 111639178A
- Authority
- CN
- China
- Prior art keywords
- document
- text
- life science
- computer
- analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 claims abstract description 61
- 238000010191 image analysis Methods 0.000 claims abstract description 29
- 238000000034 method Methods 0.000 claims description 38
- 238000012545 processing Methods 0.000 claims description 11
- 238000010801 machine learning Methods 0.000 claims description 10
- 238000012916 structural analysis Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 9
- 230000009471 action Effects 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 239000003814 drug Substances 0.000 claims description 2
- 229940079593 drug Drugs 0.000 claims description 2
- 238000010276 construction Methods 0.000 abstract description 20
- 230000008901 benefit Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 7
- 230000009466 transformation Effects 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 4
- 238000012937 correction Methods 0.000 description 4
- 238000012552 review Methods 0.000 description 4
- 238000000844 transformation Methods 0.000 description 4
- 238000013145 classification model Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 230000001105 regulatory effect Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 239000003990 capacitor Substances 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 229920001690 polydopamine Polymers 0.000 description 1
- 102000037983 regulatory factors Human genes 0.000 description 1
- 108091008025 regulatory factors Proteins 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/196—Recognition using electronic means using sequential comparisons of the image signals with a plurality of references
- G06V30/1983—Syntactic or structural pattern recognition, e.g. symbolic string recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/09—Recognition of logos
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/10—Recognition assisted with metadata
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/32—Digital ink
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Geometry (AREA)
- Computer Graphics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种用于自动分类和解释诸如支持临床试验的生命科学文档之类的文档的计算机实现的工具,所述工具被配置为执行原始文本分析、文档构造分析和图像分析的组合,以通过实现对文档内容的更全面的基于机器的理解来提高分类的准确性。与传统的自动分类工具相比,分析的组合通过利用文本与图像元素之间的相对空间关系、识别元素的特征和格式以及从文档中提取附加的元数据而为分类提供了上下文。
Description
技术领域
本发明涉及一种用于对生命科学文档进行分类和解释的计算机实现的方法及配置为用作计算机实现的自动分类和解释工具的计算设备;本发明还涉及非暂时性计算机可读存储介质。
背景技术
自动分类通常用于有效地管理文档中的文本、图像和非结构化信息。自动分类也称为归类、聚类或文本分类,通常使文档能够基于一组预定义的种类或类别进行划分和组织,以快速且轻松地检索信息。
发明内容
用于自动分类和解释文档(诸如支持临床试验的生命科学文档)的计算机实现的工具被配置为执行文本分析、文档构造分析和图像分析的组合,以通过实现对文档内容的更全面的基于机器的理解来提高分类准确性。与传统的自动分类工具相比,分析的组合通过利用文本与图像元素之间的空间关系、识别元素的特征和格式以及从文档中提取附加的元数据而为分类提供了上下文。
文本分析识别原始文本及其在文档中的大体位置。在某些实现中,可以选择性地跟踪文本序列。通过识别相关的上下文,诸如空间构造信息(例如,图像在页面上的位置;页眉、页脚和标题中的文本的位置;表格中的行和列的使用等)和格式(例如,加粗、倾斜、字体、文本大小等),文档构造分析为自动分类和解释工具提供了对文档的附加的理解。文档构造分析还可以通过跟踪与任一侧的文档元素相邻的文本来维持文档元素之间的连接。图像分析针对图形内容,诸如徽标、图解、图表和表格、说明文字等,以提取附加的上下文,以进一步加深对文档的基于机器的理解。
尽管可以在一些有限的分类实现中单独使用文本分析来获得令人满意的结果,但是通常不将构造分析和图像分析配置为针对文档分类的单独操作。然而,这三种分析的组合可通过协同操作提供改进的分类准确性,以帮助消除文档类别之间的模糊,在某些情况下,文档类别可能很多且具有细微的区别。分析的组合通过使用已识别的相关上下文提供附加的含义来区分文档类别。这使得原本模糊的文档文本可以有效地用于分类目的。
在各种例示性示例中,自动分类和解释工具被配置为将机器学习应用于由历史分类文档训练的人工智能(AI)引擎。AI引擎可以由工具访问,或者全部或部分合并到该工具中,并用于整体或部分地实现组合的文本分析、文档构造分析和图像分析。人类操作员可以通过自动分类和解释工具上显示的用户界面(UI)对分析算法进行调整。这些调整可用于改善自动文档的分类和解释,并且可用作机器学习输入,以总体上改善分类和解释工具的性能。
支持自动分类和解释工具的计算设备可以包含图像捕获设备,诸如照相机或扫描仪、或者被配置为与用于对生命科学文档进行数字化的离散图像捕获设备进行交互操作。该工具可以在现场进行操作,以应用文本分析、文档构造分析和图像分析,以向人类操作员提供针对所捕获的文档的实时分类反馈。在一些实现方式中,实时分类反馈可以包括针对所捕获的文档的建议分类以及相关联的元数据。操作员可以审查建议的文档分类和元数据,并通过UI提供批准或更正。可以将更正用作机器学习输入,以提高自动分类和解释工具的准确性。
所述计算机实现的自动分类和解释工具通过提供提高的分类准确性来提供对其所执行的计算设备的基础操作的改进。更具体地,组合使用原始文本分析、文档构造分析和图像分析,通过提高机器的知识深度以实现有效利用处理周期、内存需求和网络带宽来产生更准确的分类,从而减少对执行手动重新分类或丢弃不正确的分类结果的需求。自动分类和解释工具还可以提高计算设备上的人机界面的效率,因为该工具可以更准确地对生命科学文档进行分类,这提高了随后计算机辅助文档搜索和检索的效率。
提供本发明内容而以简化的形式介绍了一些概念,这些概念将在下面的详细描述中进一步描述。本发明内容既不旨在标识所要求保护的主题的关键特征或必要特征,其也不旨在用于帮助确定所要求保护的主题的范围。此外,所要求保护的主题不限于解决在本公开的任何部分中指出的任何或所有缺点的实现方式。将意识到,上述主题可以被实现为计算机控制的装置、计算机处理器、计算系统、或者诸如一种或更多种计算机可读存储介质之类的制品。通过阅读以下详细说明并查看相关附图,这些和各种其他特征将变得显而易见。
附图说明
图1示出了例示性计算环境,在该计算环境中,计算机实现的自动分类和解释工具在计算设备上执行;
图2示出了例示性分类模型,在该模型下,生命科学文档被分类为试验主文档(TMF)的一部分;
图3示出了在计算设备上执行的计算机实现的自动分类和解释工具的例示性细节;
图4示出了与分析相关联的例示性数据结构,所述分析在计算机实现的自动分类和解释工具的操作期间被组合应用;
图5和图6示出了可以在TMF中分类的例示性生命科学文档;
图7示出了文本分析过程的例示性操作细节;
图8示出了构造分析过程的例示性操作细节;
图9示出了图像分析过程的例示性操作细节;
图10是示出例示性分类过程的流程图;
图11示出了对在计算机实现的自动分类和解释工具上操作的过程的例示性手动调整,其可以用作机器学习输入;
图12示出了由自动分类和解释工具提供给操作员的例示性实时分类反馈;
图13、图14和图15示出了例示性方法;以及
图16是可以至少部分地用于实现生命科学文档的所述自动分类和解释的例示性计算设备的框图。
相同的附图标记在附图中指示相同的元素/元件。除非另有说明,否则元素/元件未按比例绘制。
具体实施方式
图1示出了例示性计算环境100,在该计算环境中,人类操作员105采用计算设备110,该计算设备被配置为支持计算机实现的自动分类和解释工具115。该工具例如可以被实现为在计算设备上执行的软件应用程序。在替代实施方式中,可以根据对生命科学文档的当前自动分类和解释的特定实现方式的需要,使用硬件、固件或其组合来实现自动分类和解释工具。自动分类和解释工具可以与人工智能(AI)引擎120对接或直接包含人工智能引擎,该人工智能引擎可以例如使用神经或深度学习网络、专家系统或被配置成用于机器学习的其他合适的系统来实现。
计算设备110包括电子设备,诸如个人计算机、服务器、手持设备、工作站、多媒体控制台、智能手机、平板计算机、膝上型计算机等。在随后的讨论中,术语“计算设备”的使用旨在涵盖执行某些计算操作的所有电子设备,无论它们是在本地、远程地还是通过本地和远程操作的组合来实现的。
自动分类和解释工具115可以被配置为可选地通过网络链路125与远程计算设备、资源或服务130进行通信。虽然该例示性示例采用了本地计算设备110处的处理(如附图标记140所示),要注意,也可以使用其他处理分配和布置。例如,自动分类和解释工具可以实例化为远程或基于云的应用程序。对于给定的自动分类和解释工具实现方式,可以适当地实现本地处理140和远程处理(如附图标记150所示)的各种组合。
可以以各种组合或子组合使用各种网络类型和网络基础结构中的任何一者,包括局域网(LAN)、广域网(WAN)、蜂窝网络、卫星网络、IP(Internet-Protocol)网络(诸如IEEE802.11下的Wi-Fi和IEEE 802.3下的以太网)、公共交换电话网(PSTN)和/或短距离网络(诸如网络),来实现通信网络链路125。例如,网络基础结构可以由移动运营商、企业、互联网服务提供商(ISP)、电话服务提供商、数据服务提供商等支持。通信网络链路125可以利用互联网的部分(未示出)或者包括支持与互联网的连接的接口,使得计算设备110可以访问数据或内容和/或提供由远程服务提供商和/或其他服务提供商(未示出)支持的用户体验。
可以在计算环境中利用各种图像捕获设备155来捕获如下所述被解构的生命科学文档的图像。图像捕获设备可以是诸如相机或扫描仪之类的独立设备,或者可以被并入其他计算设备110中。图像捕获设备可以本地或远程地部署。例如,图像可以在远程工作现场被捕获并传输到本地计算设备110或传输到基于云的存储服务,然后由计算设备通过网络链路进行访问。可替代地,计算设备和图像捕获设备可以位于同一位置。
图2示出了例示性分类模型205,在该模型下,生命科学文档160可以被分类为试验主文档(TMF)215的一部分。生命科学行业通常需要遵从监管机构在其监督临床试验的设计、实施、记录和报告方面的要求。检查人员对TMF进行检查,以证明申办者、试验监测人员和研究人员符合适用的标准和法规要求。TMF是生命科学文档的集合,其通常允许评估临床试验的依从性和所产生的质量。要注意的是,术语“生命科学文档”对通常在TMF中收集的文档具有普遍适用性。
TMF 215是用不同种类或类别的生命科学文档220......225来组织的。在某些实现方式中,各种子类别230和内容235也可以包含在TMF中或在除使用TMF的那些系统之外的分类系统中使用。在某些情况下,TMF可以组织成包括由药物信息协会(Drug InformationAssociation,DIA)定义的种类或类别。
图3示出了在计算设备110上执行的计算机实现的自动分类和解释工具115的例示性细节。该工具的输入包括生命科学文档160,并且来自该工具的输出包括分别适用于文档160中的而每个文档的类别标签330和事件标签335。类别标签对通过工具的操作将生命科学分类的类别220......225(或者子类别或适当的内容)进行识别。事件标签对该工具解释为对事件、动作和/或触发器具有意义的文档中的对象进行识别。例如,事件标签可以对与安全问题、法规因素、数据管理以及与文档内容相关联的其他信息有关的文档内容进行识别。
计算机实现的自动分类和解释工具115包括被配置成用于文档解构305、文本分析310、文档构造分析315、图像分析320以及分类和解释分析325的功能。分类和解释分析可通过分类模型205和解释模型340来支持,该分类模型和解释模型被实现为工具115的一部分,或者被外部地实现为其他计算设备上的数据库或资源。
文档解构305包括将捕获的生命科学文档160转换为数字化形式,该数字化形式在所有文档上使用标准化数据结构,例如,使用XML(eXtensible Markup Languag,可扩展标记语言)或其他合适的表示来表达该数字化形式。在通常的实现方式中,可以预期源材料的质量会有很大的不同。因此,文档解构可以应用各种技术来适应数字化期间的噪声和不期望的伪影,以提高自动分类和解释工具115的输入的质量。在某些情况下,可以为输入生命科学文档收集诸如元数据之类的相关的描述性信息,并存储。这样的信息可以用于例如TMF管理和其他目的。
图4示出了分别与文本分析、文档构造分析和图像分析相关联的例示性数据结构,该文本分析、文档构造分析和图像分析在计算机实现的自动分类和解释工具115的操作期间被组合应用。生命科学文档文本结构405支持文本分析310,以实现通常在不考虑序列上下文的情况下(即,使用“词袋(bag of words)”方法)从生命科学文档160(图1)中识别原始文本。但是,可以在该工具的某些实现方式中跟踪和利用文本序列。
生命科学文档库元数据结构410支持文档构造分析315,以实现文档上下文的利用,诸如文档元素的空间构造信息(例如,图像在页面上的位置;文本在页眉、页脚、标题中的位置;表格中行和列的使用等)和格式(例如,加粗、倾斜、字体、文本大小等)。文档构造分析还可以通过跟踪与任一侧的文档元素相邻的文本来维持文档元素之间的连接。文档图像结构415支持图像分析320,以使诸如徽标、图解、图表和表格、说明文字等的图形内容能够提取附加的上下文,以进一步加深对生命科学文档的基于机器的理解。
现在呈现针对生命科学文档的文本分析、文档构造分析和图像分析的应用的例示性示例。图5和图6示出了可以在TMF中分类的例示性生命科学文档。图5示出了例示性协议概要505,并且图6示出了例示性知情同意书605。与示例的呈现无关的细节已从生命科学文档505和605中被修订。该示例中的文档在DIA指导下被不同地分类,但是每个文档都具有包括“研究(study)”一词的相似的文本内容。下面的讨论说明了当前的计算机实现的自动分类和解释工具以及文本分析、文档构造分析和图像分析的组合的应用是如何实现消除模糊并准确分类文档的。
如图7所示,文本分析310包括在不考虑格式的情况下对原始文本的分析(如附图标记705所示)。如上所述,在一些实现方式中,可以选择性地利用文本序列(710)以提供附加的上下文。在这里,例如,文本分析识别的词语“研究”被包括在知情同意文档605中。
如图8所示,文档构造分析315包括分析诸如文本和图像之类的文档元素的相对空间位置(805)。还分析了元素特征(810),包括文本字体、大小和格式(例如,加粗、倾斜、下划线、下标、上标等)。还可以使用例如“最近邻居”概念,通过保持元素相对于文本信息的连接位置刚好在之前和之后,来分析上下文连接(815)。这种内容连接允许理解文档元素(例如图像)相对于其在文档内的位置的相关性。
在该示例中,文档构造分析315将协议概要文档505中的词语“研究”识别为使用加粗字体位于文档的第一页的顶部。文档构造分析315还识别了文档构造包括位于具有相邻文本“研究标题”的表格中的单元格中的词语。这种特征构成元数据,该元数据提供了附加的上下文,其使得计算机实现的自动分类和解释工具能够获得对协议概要文档505更深入的理解,从而其不与知情同意文档605(图6)产生模糊。
如图9所示,图像分析320包括分析文档中的图像以生成辅助文档分类和解释的另外的元数据(905)。图像在文档中的位置也可以被识别(910)。在一些实现方式中,可以应用图像到文本的转换(915)以创建可以被包括在图像中的文本元素的数字化。在该示例中,图像分析识别手写的“湿墨”签名920和日期925以验证知情同意文档已签名。在某些情况下,签名和日期可以转换为数字表示。图像分析还可以促进对图形公司徽标930的理解,以使得能够进一步理解拥有文档的实体。
图10是示出可以用作分类和解释分析325(图3)的一部分的例示性分类过程的流程图。在步骤1005中,收集感兴趣的生命科学文档的相关页面。在步骤1010检查文档标识(ID)。在步骤1015,执行潜在语义分析(latent semantic analysis,LSA),其可以针对相关性加权文档特征(例如,加粗的文本、标题位置、徽标等)。在步骤1020中,将LSA结果整理到非参数的协方差分析(ANCOVA)中。在步骤1025中,执行最大似然估计,并在步骤1030中,将文档分类为例如核心DIA标准。
图11示出了对在可用作机器学习输入1110的计算机实现的自动分类和解释工具115(图1)上操作的各种文本分析、文档构造分析和图像分析的例示性手动调整1105。在该示例中,操作员105可以对从工具输出的类别标签330和事件标签335进行审查1115。操作员可以调整自动分类和解释工具可以分析的文档分类,以在基础自动分析中进行适当的更改。可替代地,操作员本身可以直接调整分析以实现期望的结果。在某些情况下,操作员可以执行多次调整迭代,以通过指定不同的分类结果或通过更改每次迭代的处理参数来辅助机器学习过程。
图12示出了由自动分类和解释工具115提供给操作员105的例示性实时分类反馈1205。在该示例中,该工具可以在包括图像捕获设备(诸如集成的相机)的便携式计算设备110上单独实例化。因此,设备110可以在例如与生命科学文档160位于共同位置的现场位置1200中操作。可替代地,自动分类和解释工具可以部分地由位于家庭办公室或公司企业的计算设备110的支持,和/或在云计算配置中使用远程服务130,该云计算配置使用各种网络链路1210和1215以在各计算元件之间建立通信和互操作性。
可以在现场位置1200中操作自动分类和解释工具115,以快速应用文本分析310、文档构造分析315和图像分析和320,以将针对所捕获的文档的实时分类反馈1205提供给人类操作员105。在某些实现方式中,实时分类反馈可以包括针对所捕获的文档的建议分类以及相关联的元数据。操作员可以审查建议的文档分类和元数据,并通过工具上显示的UI提供批准或更正。可以将更正用作机器学习输入1110,以提高自动分类和解释工具的准确性。
图13、图14和图15示出了用于生命科学文档的自动分类的例示性方法。除非特别说明,否则流程图中显示的和其所附文本中描述的方法或步骤不限于特定的顺序或序列。另外,根据这样的实现方式的要求,这些方法或步骤中的一些可以同时发生或同时执行,并且并非所有方法或步骤都必须在给定实现方式中执行,并且可以选择性地利用一些方法或步骤。
图13是可以由支持自动分类和解释工具115(图1)的计算设备执行的例示性方法1300的流程图。在步骤1305中,该设备接收生命科学文档的数字化表示,该数字化表示包括文档元素,该文档元素包括文本或图像中的一者或多者。在步骤1310中,该设备对生命科学文档的数字化表示进行文本分析,该文本分析包括识别文本中的原始词语。在步骤1315中,该设备对生命科学文档的数字化表示进行构造分析,该构造分析包括识别文档上下文,所述文档上下文描述文档元素的特征以及文档元素在生命科学文档页面上的相对空间位置。在步骤1320中,该设备对生命科学文档的数字化表示进行图像分析,该图像分析包括识别图像并处理所识别的图像以提取文档元素的附加特征。在步骤1325中,该设备集合地利用文本分析、构造分析和图像分析的结果以将生命科学文档分类为一个或更多个预定义的类别。
图14是可由支持自动分类和解释工具115(图1)的计算设备执行的例示性方法1400的流程图。在步骤1405中,该设备将一个或更多个生命科学文档解构为标准化数据结构,以生成作为对计算机实现的自动分类和解释工具的输入的文档元素,所述文档元素包括图像和数字化文本。在步骤1410中,该设备对文档元素执行文本分析、构造分析和图像分析的组合,以创建生命科学文档的基于上下文的表示,从而识别文档元素之间的空间关系。在步骤1415中,该设备提取对文档元素中的一个或更多个文档元素进行描述的元数据。在步骤1420中,该设备利用基于上下文的表示和提取的元数据来辅助将生命科学文档分类为预定义的类别。
图15是可以由支持自动分类和解释工具115(图1)的计算设备执行的例示性方法1500的流程图。在步骤1505中,该设备识别数字化生命科学文档中的原始文本。在步骤1510中,该设备识别数字化生命科学文档的构造,以对文本和图像元素在数字化生命科学文档中的相对空间位置进行识别。在步骤1515中,该设备识别图像以提取数字化形式的文本。在步骤1520中,该设备识别原始的和所提取的文本的特征。在步骤1525中,该设备将识别的步骤中的每个步骤的结果组合利用来生成元数据。在步骤1530中,该设备利用所生成的元数据对生命科学文档进行分类。
图16示出了用于设备(例如服务器)的例示性架构1600,其能够执行本文所述的各种组件,以用于所述生命科学文档的自动化分类和解释。图16中示出的架构1600包括一个或更多个处理器1602(例如,中央处理单元、专用人工智能芯片、图形处理单元等)、包括RAM(随机存取存储器)1606和ROM(只读存储器)1608的系统存储器1604、以及可操作地且功能上耦接架构1600中的组件的系统总线1610。包含基本例程的基本输入/输出系统通常存储在ROM 1608中,所述例程有助于在架构1600中的元素之间传递信息(例如在启动期间)。架构1600还包括大容量存储设备1612,以用于存储用于实现应用程序、文档系统和操作系统的软件代码或其他计算机执行的代码。大容量存储设备1612通过连接至总线1610的大容量存储控制器(未示出)连接至处理器1602。大容量存储设备1612及其关联的计算机可读存储介质为架构1600提供了非易失性存储。尽管本文包含的对计算机可读存储介质的描述是指大容量存储设备,诸如硬盘、固态驱动器或光盘驱动器,但可以理解,计算机可读存储介质可以是可由架构1600访问的任何可用的存储介质。
作为示例而非限制性的,计算机可读存储介质可以包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据之类的信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。例如,计算机可读介质包括但不限于:RAM、ROM、EPROM(可擦除可编程只读存储器)、EEPROM(电可擦除可编程只读存储器)、闪存或其他固态存储技术、CD-ROM、DVD、HD-DVD(高清DVD)、蓝光或其他光学存储、盒式磁带、磁带、磁盘存储设备或其他磁性存储设备、或可用于存储所需信息且架构1600可以访问的任何其他介质。
根据各种实施方式,架构1600可以使用通过网络与远程计算机的逻辑连接在网络环境中操作。架构1600可以通过连接至总线1610的网络接口单元1616连接至网络。可以理解,网络接口单元1616还可以用于连接至其他类型的网络和远程计算机系统。架构1600还可以包括输入/输出控制器1618,用于接收和处理来自若干其他设备的输入,所述其他设备包括键盘、鼠标、触摸板、触摸屏、诸如按钮和开关或电子笔之类的控制设备(图16中未示出)。类似地,输入/输出控制器1618可以将输出提供给显示屏、用户界面、打印机或其他类型的输出设备(也未在图16中示出)。
可以理解,当本文描述的软件组件被加载到处理器1602中并被执行时,可以将处理器1602和整个架构1600从通用计算系统变换成定制的专用计算系统,以有助于本文提出的功能。处理器1602可以由任意数量的晶体管或其他分立电路元件构成,它们可以单独或集合地呈现任意数量的状态。更具体地,处理器1602可以响应于包含在本文所公开的软件模块内的可执行指令而作为有限状态机来操作。这些计算机可执行指令可以通过指定处理器1602如何在状态之间转换来对处理器1602进行变换,从而对构成处理器1602的晶体管或其他分立硬件元件进行变换。
对本文提出的软件模块进行编码还可以变换本文提出的计算机可读存储介质的物理结构。在本说明书的不同实现方式中,物理结构的特定变换可以取决于各种因素。这些因素的示例可以包括但不限于:用于实现计算机可读存储介质的技术、无论计算机可读存储介质被表征为主存储还是副存储等。例如,如果计算机可读存储介质被实现为基于半导体的存储器,则本文公开的软件可以通过变换半导体存储器的物理状态而被编码在计算机可读存储介质上。例如,软件可以变换构成半导体存储器的晶体管、电容器或其他分立电路元件的状态。该软件还可以变换这些组件的物理状态,以便在其上存储数据。
作为另一示例,可以使用磁性或光学技术来实现本文所公开的计算机可读存储介质。在这样的实现方式中,当软件在磁性或光学介质中被编码时,本文提出的软件可以变换磁性或光学介质的状态。这些变换可以包括改变给定磁性介质内的特定位置的磁性特征。这些变换还可以包括改变给定光学介质内的特定位置的物理特征或特性,以改变那些位置的光学特性。在不脱离本说明书的范围和精神的情况下,物理介质的其他变换是可能的,提供前述示例仅是为了有助于该讨论。
鉴于以上内容,可以理解的是,为了存储和执行本文提出的软件组件,在架构1600中发生了许多类型的物理变换。还可以理解,架构1600可以包括其他类型的计算设备,包括可穿戴设备、手持式计算机、嵌入式计算机系统、智能电话、PDA以及本领域技术人员已知的其他类型的计算设备。还可以构想,架构1600可以不包括图16所示的所有组件,可以包括在图16中未明确示出的其他组件,或者可以利用与图16所示的架构完全不同的架构。
以上描述的主题仅以例示的方式提供,并且不应被解释为限制性的。可以在不遵循所示出和描述的示例实施方式和应用的情况下,并且在不脱离在以下权利要求中阐述的本发明的真实精神和范围的情况下,对本文描述的主题进行各种修改和改变。
Claims (19)
1.一种用于对生命科学文档进行分类和解释的计算机实现的方法,所述方法包括:
接收所述生命科学文档的数字化表示,所述数字化表示包括文档元素,所述文档元素包括文本或图像中的一者或更多者;
对所述生命科学文档的所述数字化表示进行文本分析,所述文本分析包括识别文本中的原始词语;
对所述生命科学文档的所述数字化表示进行构造分析,所述构造分析包括识别文档上下文,所述文档上下文描述文档元素的特征以及文档元素在所述生命科学文档的页面上的相对空间位置;
对所述生命科学文档的所述数字化表示进行图像分析,所述图像分析包括对图像进行识别并对所识别的所述图像进行处理以提取文档元素的附加特征;以及
集合地利用所述文本分析、所述构造分析和所述图像分析的结果,以将所述生命科学文档分类为一个或更多个预定义的类别。
2.根据权利要求1所述的计算机实现的方法,其中,所述相对空间位置包括页眉、页脚、说明文字、脚注或标题中的一者。
3.根据权利要求1所述的计算机实现的方法,其中,对上下文的识别还包括识别所述生命科学文档的格式。
4.根据权利要求1所述的计算机实现的方法,其中,所述图像分析还包括识别徽标、图形、图解、图解文本或说明文字。
5.根据权利要求4所述的计算机实现的方法,其中,所述图像分析还包括对所识别的所述徽标、所述图形、所述图解、所述图解文本或所述说明文字中的一者或更多者进行解释。
6.根据权利要求1所述的计算机实现的方法,其中,所述文档元素的特征包括文本的字体、大小或格式中的一者。
7.根据权利要求1所述的计算机实现的方法,其中,所述构造分析还包括跟踪邻近的各个文档元素的文本。
8.根据权利要求1所述的计算机实现的方法,其中,所述图像分析还包括图像到文本的转换,以从图像提取数字化形式的文本。
9.根据权利要求1所述的计算机实现的方法,还包括将所述生命科学文档中的内容分类为一个或更多个预定义的类别。
10.根据权利要求1所述的计算机实现的方法,其中,所述文本分析包括跟踪所述生命科学文档中的文本的序列。
11.根据权利要求1所述的计算机实现的方法,其中,所述文本分析、所述构造分析或所述图像分析中的一者或更多者生成与所述生命科学文档相关联的元数据,其中,所述元数据至少部分地用于执行所述分类。
12.根据权利要求1所述的计算机实现的方法,其中,所述一个或更多个预定义的类别包括由药物信息协会定义的类别。
13.根据权利要求1所述的计算机实现的方法,还包括用标签标记所述生命科学文档,所述标签包括分类标签和事件标签。
14.根据权利要求13所述的计算机实现的方法,其中,所述事件标签被配置成用于作为触发器或警报来操作。
15.一种被配置成作为计算机实现的自动分类和解释工具来操作的计算设备,所述计算设备包括:
一个或更多个处理器;和
一种或更多种非暂时性计算机可读存储介质,所述存储介质存储指令,所述指令在由所述一个或更多个处理器执行时使所述计算设备:
将一个或更多个生命科学文档解构为标准化数据结构,以生成作为对计算机实现的自动分类和解释工具的输入的文档元素,所述文档元素包括图像和数字化文本,
对所述文档元素进行文本分析、构造分析和图像分析的组合,以创建所述生命科学文档的基于上下文的表示,从而识别所述文档元素之间的空间关系,
提取对所述文档元素中的一个或更多个文档元素进行描述的元数据,
利用所述基于上下文的表示和所提取的元数据来帮助将所述生命科学文档分类为预定义的类别。
16.根据权利要求15所述的计算设备,其中,所执行的所述指令还致使所述计算设备将所述生命科学文档解释为事件、动作或触发器。
17.根据权利要求15所述的计算设备,其中,所执行的所述指令还致使所述计算设备使用机器学习过程对所述生命科学文档进行分类,其中,所述机器学习过程是能够根据来自人类操作员的输入进行调整的。
18.对可执行指令进行存储的一种或更多种非暂时性计算机可读存储介质,当所述可执行指令由计算设备中的一个或更多个处理器执行时,所述可执行指令实现计算机实现的自动分类工具,所述计算机实现的自动分类工具被配置为执行包括以下步骤的方法:
识别数字化生命科学文档中的原始文本;
识别所述数字化生命科学文档的构造,以对文本和图像元素在所述数字化生命科学文档中的相对空间位置进行识别;
识别图像以提取数字化形式的文本;
识别原始的和所提取的文本的特征;
将所述识别的步骤中的每个步骤的结果组合利用来生成元数据;以及
利用所生成的所述元数据对所述生命科学文档进行分类。
19.根据权利要求18所述的一种或更多种非暂时性计算机可读存储介质,其中,所述分类利用对所述结果进行加权、潜在语义分析的应用或非参数ANCOVA(协方差分析)中的一者或更多者。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/289,729 US10839205B2 (en) | 2019-03-01 | 2019-03-01 | Automated classification and interpretation of life science documents |
US16/289,729 | 2019-03-01 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111639178A true CN111639178A (zh) | 2020-09-08 |
Family
ID=69743015
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010129780.5A Pending CN111639178A (zh) | 2019-03-01 | 2020-02-28 | 生命科学文档的自动分类和解释 |
Country Status (3)
Country | Link |
---|---|
US (3) | US10839205B2 (zh) |
EP (1) | EP3702963A3 (zh) |
CN (1) | CN111639178A (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10839205B2 (en) | 2019-03-01 | 2020-11-17 | Iqvia Inc. | Automated classification and interpretation of life science documents |
US11574491B2 (en) | 2019-03-01 | 2023-02-07 | Iqvia Inc. | Automated classification and interpretation of life science documents |
US11157730B2 (en) | 2019-06-24 | 2021-10-26 | Scinapsis Analytics Inc. | Determining experiments represented by images in documents |
US11328122B2 (en) * | 2019-08-08 | 2022-05-10 | Rubrik, Inc. | Data classification using spatial data |
US11361155B2 (en) | 2019-08-08 | 2022-06-14 | Rubrik, Inc. | Data classification using spatial data |
US11461539B2 (en) * | 2020-07-29 | 2022-10-04 | Docusign, Inc. | Automated document highlighting in a digital management platform |
EP4009194A1 (en) * | 2020-12-04 | 2022-06-08 | IQVIA Inc. | Automated classification and interpretation of life science documents |
JP2022120902A (ja) * | 2021-02-08 | 2022-08-19 | セイコーエプソン株式会社 | 情報処理装置、学習装置、及び情報処理装置の制御方法 |
EP4109297A3 (en) * | 2021-06-04 | 2023-03-15 | IQVIA Inc. | Automated classificaton and interpretation of life science documents |
CN113822330A (zh) * | 2021-08-11 | 2021-12-21 | 东华大学 | 基于自然语言推断分类数据集的降噪装置及方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102750541A (zh) * | 2011-04-22 | 2012-10-24 | 北京文通科技有限公司 | 一种文档图像分类识别方法及装置 |
US8724907B1 (en) * | 2012-03-28 | 2014-05-13 | Emc Corporation | Method and system for using OCR data for grouping and classifying documents |
CN104142961A (zh) * | 2013-05-10 | 2014-11-12 | 北大方正集团有限公司 | 版式文档中复合图的逻辑处理装置和逻辑处理方法 |
CN106250385A (zh) * | 2015-06-10 | 2016-12-21 | 埃森哲环球服务有限公司 | 用于文档的自动化信息抽象处理的系统和方法 |
US20170206409A1 (en) * | 2016-01-20 | 2017-07-20 | Accenture Global Solutions Limited | Cognitive document reader |
CN108416279A (zh) * | 2018-02-26 | 2018-08-17 | 阿博茨德(北京)科技有限公司 | 文档图像中的表格解析方法及装置 |
US20180300315A1 (en) * | 2017-04-14 | 2018-10-18 | Novabase Business Solutions, S.A. | Systems and methods for document processing using machine learning |
US20180330202A1 (en) * | 2015-08-27 | 2018-11-15 | Longsand Limited | Identifying augmented features based on a bayesian analysis of a text document |
CN109117479A (zh) * | 2018-08-13 | 2019-01-01 | 数据地平线(广州)科技有限公司 | 一种金融文档智能核查方法、装置及存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9311568B1 (en) | 2014-05-21 | 2016-04-12 | Yummly, Inc. | Recipe text and image extraction |
US10540424B2 (en) * | 2017-06-13 | 2020-01-21 | Microsoft Technology Licensing, Llc | Evaluating documents with embedded mathematical expressions |
US10839164B1 (en) | 2018-10-01 | 2020-11-17 | Iqvia Inc. | Automated translation of clinical trial documents |
US10839205B2 (en) | 2019-03-01 | 2020-11-17 | Iqvia Inc. | Automated classification and interpretation of life science documents |
US11574491B2 (en) | 2019-03-01 | 2023-02-07 | Iqvia Inc. | Automated classification and interpretation of life science documents |
-
2019
- 2019-03-01 US US16/289,729 patent/US10839205B2/en active Active
-
2020
- 2020-02-28 EP EP20160213.3A patent/EP3702963A3/en active Pending
- 2020-02-28 CN CN202010129780.5A patent/CN111639178A/zh active Pending
- 2020-10-14 US US17/070,533 patent/US11373423B2/en active Active
-
2022
- 2022-05-17 US US17/746,233 patent/US11869263B2/en active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102750541A (zh) * | 2011-04-22 | 2012-10-24 | 北京文通科技有限公司 | 一种文档图像分类识别方法及装置 |
US8724907B1 (en) * | 2012-03-28 | 2014-05-13 | Emc Corporation | Method and system for using OCR data for grouping and classifying documents |
CN104142961A (zh) * | 2013-05-10 | 2014-11-12 | 北大方正集团有限公司 | 版式文档中复合图的逻辑处理装置和逻辑处理方法 |
CN106250385A (zh) * | 2015-06-10 | 2016-12-21 | 埃森哲环球服务有限公司 | 用于文档的自动化信息抽象处理的系统和方法 |
US20180330202A1 (en) * | 2015-08-27 | 2018-11-15 | Longsand Limited | Identifying augmented features based on a bayesian analysis of a text document |
US20170206409A1 (en) * | 2016-01-20 | 2017-07-20 | Accenture Global Solutions Limited | Cognitive document reader |
US20180300315A1 (en) * | 2017-04-14 | 2018-10-18 | Novabase Business Solutions, S.A. | Systems and methods for document processing using machine learning |
CN108416279A (zh) * | 2018-02-26 | 2018-08-17 | 阿博茨德(北京)科技有限公司 | 文档图像中的表格解析方法及装置 |
CN109117479A (zh) * | 2018-08-13 | 2019-01-01 | 数据地平线(广州)科技有限公司 | 一种金融文档智能核查方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US10839205B2 (en) | 2020-11-17 |
US20220277576A1 (en) | 2022-09-01 |
EP3702963A2 (en) | 2020-09-02 |
US11869263B2 (en) | 2024-01-09 |
US20210034855A1 (en) | 2021-02-04 |
EP3702963A3 (en) | 2020-10-14 |
US20200279108A1 (en) | 2020-09-03 |
US11373423B2 (en) | 2022-06-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11869263B2 (en) | Automated classification and interpretation of life science documents | |
RU2571545C1 (ru) | Классификация изображений документов на основании контента | |
US11574491B2 (en) | Automated classification and interpretation of life science documents | |
US8737771B2 (en) | Annotation addition method, annotation addition system using the same, and machine-readable medium | |
US20170185913A1 (en) | System and method for comparing training data with test data | |
US11854285B2 (en) | Neural network architecture for extracting information from documents | |
CN113420116A (zh) | 医疗文档的分析方法、装置、设备及介质 | |
Wilary et al. | ReactionDataExtractor 2.0: A deep learning approach for data extraction from chemical reaction schemes | |
US20210295031A1 (en) | Automated classification and interpretation of life science documents | |
CN112417996A (zh) | 工业图纸的信息处理方法、装置、电子设备和存储介质 | |
CN114724156A (zh) | 表单识别方法、装置及电子设备 | |
EP4009194A1 (en) | Automated classification and interpretation of life science documents | |
CN111797396A (zh) | 恶意代码可视化及变种检测方法、装置、设备及存储介质 | |
CN116721713A (zh) | 一种面向化学结构式识别的数据集构建方法和装置 | |
CN111797395A (zh) | 恶意代码可视化及变种检测方法、装置、设备及存储介质 | |
KR102502422B1 (ko) | 전자 문서 내 인공지능 기반 정보 추출 방법 및 장치 | |
WO2023183096A1 (en) | Self-supervised system for learning a user interface language | |
CN115937660A (zh) | 验证码的识别方法及装置 | |
CN112783483B (zh) | 基于悬浮按钮组件的功能创建方法、装置、设备及介质 | |
US10522246B2 (en) | Concepts for extracting lab data | |
EP4109297A2 (en) | Automated classificaton and interpretation of life science documents | |
US20230282013A1 (en) | Automated key-value pair extraction | |
JP7429374B2 (ja) | 情報処理システム、情報処理方法及び情報処理プログラム | |
EP4125066B1 (en) | Method and system for table structure recognition via deep spatial association of words | |
RU2777354C2 (ru) | Система распознавания изображения: beorg smart vision |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |