CN113874954A

CN113874954A - 用于将视频、图像和音频数据与文本数据组合以进行综合数据分析的方法和系统

Info

Publication number: CN113874954A
Application number: CN201980096658.8A
Authority: CN
Inventors: J·文卡塔拉曼; P·加西亚基尔罗伊
Original assignee: Verb Surgical Inc
Current assignee: Verb Surgical Inc
Priority date: 2019-05-21
Filing date: 2019-05-24
Publication date: 2021-12-31
Also published as: US20220028525A1; KR20210157912A; EP3973544A1; WO2020236190A1; US11139062B2; US11935641B2; US20200372998A1; EP3973544A4

Abstract

本专利公开提供了以有意义的方式组合不同格式，具体地为视频、图像和音频的形式的非文本外科手术数据的多种模态的各种实施方案，使得来自该多种模态的组合数据与文本数据兼容。在一些实施方案中，在组合该外科手术数据的多种模态之前，使用多个分割引擎来分割外科手术数据的对应模态并将其转换成对应的一组指标和参数。然后将对应于该多种模态的该多组指标和参数组合以生成组合特征组。可将该组合特征组提供给数据分析工具，以用于对该组合特征组执行综合数据分析，以生成对该外科规程的一个或多个预测。

Description

用于将视频、图像和音频数据与文本数据组合以进行综合数据分析的方法和系统

技术领域

本公开整体涉及构建外科手术数据分析工具，并且更具体地涉及用于将在外科规程期间所收集的视频、图像和音频数据与文本数据组合以进行综合外科手术数据分析的系统、装置和技术。

背景技术

数据分析工具被设计成组合来自众多数据来源的数据，并以特定方式呈现和可视化组合数据以满足用户的需求。大多数现有的数据分析工具针对基于行的数据输入和基于列的维度过滤进行优化。基于此类设计，现有的数据分析工具能够由组合数据生成度量、指标、模式、比较。如今，现有数据分析工具的功能正变得越来越可扩展到数据的大小，无论数据大小如何，都可进行无缝的可视化和决策。

然而，现有的数据分析工具具有这样的限制，使得它们只能对字母数字或文本数据执行分析。同时，有大量应用生成不仅是文本格式的信息，而且可以是图像、视频和音频的形式。此类应用的一个示例是外科手术。在外科规程的术前(preoperative)(或以下简称“术前(pre-op)”)阶段和术中(intraoperative)(或以下简称“术中(intra-op)”)阶段期间，可生成大量文本数据，诸如患者生命体征、患者信息、外科医生信息和医院统计信息等等。然而，在外科规程的术前体检期间生成的信息可为图像的形式；并且在术中阶段期间(即，在实际外科规程期间)生成的信息可包括临床照片和图像形式的射线照片快照、视频形式的规程数据以及音频形式的外科医生叙述/对话。所有这些形式的非文本数据都是有价值的信息，可在确定外科手术表现(诸如患者结果、规程持续时间和医院成本等)方面发挥重要作用。遗憾的是，现有的数据分析工具无法够通过将由外科规程生成的文本数据和非文本数据组合来执行综合数据分析。

发明内容

本专利公开提供了以有意义的方式组合不同格式，具体地为视频、图像和音频的形式的非文本数据的多种模态的各种实施方案，使得来自该多种模态的组合数据与文本数据兼容。在一些实施方案中，组合数据包括N维特征空间中的一组N个文本特征。例如，对于外科手术应用，该组N个文本特征可包括文本格式的一组外科手术指标/测量结果。接下来，组合数据可进一步与来自各种来源的可用文本数据组合以生成综合数据组，该综合数据组可由基于文本的数据分析工具理解和处理。

在一些实施方案中，在将非文本数据的多种模态与文本数据组合之前，首先分割多种模态中的每种数据模态并将其转换成一组文本特征。在一个或多个实施方案中，可构造不同的基于机器学习的分割引擎，以针对数据的不同模态执行对应的数据分割和转换。对于特定应用诸如外科手术应用，可存在分别针对三种通常已知的模态(即，视频数据、图像数据和音频数据)设计的至少三个分割引擎。

在一些实施方案中，一旦数据的给定模态已转换成一组对应的文本特征，则该组文本特征可与文本数据的其他来源组合，包括从非文本数据和原始文本数据的其他模态转换的文本特征。一旦数据的所有可用模态都已转换成文本特征并与其他文本数据来源组合，则组合特征组然后可用于使用现有的基于文本的数据分析工具执行综合数据分析。通过用非文本数据的多种模态补充原始文本数据，数据分析工具的输出(诸如基于所提议的综合数据分析技术生成的预测或决策)可明显比基于仅分析一种数据模态或仅分析单独的文本数据生成的预测或决策更准确。

在一个方面，公开了一种用于组合外科手术数据的多种模态以用于对外科规程执行综合数据分析的过程。该过程可通过从不同数据来源接收外科手术数据的两种或更多种模态来开始。接下来，对于外科手术数据的两种或更多种模态中的每种模态，该过程应用对应的分割引擎来将外科手术数据的对应模态转换成对应的一组文本特征。然后，该过程组合对应于两种或更多种模态的两组或更多组文本特征以生成组合特征组。随后，该过程将组合特征组提供给数据分析工具以用于对组合特征组执行综合数据分析，以生成对外科规程的一个或多个预测。

在一些实施方案中，外科手术数据的两种或更多种模态中的每种模态均为非文本外科手术数据的形式。

在一些实施方案中，外科手术数据的两种或更多种模态包括以下模态中的至少两者：视频数据、图像数据和音频数据。

在一些实施方案中，视频数据包括以下中的一者或多者：实时内窥镜规程视频；离线内窥镜规程视频；和由一个或多个手术室相机捕获的外科规程视频。

在一些实施方案中，图像数据包括以下中的一者或多者：X射线图像、计算机断层摄影(CT)图像、磁共振成像(MRI)图像、超声图像和其他放射摄影图像。

在一些实施方案中，图像数据包括以下中的一者或多者：在外科规程的术前阶段期间生成的医学图像；在外科规程的术中阶段期间生成的医学图像；和在外科规程的术后时间段期间生成的医学图像。

在一些实施方案中，音频数据包括外科医生关于以下中的一者或多者叙述或讨论外科规程的录制音频：异常解剖结构；外科规程中的异常；标志性事件；和并发症。

在一些实施方案中，该过程应用视频分割引擎以通过以下方式将视频数据转换成对应的一组文本特征：将外科规程的内窥镜视频分割成对应于一组外科手术阶段的一组视频片段；以及从该组视频片段中的每个视频片段中提取一个或多个外科手术指标和参数。

在一些实施方案中，该过程应用音频分割引擎以通过以下方式将音频数据转换成对应的一组文本特征：将外科规程的规程音频分割成对应于该组外科手术阶段的一组音频片段；以及使用自然语言处理模型从该组音频片段中的每个音频片段中提取一个或多个外科手术指标和参数。

在一些实施方案中，在组合两组或更多组文本特征以生成组合特征组之后，该过程还包括以下步骤：将组合特征组与和外科规程相关联的一组文本数据组合以形成用于外科规程的综合特征组；以及将综合特征组提供给数据分析工具以取代组合特征组，用于对综合特征组执行综合数据分析，以生成对外科规程的一个或多个预测。

在一些实施方案中，在应用对应的分割引擎将外科手术数据的对应模态转换成对应的一组文本特征之前，该过程还包括以下步骤：对外科手术数据的两种或更多种模态执行时间同步，以针对两种或更多种模态中的每种模态生成时间同步的外科手术数据。因此，应用对应的分割引擎来转换外科手术数据的对应模态包括将对应的分割引擎应用于对应的时间同步的外科手术数据。

在另一方面，公开了一种用于组合外科手术数据的多种模态以用于对外科规程执行综合数据分析的系统。该系统包括：一个或多个处理器；和存储器，该存储器耦接到该一个或多个处理器。该系统还包括：接收模块，该接收模块被配置为从不同数据来源接收外科手术数据的两种或更多种模态；两个或更多个分割引擎，该两个或更多个分割引擎对应于外科手术数据的两种或更多种模态，其中每个分割引擎被配置为将外科手术数据的对应模态转换成对应的一组特征；和组合模块，该组合模块被配置为组合对应于两种或更多种模态的两组或更多组特征以生成组合特征组。随后，该系统将组合特征组提供给数据分析工具以用于对组合特征组执行综合数据分析，以生成对外科规程的一个或多个预测。

在一些实施方案中，两个或更多个分割引擎包括视频分割引擎，该视频分割引擎被配置为通过以下方式将视频数据转换成对应的一组文本特征：将外科规程的内窥镜视频分割成对应于一组外科手术阶段的一组视频片段；以及从该组视频片段中的每个视频片段中提取一个或多个外科手术指标和参数。

在一些实施方案中，两个或更多个分割引擎包括音频分割引擎，该音频分割引擎被配置为通过以下方式将音频数据转换成对应的一组文本特征：将外科规程的规程音频分割成对应于该组外科手术阶段的一组音频片段；以及使用自然语言处理模型从该组音频片段中的每个音频片段中提取一个或多个外科手术指标和参数。

在一些实施方案中，组合模块被进一步配置为：将组合特征组与和外科规程相关联的一组文本数据组合以形成用于外科规程的综合特征组；以及将综合特征组提供给数据分析工具以取代组合特征组，用于对综合特征组执行综合数据分析，以生成对外科规程的一个或多个预测。

在一些实施方案中，该系统还包括同步模块，该同步模块被配置为对外科手术数据的两种或更多种模态执行时间同步，以针对两种或更多种模态中的每种模态生成时间同步的外科手术数据。因此，每个分割引擎被配置为将时间同步的外科手术数据的对应模态转换成对应的一组文本特征。

在又一方面，公开了一种用于组合外科手术数据的多种模态以用于对外科规程执行综合数据分析的设备。该设备可包括接收模块，该接收模块被配置为从不同数据来源接收外科手术数据的两种或更多种模态。该设备还包括分割引擎，该分割引擎对应于外科手术数据的两种或更多种模态中的每种模态，并且被配置为将外科手术数据的相应模态分割成对应于一组外科手术阶段的一组片段，并且从该组视频片段中的每个视频片段提取一个或多个外科手术指标和参数。该设备另外包括组合模块，该组合模块用于将所提取的对应于两种或更多种模态的外科手术指标和参数组组合以生成组合特征组。该组合模块被进一步配置为将组合特征组提供给数据分析工具以用于对组合特征组执行综合数据分析，以生成对外科规程的一个或多个预测。

附图说明

通过查看以下具体实施方式和附图将理解本公开的结构和操作，在附图中类似的附图标号是指类似的部件，并且其中：

图1示出了根据本文所述的一些实施方案的示例性多模态外科手术数据分析系统的框图。

图2呈现了示出根据本文所述的一些实施方案的用于将外科手术数据的多种模态组合到文本特征空间中以执行综合数据分析的示例性过程的流程图。

图3呈现了示出根据本文描述的一些实施方案的用于执行外科规程的时间同步的多模态数据分析的示例性过程的流程图。

图4概念性地示出了可用以实现本主题技术的一些实施方案的计算机系统。

具体实施方式

下文列出的具体实施方式旨在作为本主题技术的各种配置的描述，并非旨在表示可实践本主题技术的唯一配置。附图并入本文并构成具体实施方式的一部分。具体实施方式包括特定细节，其目的在于提供对本主题技术的透彻理解。然而，本主题技术不限于本文列出的特定细节，并且可在没有这些特定细节的情况下被实践。在一些情况下，结构和部件在框图中示出，以避免模糊本主题技术的概念。

在整个说明书中，术语“文本数据”或“文本特征”可包括基于纯字母的数据或特征、基于纯数字的数据或特征以及基于组合字母数字的数据或特征。组合的基于字母数字的数据或特征在下文中也称为字母数字数据或字母数字特征。

在一些实施方案中，在将非文本数据的多种模态与文本数据组合之前，首先分割多种模态中的每种数据模态并将其转换成一组文本特征。在一个或多个实施方案中，不同的基于机器学习的分割引擎(或下文简称为“分割引擎”)可被构造成针对数据的不同模态执行对应的数据分割和转换。对于特定应用(诸如例如外科手术应用)，可存在分别针对三种通常已知的模态(即，视频数据、图像数据和音频数据)设计的至少三个分割引擎。然而，对于数据的相同模态(例如，视频数据)，但与不同指标和参数相关联的不同应用(例如，外科手术应用和安全应用)，需要构造不同的分割引擎，然后分别使用它们来转换不同应用的相同数据模态。

在一些实施方案中，一旦数据的给定模态已转换成一组对应的文本特征，则该组文本特征可与文本数据的其他来源组合，包括从非文本数据和原始文本数据的其他模态转换的文本特征。一旦数据的所有可用模态都已转换成文本特征并与其他文本数据来源组合，则组合特征组然后可用于使用现有的基于文本的数据分析工具执行综合数据分析。通过用非文本数据的多种模态补充原始文本数据，数据分析工具的输出，诸如基于所提议的综合数据分析生成的预测或决策，可明显比基于仅分析一种数据模态或仅分析单独的文本数据生成的预测或决策更准确。虽然以下在外科手术数据分析的上下文中描述了所提议的数据分析技术，但所提议的数据分析技术通常适用于各种其他数据分析应用，包括各种其他基于医疗保健的应用。

对于包括在手术室(OR)内执行的外科规程的外科手术应用，可收集所有类型的文本数据。例如，通常持续监测和记录患者的不同生命体征以形成外科手术的文本数据的一部分，而文本数据的其他来源可包括患者信息、提供者信息、外科医生信息和医院信息。除了文本数据的各种来源之外，非文本外科手术数据通常可包括视频数据、图像数据和音频数据。与外科规程相关联的图像数据可包括从各种成像过程诸如从X射线成像、CT扫描、MRI扫描和超声扫描收集的各种类型的图像数据。此外，每种类型的图像数据可在外科手术的术前(preoperative)(或以下简称“术前(pre-op)”)准备/规划阶段期间生成，或者在外科手术期间从术中(intraoperative)或以下简称“术中(intra-op)”)成像过程生成。图像数据还可包括从外科手术视频(例如，内窥镜视频)数据中抓取的快照。对于肿瘤移除外科手术，可使用图像数据来确定肿瘤的位置和大小以及所使用的成像类型。另一种常见形式的非文本外科手术数据(与外科规程相关联的视频数据)可包括由患者体内的内窥镜相机捕获的实际外科规程的内窥镜规程视频，以及由安装在外科手术部位附近(例如，正上方)的一个或多个OR相机捕获的外科规程视频。又一种常见形式的非文本外科手术数据(与外科规程相关联的音频数据)可包括外科医生叙述/讨论外科规程的录制音频，诸如关于解剖结构、异常、事件、并发症等。

需注意，尽管外科手术视频包含丰富的医学信息，但单独使用视频数据而不与外科手术数据的其他模态协作通常可能导致不正确的结论。例如，如果希望仅基于可用的外科手术视频来比较两个外科规程A和B的性能，则朴素分析将提取并比较不同外科手术阶段的持续时间和由相关外科手术视频捕获的两个规程的总体持续时间。很容易得出结论，即按时完成每个外科手术阶段和整个规程的规程A是执行较好的规程；而在一个或多个外科手术阶段和/或整个规程中花费比预期长得多的时间的规程B是执行较差的规程。然而，如果规程B的患者回家后很快从外科手术中恢复，没有任何并发症，而规程A的患者回家后，由于健康状况恶化，在一周内再次入院，则规程B最有可能是执行较好的规程，而规程A是执行较差的规程。

因此，对于与外科手术应用相关联的某些复杂指标(例如，外科规程和外科手术结果之间的关系)，仅对视频数据执行数据分析通常无法得出关于指标的正确结论。因此，为了以高准确度预测外科手术结果，还将需要除外科手术视频之外的另外的数据模态。这些另外的数据模态可包括术前成像数据和/或术中成像数据，例如，用于确定是否已检测到肿瘤，以及检测到的肿瘤的位置和大小。另外的数据模态还可包括在外科规程期间录制的音频数据(例如，当外科医生叙述某些外科手术步骤时)。例如，外科医生的叙述可能会表达一种担忧，诸如表明患者的解剖结构异常大或发生了诸如冒气或出血的并发症事件，这可用来解释比平常更长的外科手术步骤或整个外科规程。此外，另外的数据还可包括在术前、术中和术后(postoperative)(或以下简称“术后(post-op)”)时间段中的一者或多者期间收集的文本数据，诸如在术后时间段期间从监测患者收集的所有重要数据。在一些实施方案中，为了收集用于外科手术分析的全谱数据，可从患者来医院进行第一次会诊的时刻到患者完全治愈的时刻收集不同模态的外科手术数据。

虽然上述示例说明了仅使用视频数据得出某些外科手术相关指标结论的不足，但通常在四种常见模态(即视频、图像、音频和文本)中仅使用一种或两种模态的数据(诸如仅视频、仅图像、仅音频、仅文本或仅视频与文本)来正确预测某些外科手术性能指标是不够的。相反，应使用更综合的数据集合，结合外科手术数据的多种模态，为这些外科手术性能指标得出更准确的结论。例如，更综合的数据集合可包括术前和术中图像数据、术中内窥镜视频和外科医生叙述的术中音频，以及各种术前、术中和术后文本数据。在一些实施方案中，以有意义的方式组合数据的不同模态需要首先将数据的每种模态转换成通用格式。在具体实施方案中，这包括将数据的每个非文本模态转换成一组文本特征。接下来，可将来自数据的多个非文本模态的转换的多组文本特征与原始文本数据组合，因为它们都具有通用格式。最后，可将适当的数据分析工具应用于组合数据，以对某些外科手术性能指标做出正确或更准确的预测。

在一些实施方案中，为了将数据的多种模态转换成通用格式，针对数据的每种模态构造单独的分割引擎。例如，可构造用于将内窥镜视频转换成文本的视频分割引擎。在一些实施方案中，视频分割引擎可首先将内窥镜视频分割成对应于一组外科手术阶段和/或步骤的一组视频片段，然后从该组视频片段中的每个视频片段中提取一个或多个外科手术指标和参数，诸如定时信息和工具使用信息。

另外，用于将音频(例如，基于各种自然语言处理技术)转换为文本的音频分割引擎，以处理外科医生的叙述/讨论的音频文件。例如，音频分割引擎可首先基于来自上述视频分割引擎的分割输出将规程音频分割成一组外科手术阶段和/或步骤。接下来，音频分割引擎可从该组音频片段中提取外科手术相关的指标和参数，诸如外科医生表达的异常解剖结构、并发症和标志性事件的问题。此外，用于将图像转换成文本的图像分割引擎可被构造成分割术前和/或术中图像并提取外科手术相关指标和参数，诸如给定图像中肿瘤的位置和大小。除了上述三个数据分割引擎之外，还可构造另外的分割引擎，用于将数据的其他模态转换成文本，其中其他模态可包括某些3D图像和全息图像。

图1示出了根据本文所述的一些实施方案的示例性多模态外科手术数据分析系统100的框图。如在图1中可见，多模态外科手术数据分析系统100(在下文也称为“数据分析系统100”或“外科手术数据分析系统100”)包括一组数据分割引擎102-106、特征合并模块108、文本数据合并模块110和数据分析工具112，它们以所示顺序彼此耦接。此外，数据分割引擎102-106、特征合并模块108和文本数据合并模块110形成综合特征生成模块142。

如在图1中可见，外科手术数据分析系统100接收视频数据112、图像数据114和音频数据116作为输入。视频数据112可包括在实际外科规程期间捕获的内窥镜规程视频，以及由安装在外科手术部位附近(例如，正上方)的一个或多个OR相机捕获的外科规程视频。此外，视频数据112可包括实时视频馈送(如果在外科规程期间实时执行数据分析)和离线视频(如果在外科规程之后执行数据分析)两者。图像数据可包括X射线图像、CT图像、MRI图像、超声图像等等，并且每种类型的图像数据可从外科规程的术前准备/规划阶段、从术中实时成像或从外科规程之后的术后时间段生成。此外，图像数据114可包括实时图像(如果在外科规程期间实时执行数据分析)和离线图像(如果在外科规程之后执行数据分析)两者。外科规程的音频数据116可包括外科医生叙述/讨论外科规程的录制音频文件，诸如关于解剖结构、事件、并发症等。

外科手术数据分析系统100还包括一组基于机器学习的分割引擎102-106，用于将视频数据112、图像数据114和音频数据116中的每一者转换成对应的一组文本特征。更具体地，分割引擎102-106中的每一者被配置为分割外科手术数据112-116的对应模态并且从对应的外科手术数据中提取对应的一组文本特征122-126。例如，分割引擎102可被配置为将视频数据112中的视频片段转换成表示视频片段中所示的解剖结构的字母数字值的第一阵列。同时，分割引擎104可被配置为将图像数据114中的一组放射摄影图像转换成表示在该组放射摄影图像中检测到的一个或多个对象的字母数字值的第二阵列。此外，分割引擎106可被配置为将音频数据116中的音频剪辑转换成表示从外科医生的叙述/讨论中提取的解剖结构、担忧、并发症或标志性事件的字母数字值的第三阵列。

在一些实施方案中，每组提取的文本特征122-126由表示特定外科规程的一组指标组成，其中该组指标中的指标表示为文本或字母数字值。例如，由视频数据分割引擎102生成的文本特征122可包括一组指标，包括：(a)各种外科手术阶段和步骤所花费的时间；(b)一组技能指标，其可表示为文本或数字箱；(c)异常解剖结构的量化，诸如每个检测到的异常(诸如肿瘤)的位置、大小和其他度量；(d)给定外科手术工具的使用次数；(e)解剖结构内的工具空闲时间；(f)出血事件的量化；和(g)冒气事件的量化。由图像数据分割引擎104生成的文本特征124可包括一组指标，包括患者放射摄影图像中示出的异常解剖结构(例如，肿瘤组织)的量化，诸如每个检测到的异常的位置、大小和其他度量。由音频数据分割引擎106生成的文本特征126可包括一组指标，包括从外科医生的叙述/对话转录为文本的异常事件(诸如并发症)或解剖结构(例如，异常大的解剖结构)的标记。

在各种实施方案中，分割引擎102-106中的每一者可包括基于回归模型构建的机器学习模型、基于深度神经网络的模型、支持向量机、决策树、朴素贝叶斯分类器、贝叶斯网络或k近邻(KNN)模型。在一些实施方案中，这些机器学习模型中的每一者基于卷积神经网络(CNN)架构、递归神经网络(RNN)架构或另一形式的深度神经网络(DNN)架构来构建。

回到图1，需注意，特征合并模型108被配置为从分割引擎102-106接收三组文本特征122-126，并且随后组合来自多种模态的特征组以在N维特征空间中生成组合特征组128。在一些实施方案中，对于给定的外科规程，N维特征空间中的组合特征组128是表示外科规程的N个外科手术指标的组合组，其中N个外科手术指标的组表示为文本或字母数字值。

然后，N维特征空间中的组合特征组128由文本数据合并模块110接收，该文本数据合并模块被配置为将组合特征组128与和来自多个数据来源的与外科规程相关联的可用文本数据140组合，以形成外科规程的综合特征组130。需注意，综合特征组130也由一组文本特征构成。还需注意，数据分割引擎102-106、特征合并模块108和文本数据合并模块110形成综合特征生成模块142，该综合特征生成模块被配置为将非文本外科手术数据的多种模态与基于文本的外科手术数据的多个来源组合成一组综合文本特征130。

最后，数据分析工具120被配置为接收综合特征组130，对所接收的文本数据执行数据分析，并且输出外科规程的一个或多个外科手术性能指标或结果132。在一些实施方案中，数据分析工具120是被设计成处理字母数字或文本数据的文本数据分析工具。在移除肿瘤的特定外科规程中，外科手术性能指标或结果132可包括诸如外科医生是否已正确识别并随后移除肿瘤，或者外科医生是否未能正确识别肿瘤的位置并且未能移除肿瘤的指标。需注意，输出外科手术性能指标/结果132可包括提供外科手术性能指标/结果132的可视化。

所公开的外科手术数据分析系统100可用于解决一些传统上困难的外科手术问题，这些外科手术问题不具有有效的自动化解决方案。例如，在移除目标肿瘤组织的外科规程期间，外科医生在患者体内使用内窥镜相机来试图定位目标肿瘤组织。虽然内窥镜相机捕获患者体内的解剖结构，但通常无法从内窥镜图像中轻松识别肿瘤组织，因为肿瘤组织通常看起来与周围组织没有特定差异。为了帮助实时确定肿瘤的位置，可在OR内在患者体内的肿瘤区域上方实时拍摄术中CT图像，其中肿瘤通常在CT图像中突出。理想的是拥有计算机程序，该计算机程序将CT图像中肿瘤的位置自动转换为内窥镜图像中的对应位置，并且实时突出显示内窥镜馈送上的位置。

然而，在实践中，将CT扫描中检测到的某些对象(诸如肿瘤组织)自动转换到内窥镜图像内的对应位置极其困难。事实上，将CT扫描内的特定位置或角方向准确地转换为内窥镜视频中的对应位置或角方向是一个有待解决的问题。转换困难的主要原因是两个成像系统使用两个完全不同的坐标系，它们彼此不匹配：CT图像是从患者体外拍摄的，而内窥镜图像是从患者体内拍摄的。此外，内窥镜相机的取向以及因此成像坐标轴可为竖直的、水平的或根据周围解剖结构成任意角度，并且它们还可随着内窥镜相机在解剖结构内的导航而不断变化。需注意，上述转换问题不限于术中CT扫描。当使用术中X射线扫描或术中超声扫描取代术中CT扫描时，存在相同的转换问题。

使用所公开的外科手术数据分析系统100，可将包括术中CT图像、在术中CT扫描期间捕获的内窥镜视频片段、在术中CT扫描期间记录的音频叙述/讨论的数据的多种模态转换成文本特征(例如，其可包括肿瘤的位置和大小)并组合成N维文本特征组。与其他相关文本数据组合的N维文本特征组可由机器学习模型处理，该机器学习模型被设计成将CT图像中肿瘤的位置转换为内窥镜视频中解剖结构上的对应位置。机器学习模型的输出还可包括一个性能指标，该性能指标表示外科医生的表现如何，诸如外科医生是否已正确识别并随后移除肿瘤，或者外科医生是否未能正确识别肿瘤的位置并且未能移除肿瘤。随时间推移，可基于数据分析系统100的性能对机器学习模型进行递归训练和改进。

为了以更有意义的方式组合数据的不同模态，可基于时间(或“时间同步”)来同步数据(例如，视频数据、图像数据、音频数据)的多种模态。例如，如果用于音频数据的分割引擎106可在音频中在例如t₀时间戳检测到正在讨论的事件(例如，定位解剖结构中的肿瘤)，并且分割引擎102也同时在内窥镜视频中检测到相同的事件，则可有意义地组合t₀时间戳附近的视频片段和音频片段。此外，如果在t₀时间戳发生另外的术中成像(例如，用移动CT扫描仪进行的CT扫描或用超声装置进行的超声扫描)，则可将这些图像与t₀时间戳附近的视频片段和音频片段有意义地组合，以用于做出协作决定，从而例如以高置信度确定内窥镜视频的解剖结构内肿瘤的位置。

在一些实施方案中，以更有意义的方式组合数据的多种模态可包括基于与特定模态相关联的容易识别的时间事件来使数据的多种模态同步(synchronizing/syncing)。例如，假设术中成像过程从t₀开始，从t₀到t₀+2分钟需要2分钟才能完成，并且还存在描述外科规程的对应音频，则将所得的术中图像与从t₀到t₀+2分钟的音频片段组合就变得更有意义了。此外，如果在t₀到t₀+2分钟的同一时间段内也存在对应的内窥镜视频，则也将来自相同2分钟片段的视频剪辑与对应的成像和音频数据组合将更有益。此外，如果在同一时间段还生成了文本数据，则这些文本数据也可与同一时间段的其他数据模态有意义地组合。

图2呈现了示出根据本文所述的一些实施方案的用于将外科手术数据的多种模态组合到文本特征空间中以执行综合数据分析的示例性过程200的流程图。在一个或多个实施方案中，可省略、重复和/或以不同次序执行图2中的步骤中的一个或多个步骤。因此，图2所示的步骤的具体布置不应理解为限制本技术的范围。

过程200可通过从多个来源接收外科手术数据的多种模态来开始(步骤202)。如上文所提及的，与特定外科规程相关联的外科手术数据的多种模态可包括但不限于图像数据、视频数据和音频数据。图像数据可包括放射摄影图像，诸如X射线图像、CT图像、MRI图像和超声图像，并且每种类型的图像数据可从外科规程的术前准备/规划阶段、从术中实时成像或从外科规程之后的术后时间段生成。视频数据可包括在实际外科规程期间捕获的内窥镜规程视频，以及由安装在外科手术部位附近的一个或多个OR相机捕获的外科规程视频。外科规程的音频数据可包括外科医生叙述/讨论外科规程的录制音频文件，诸如关于解剖结构、事件、并发症等。

接下来，对于每个所接收的外科手术数据模态，过程200使用对应的分割引擎将外科手术数据的对应模态转换成一组文本特征(步骤204)。更具体地，每个分割引擎被配置为分割外科手术数据的对应模态并且从外科手术数据中提取对应的一组文本特征。在一些实施方案中，每组提取的文本特征由表示特定外科规程的一组指标组成，其中该组指标表示为文本或字母数字值。

接下来，过程200组合来自多种模态的多组文本特征以在N维特征空间中生成组合特征组(步骤206)。在一些实施方案中，对于给定的外科规程，N维特征空间中的组合特征组是表示外科规程的N个指标的组合组，其中N个指标的组表示为文本或字母数字值。

过程200接下来进一步将N维特征空间中的组合特征组与和来自多个数据来源的与外科规程相关联的可用文本数据组合成用于外科规程的综合特征组(步骤208)。如上文所提及的，外科规程的文本数据可包括患者生命体征数据、患者用药数据、治疗计划、进展说明、以文本/字母数字形式的各种术前和术中以及术后测试结果、其他患者信息、外科医生信息和医院统计信息等等。最后，过程200将数据分析工具应用于综合特征组以执行综合数据分析，并且基于综合特征组生成外科规程的一个或多个外科手术性能指标或结果(步骤210)。例如，被设计成处理字母数字或文本数据的标准数据分析工具可用于处理综合数据组。

图3呈现了示出根据本文描述的一些实施方案的用于执行外科规程的时间同步的多模态数据分析的示例性过程300的流程图。在一个或多个实施方案中，可省略、重复和/或以不同次序执行图3中的步骤中的一个或多个步骤。因此，图3所示的步骤的具体布置不应理解为限制本技术的范围。

过程300可通过接收在患者体内的感兴趣区域的外科规程期间从术中成像过程生成的一组术中图像开始(步骤302)。例如，术中成像过程可包括：CT扫描；X射线扫描；MRI扫描、超声扫描等等。过程300接下来确定术中成像过程的开始时间戳t₁和结束时间戳t₂(步骤304)。接下来，过程300接收包含外科医生对外科规程的叙述和实际外科规程的内窥镜视频的录制OR音频(步骤306)。然后，过程300从OR音频中选择t₁和t₂之间的音频片段，并且从内窥镜视频中选择t₁和t₂之间的视频片段(步骤308)。接下来，过程300将该组术中图像、音频片段和视频片段提供给特征提取引擎，以提取多组文本特征并将其组合成N维特征空间中的组合特征组(步骤310)。需注意，步骤310中的特征提取引擎可利用结合图1所述的综合特征生成模块142来实现。

随后，过程300将N维特征组与和外科规程相关联的可用文本数据组合以形成外科规程的综合特征组(步骤312)。最后，过程300将数据分析工具应用于综合特征组以生成对感兴趣区域中的对象的准确预测(步骤314)。例如，对象可为感兴趣区域中的肿瘤，并且预测可包括将术中图像中所确定的肿瘤的位置转换为内窥镜视频内解剖结构中的对应位置。在一些实施方案中，如果在肿瘤移除规程期间实时执行数据分析，则可在实时内窥镜视频馈送中在解剖结构上突出显示来自数据分析输出的预测的肿瘤位置。

图4概念性地示出了可用以实现本主题技术的一些实施方案的计算机系统。计算机系统400可为客户端、服务器、计算机、智能电话、PDA、膝上型电脑或其中嵌入有或其上耦合有一个或多个处理器的平板电脑，或任何其他类型的计算装置。此类计算机系统包括各种类型的计算机可读介质和用于各种其他类型的计算机可读介质的接口。计算机系统400包括总线402、处理单元412、系统存储器404、只读存储器(ROM)410、永久性存储装置408、输入装置接口414、输出装置接口406和网络接口416。在一些实施方案中，计算机系统400是机器人外科系统的一部分。

总线402共同表示通信地连接计算机系统400的多个内部装置的所有系统总线、外围总线和芯片组总线。例如，总线402将处理单元412与ROM 410、系统存储器404和永久性存储装置408通信地连接。

处理单元412从这些各种存储器单元检索要执行的指令和要处理的数据，以便执行本专利公开中描述的各种过程，包括上文结合图1至图3所述的将外科手术数据的多种模态组合到文本特征空间中以执行综合数据分析的过程，以及对外科规程执行时间同步的多模态数据分析的过程。处理单元412可包括任何类型的处理器，包括但不限于微处理器、图形处理单元(GPU)、张量处理单元(TPU)、智能处理器单元(IPU)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)和专用集成电路(ASIC)。在不同具体实施中，处理单元412可为单个处理器或多核处理器。

ROM410存储处理单元412和计算机系统的其他模块需要的静态数据和指令。在另一方面，永久性存储装置408是读写存储器装置。该装置是即使在计算机系统400关闭时也存储指令和数据的非易失性存储器单元。本主题公开内容的一些具体实施使用海量存储装置(诸如磁盘或光盘及其对应的盘驱动器)作为永久性存储装置408。

其他具体实施使用可移除存储装置(诸如软盘、闪存驱动器及其对应的盘驱动器)作为永久性存储装置408。与永久性存储装置408类似，系统存储器404是读写存储器装置。然而，与存储装置408不同的是，系统存储器404是易失性读写存储器，诸如随机存取存储器。系统存储器404存储处理器在运行时需要的指令和数据中的一些指令和数据。在一些具体实施中，本专利公开中描述的各种过程，包括上文结合图1至图3所述的将外科手术数据的多种模态组合到文本特征空间中以执行综合数据分析的过程，以及对外科规程执行时间同步的多模态数据分析的过程被存储在系统存储器404、永久性存储装置408和/或ROM 410中。处理单元412从这些各种存储器单元检索要执行的指令和要处理的数据，以便执行一些具体实施的方法。

总线402还连接到输入装置414和输出装置406。输入装置414使得用户能够向计算机系统传送信息并选择用于计算机系统的命令。输入装置414可包括例如字母数字键盘和指向装置(也称为“光标控制装置”)。输出装置406使得能够例如显示由计算机系统400生成的图像。输出装置406可包括例如打印机和显示装置，诸如阴极射线管(CRT)或液晶显示器(LCD)。一些具体实施包括既用作输入装置又用作输出装置的装置，诸如触摸屏。

最后，如图4所示，总线402还通过网络接口416将计算机系统400耦合到网络(未示出)。这样，计算机可为计算机的网络(诸如局域网(“LAN”)、广域网(“WAN”)、内联网)或网络群的网络(诸如互联网)的一部分。计算机系统400的任何或所有部件都可与本主题公开内容结合使用。

结合本专利公开中所公开的实施方案描述的各种例示性逻辑块、模块、电路和算法步骤可被实现为电子硬件、计算机软件或两者的组合。为了清楚地例示硬件和软件的这种可互换性，上文已就其功能性而言一般性地描述了各种例示性部件、块、模块、电路和步骤。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整个系统的设计约束。技术人员可针对每个具体应用以不同方式实现所描述的功能性，但此类具体实施决策不应被解释为导致脱离本公开的范围。

用于实现结合本文所公开的方面描述的各种例示性逻辑、逻辑块、模块和电路的硬件可利用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑器件、离散栅极或晶体管逻辑部件、离散硬件部件或它们的被设计成执行本文所述的功能的任何组合来实现或执行。通用处理器可为微处理器，但在另选方案中，处理器可为任何常规的处理器、控制器、微控制器或状态机。处理器也可被实现为接收器装置的组合，例如DSP和微处理器的组合、多个微处理器、与DSP内核结合的一个或多个微处理器、或任何其他此类配置。另选地，一些步骤或方法可由特定于给定功能的电路来执行。

在一个或多个示例性方面，所述功能可在硬件、软件、固件或它们的任何组合中实现。如果在软件中实现，则功能可被存储为非暂态计算机可读存储介质或非暂态处理器可读存储介质上的一个或多个指令或代码。本文所公开的方法或算法的步骤可体现在可驻留在非暂态计算机可读或处理器可读存储介质上的处理器可执行指令中。非暂态计算机可读或处理器可读存储介质可为可由计算机或处理器访问的任何存储介质。通过示例但非限制，此类非暂态计算机可读或处理器可读存储介质可包括RAM、ROM、EEPROM、闪存存储器、CD-ROM或其他光盘存储装置、磁盘存储装置或其他磁存储装置、或可用于存储为指令或数据结构的形式的期望的程序代码并且可由计算机访问的任何其他介质。如本文所用，磁盘和光盘包括压缩盘(CD)、激光盘、光盘、数字通用光盘(DVD)、软盘和蓝光盘，其中磁盘通常以磁性方式再现数据，而光盘利用激光以光学方式再现数据。上述组合也包括在非暂态计算机可读和处理器可读介质的范围内。另外，方法或算法的操作可作为代码和/或指令中的一者或任何组合或集合驻留在非暂态处理器可读存储介质和/或计算机可读存储介质上，从而可结合到计算机程序产品中。

虽然本专利文档包含许多细节，但这些细节不应被理解为对任何所公开的技术或可受权利要求书保护的内容的范围的限制，而是应理解为可能特定于具体技术的具体实施方案的特征的描述。在该专利文档中在单独实施方案的上下文中描述的某些特征也可以组合形式在单个实施方案中实现。反之，在单个实施方案的上下文中描述的各种特征也可单独地或以任何子组合形式在多个实施方案中实现。此外，虽然特征可能在上文中被描述为以某些组合起作用并且甚至最初是如此受权利要求书保护的，但来自受权利要求书保护的组合的一个或多个特征可在一些情况下从该组合中去除，并且受权利要求书保护的组合可能涉及子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但这不应被理解为要求以所示的特定顺序或按顺序执行此类操作，或者要求执行所有例示的操作才能实现期望的结果。此外，在本专利文档中描述的实施方案中的各种系统部件的分离不应被理解为在所有实施方案中要求此类分离。

仅描述了几个具体实施和示例，但可基于本专利文档中描述和例示的内容得到其他具体实施、增强和变型。

Claims

1.一种用于组合外科手术数据的多种模态以用于对外科规程执行综合数据分析的计算机实现的方法，所述方法包括：

从不同数据来源接收外科手术数据的两种或更多种模态；

对于所述外科手术数据的两种或更多种模态中的每种模态，应用对应的分割引擎来将所述外科手术数据的对应模态转换成对应的一组文本特征；

组合对应于所述两种或更多种模态的所述两组或更多组文本特征以生成组合特征组；以及

将所述组合特征组提供给数据分析工具以用于对所述组合特征组执行综合数据分析，以生成对所述外科规程的一个或多个预测。

2.根据权利要求1所述的计算机实现的方法，其中所述外科手术数据的两种或更多种模态中的每种模态均为非文本外科手术数据的形式。

3.根据权利要求1所述的计算机实现的方法，其中所述外科手术数据的两种或更多种模态包括以下模态中的至少两者：视频数据、图像数据和音频数据。

4.根据权利要求3所述的计算机实施方法，其中所述视频数据包括以下中的一者或多者：

实时内窥镜规程视频；

离线内窥镜规程视频；和

由一个或多个手术室相机捕获的外科规程视频。

5.根据权利要求3所述的计算机实现的方法，其中所述图像数据包括以下中的一者或多者：X射线图像、计算机断层摄影(CT)图像、磁共振成像(MRI)图像、超声图像和其他放射摄影图像。

6.根据权利要求3所述的计算机实现的方法，其中所述图像数据包括以下中的一者或多者：

在所述外科规程的术前阶段期间生成的医学图像；

在所述外科规程的术中阶段期间生成的医学图像；和

在所述外科规程的术后时间段期间生成的医学图像。

7.根据权利要求3所述的计算机实现的方法，其中所述音频数据包括外科医生关于以下中的一者或多者叙述或讨论所述外科规程的录制音频：

异常解剖结构；

所述外科规程中的异常；

标志性事件；和

并发症。

8.根据权利要求3所述的计算机实现的方法，其中应用视频分割引擎来将所述视频数据转换为对应的一组文本特征包括：

将所述外科规程的内窥镜视频分割成对应于一组外科手术阶段的一组视频片段；以及

从所述一组视频片段中的每个视频片段中提取一个或多个外科手术指标和参数。

9.根据权利要求8所述的计算机实现的方法，其中应用音频分割引擎来将所述音频数据转换为对应的一组文本特征包括：

将所述外科规程的规程音频分割成对应于所述一组外科手术阶段的一组音频片段；以及

使用自然语言处理模型从所述一组音频片段中的每个音频片段中提取一个或多个外科手术指标和参数。

10.根据权利要求1所述的计算机实现的方法，其中在组合所述两组或更多组文本特征以生成所述组合特征组之后，所述方法还包括：

将所述组合特征组与和所述外科规程相关联的一组文本数据组合以形成用于所述外科规程的综合特征组；以及

将所述综合特征组提供给所述数据分析工具以取代所述组合特征组，用于对所述综合特征组执行综合数据分析，以生成对所述外科规程的一个或多个预测。

11.根据权利要求1所述的计算机实现的方法，其中在应用所述对应分割引擎来将所述外科手术数据的对应模态转换成所述对应的一组文本特征之前，所述方法还包括：

对所述外科手术数据的两种或更多种模态执行时间同步，以针对所述两种或更多种模态中的每种模态生成时间同步的外科手术数据；以及

其中应用所述对应分割引擎来转换所述外科手术数据的对应模态包括将所述对应的分割引擎应用于所述对应的时间同步的外科手术数据。

12.一种用于组合外科手术数据的多种模态以用于对外科规程执行综合数据分析的系统，所述系统包括：

一个或多个处理器；

耦合到所述一个或多个处理器的存储器；

接收模块，所述接收模块被配置为从不同数据来源接收外科手术数据的两种或更多种模态；

两个或更多个分割引擎，所述两个或更多个分割引擎对应于所述外科手术数据的两种或更多种模态，其中每个分割引擎被配置为将所述外科手术数据的对应模态转换成对应的一组特征；和

组合模块，所述组合模块被配置为组合对应于所述两种或更多种模态的所述两组或更多组特征以生成组合特征组，

其中所述组合特征组被提供给数据分析工具，以用于对所述组合特征组执行综合数据分析，以生成对所述外科规程的一个或多个预测。

13.根据权利要求12所述的系统，其中所述外科手术数据的两种或更多种模态包括以下模态中的至少两者：视频数据、图像数据和音频数据。

14.根据权利要求13所述的系统，其中所述两个或更多个分割引擎包括视频分割引擎，所述视频分割引擎被配置为通过以下方式将所述视频数据转换成所述对应的一组文本特征：

15.根据权利要求13所述的系统，其中所述两个或更多个分割引擎包括音频分割引擎，所述音频分割引擎被配置为通过以下方式将所述音频数据转换成所述对应的一组文本特征：

16.根据权利要求12所述的系统，其中所述组合模块被进一步配置为：

17.根据权利要求12所述的系统，

其中所述系统还包括同步模块，所述同步模块被配置为对所述外科手术数据的两种或更多种模态执行时间同步，以针对所述两种或更多种模态中的每种模态生成时间同步的外科手术数据；并且

其中使用所述对应分割引擎来转换所述外科手术数据的对应模态包括将所述对应分割引擎应用于所述对应的时间同步的外科手术数据。

18.一种用于组合外科手术数据的多种模态以用于对外科规程执行综合数据分析的设备，所述设备包括：

分割引擎，所述分割引擎对应于所述外科手术数据的两个或更多种模态中的每种模态，并且被配置为将外科规程数据的相应模态分割成对应于一组外科手术阶段的一组片段，并且从所述一组视频片段中的每个视频片段提取一个或多个外科手术指标和参数；和

组合模块，所述组合模块被配置为将所提取的对应于所述两种或更多种模态的外科手术指标和参数组组合以生成组合特征组，

其中所述组合模块被进一步配置为将所述组合特征组提供给数据分析工具以用于对所述组合特征组执行综合数据分析，以生成对所述外科规程的一个或多个预测。

19.根据权利要求18所述的设备，其中所述组合模块被进一步配置为：

20.根据权利要求18所述的设备，

其中所述设备还包括同步模块，所述同步模块被配置为对所述外科手术数据的两种或更多种模态执行时间同步，以针对所述两种或更多种模态中的每种模态生成时间同步的外科手术数据；并且