CN116918000A

CN116918000A - 用于增强音频通信的系统和方法

Info

Publication number: CN116918000A
Application number: CN202180092019.1A
Authority: CN
Inventors: 拉维·卡卢里; 席瓦库马尔·马哈德瓦帕; 丹尼尔·霍金斯
Original assignee: Ivel Medical Systems
Current assignee: Ivel Medical Systems
Priority date: 2020-12-04
Filing date: 2021-12-03
Publication date: 2023-10-20
Also published as: JP2023552205A; WO2022120203A1; US20240153491A1; EP4256581A1

Abstract

本公开内容提供了用于增强音频通信的系统和方法。在一个方面，本公开提供了一种用于增强音频通信的方法。该方法可包括(a)检测与医疗过程相关联的一个或多个参数和与医疗过程相关联的一个或多个音频通信；以及(b)基于一个或多个参数处理一个或多个音频通信，以产生一个或多个增强的音频通信。

Description

用于增强音频通信的系统和方法

交叉引用

本申请要求于2020年12月4日提交的美国临时申请号63/121,655的优先权，该申请出于全部目的通过引用整体并入本文。

背景技术

执业医师可以在医疗室(如手术室)内执行各种手术。很多时候，手术室可能被多个执业医师或执业医师以外的人(如医疗工作者)占用。在医疗过程(medical procedure)期间，许多人可能会同时进行交谈或沟通。这可能会妨碍手术室中的个人之间的协调和/或沟通。

发明内容

本文辨认到基于音频和视频的系统和方法在监测、支持和执行医疗操作方面的各种限制。本公开提供了用于增强与外科手术或医疗操作相关而做出的音频通信质量的系统和方法。本公开的系统和方法可被实施，以基于这些个人的声音或声音活动检测和/或辨认工具、产品和/或个人。在一些情况下，本公开的系统和方法可被实现为基于说话者的身份或说话者所做的音频通信的内容，优先处理感兴趣的一个或多个人所做的音频通信。在一些情况下，本公开的系统和方法可被实现以利用波束形成和相关方法集中检测一个或多个音频通信，以调整一个或多个音频检测设备的方向性或指向性。

在一个方面，本公开提供了一种用于增强音频通信的方法。该方法可包括(a)检测与医疗过程相关联的一个或多个参数和与医疗过程相关联的一个或多个音频通信；以及(b)基于该一个或多个参数处理该一个或多个音频通信，以产生一个或多个增强的音频通信。

在一些实施方式中，一个或多个参数包括进行一个或多个音频通信的人类或机器人的身体特征、面部、声音或身份。在一些实施方式中，一个或多个参数包括一个或多个音频通信的关键词、短语或句子。在一些实施方式中，一个或多个参数包括使用中的工具或仪器的类型或医疗过程的阶段。

在一些实施方式中，处理一个或多个音频通信包括波束形成，以调整一个或多个音频检测设备的检测区、检测范围、指向性或方向性。在一些实施方式中，处理一个或多个音频通信包括基于说话者的身份优先检测或捕获一个或多个音频通信。在一些实施方式中，处理一个或多个音频通信包括基于对一个或多个音频通信中的一个或多个关键词、短语或句子的检测，调整检测或捕获的优先级。在一些实施方式中，处理一个或多个音频通信包括基于对一个或多个音频通信中的一个或多个关键词、短语或句子的检测来调整检测或捕获的优先级。在一些实施方式中，处理一个或多个音频通信包括相对于一个或多个音频通信的第二音频通信的音量，增加一个或多个音频通信的第一音频通信的音量。在一些实施方式中，处理一个或多个音频通信包括相对于一个或多个音频通信的第二音频通信的音量，降低一个或多个音频通信的第一音频通信的音量。在一些实施方式中，处理一个或多个音频通信包括将一个或多个音频通信静音或消除。

在一些实施方式中，一个或多个增强的音频通信对应于感兴趣的工具或仪器或感兴趣的工具或仪器的使用。在一些实施方式中，一个或多个增强的音频通信对应于感兴趣的手术阶段。在一些实施方式中，一个或多个增强的音频通信对应于感兴趣的医生、外科医师、医务工作者、供应商代表或产品专家。

在一些实施方式中，该方法可进一步包括使用计算机视觉、自然语言处理或机器学习检测一个或多个参数。在一些实施方式中，检测一个或多个参数包括识别与一个或多个音频通信相关联的医疗工具或仪器。在一些实施方式中，识别医疗工具或仪器包括对工具或仪器进行成像，扫描与工具或仪器相关联的标识符，或接收包括关于工具或仪器的信息的一个或多个电磁波。

在另一个方面，本公开提供了一种用于增强音频通信的方法，包括：(a)接收与医疗过程相关联的多个音频通信；(b)接收与感兴趣的参数相对应的一个或多个用户输入，其中感兴趣的参数与医疗过程的一个或多个步骤的执行相关联；以及(c)基于多个音频通信和一个或多个用户输入，产生一个或多个增强的音频通信。在一些实施方式中，一个或多个用户输入包括对感兴趣的参数的用户选择。在一些实施方式中，感兴趣的参数包括感兴趣的仪器、专家、代表、医生、外科医师或手术阶段。在一些实施方式中，一个或多个用户输入包括从感兴趣的音频频道的主列表中选择感兴趣的音频频道。

在一些实施方式中，产生一个或多个增强的音频通信包括隔离或提取与感兴趣的参数相关联的一个或多个音频频道。在一些实施方式中，产生一个或多个增强的音频通信包括相对于多个音频通信的第二音频通信的音量，增加多个音频通信的第一音频通信的音量。在一些实施方式中，产生一个或多个增强的音频通信包括相对于多个音频通信的第二音频通信的音量，降低多个音频通信的第一音频通信的音量。在一些实施方式中，产生一个或多个增强的音频通信包括将一个或多个音频通信静音或消除。

在一些实施方式中，通过对与医疗过程相关联的一个或多个视频进行后期处理以隔离、提取或加强与感兴趣的参数相关联的一个或多个音频频道产生一个或多个增强的音频通信。在一些实施方式中，基于与医疗过程的多个音频通信或一个或多个视频相关联的元数据产生一个或多个增强的音频通信。在一些实施方式中，一个或多个增强的音频通信对应于多个音频频道。在一些实施方式中，多个音频频道对应于支持医疗过程的多个医生、外科医师、供应商代表或产品专家。在一些实施方式中，多个音频频道对应于用于执行医疗过程的一个或多个步骤的多个不同工具。在一些实施方式中，多个音频频道对应于医疗过程的多个不同步骤或阶段。

在一些实施方式中，处理一个或多个音频通信包括(i)增强一个或多个音频通信或(ii)为一个或多个用户静音或消除一个或多个音频通信。在一些实施方式中，一个或多个音频通信由播送方、调节实体、远程专家、供应商代表或一个或多个用户处理，其中一个或多个用户包括观看手术视频或其一部分的至少一个用户。

在一些实施方式中，该方法可进一步包括使用一个或多个相机或成像传感器来跟踪从其接收或捕获多个音频通信的区的视场。在一些实施方式中，该方法可进一步包括将视场传输给一个或多个远程参与者。在一些实施方式中，一个或多个感兴趣的音频束或区域可由一个或多个远程参与者选择，其中一个或多个感兴趣的音频束或区域对应于(i)多个音频通信的至少一个子集或(ii)视场内的一个或多个区域。在一些实施方式中，一个或多个感兴趣的音频束或区域的选择是在本地或远程执行的。

在一些实施方式中，该方法可进一步包括跟踪或标记一个或多个感兴趣的个人或区域。在一些实施方式中，该方法可进一步包括选择(i)一组音频信号来增强或(ii)一组音频信号来删除或衰减。在一些实施方式中，该方法可进一步包括在一个或多个个体相对于一个或多个相机或成像传感器移动时跟踪该一个或多个感兴趣的个体或区域。在一些实施方式中，在医疗过程开始之前，预注册感兴趣的音频束或区域的选择。在一些实施方式中，针对与医疗过程相关联的记录内容做出感兴趣的音频束或区域的选择。

在另一个方面，本公开提供了一种用于处理音频通信的方法，包括：(a)接收来自与医疗过程相关联或执行医疗过程的一个或多个个人的多个音频通信；以及(b)基于来自一个或多个个人的多个音频通信的至少一个子集，检测、辨认或识别与医疗过程相关联的一个或多个工具、产品或仪器。在一些实施方式中，(a)包括使用一个或多个麦克风或包括一个或多个麦克风的麦克风阵列来接收多个音频通信。在一些实施方式中，一个或多个麦克风被配置为检测多个音频通信或其子集内的一个或多个关键词。在一些实施方式中，基于一个或多个关键词来识别一个或多个工具、产品或仪器。在一些实施方式中，使用自然语言处理来识别一个或多个工具、产品或仪器。在一些实施方式中，使用用于分析所述多个音频通信的一个或多个算法实现所述自然语言处理。

在一些实施方式中，一个或多个算法被配置为实现上下文感知的自然语言处理，以(i)解读多个音频通信和(ii)确定哪些工具或产品正在被用于执行医疗过程。在一些实施方式中，一个或多个算法被配置为实现上下文感知的自然语言处理，以(i)解读多个音频通信和(ii)确定哪些工具或产品由执行医疗过程的医生或外科医师请求。在一些实施方式中，一个或多个算法被配置为实现上下文感知的自然语言处理，以(i)解读多个音频通信和(ii)确定正在执行哪种手术或正在进行手术的哪一步。在一些实施方式中，一个或多个算法被配置为实现上下文感知的自然语言处理，以(i)解读多个音频通信和(ii)编排(a)手术中的不同步骤，(b)手术的一个或多个步骤的时间，或(c)医生或医院使用哪些工具或产品来执行医疗过程。在一些实施方式中，一个或多个算法被配置为对多个音频通信使用自然语言处理，以产生或汇编关于外科手术中的步骤的时间或工具、产品或仪器的使用量或频率的数据。在一些实施方式中，一个或多个算法被配置为对多个音频通信使用自然语言处理，以确定使用自然语言处理识别的不同手术或手术步骤的成功率和/或失败率。在一些实施方式中，一个或多个算法被配置为对多个音频通信使用自然语言处理，以确定使用自然语言处理识别的工具、产品或仪器执行的不同手术的成功率和/或失败率。

本公开的另一个方面提供了一种包括机器可执行代码的非暂时性计算机可读介质，该机器可执行代码在被一个或多个计算机处理器执行时，实现上述或本文其他地方的任何方法。

本公开的另一个方面提供了一个系统，其包括一个或多个计算机处理器和与其耦合的计算机存储器。计算机存储器包括机器可执行代码，该机器可执行代码在由一个或多个计算机处理器执行时，实现上述或本文其他地方的任何方法。

本公开的其他方面和优点对于本领域的技术人员来说，将从以下详细描述中变得很明显，其中只示出和描述了本公开的说明性实施方式。正如将意识到的那样，本公开能够有其他和不同的实施方式，其若干细节能够在各种明显的方面进行修改，所有这些都不会偏离本公开。因此，附图和描述应被视为是说明性的，而不是限制性的。

援引并入

本说明书中提到的所有出版物、专利和专利申请在这里都是通过引用并入，其范围与每个单独的出版物、专利或专利申请被具体和单独地指明为通过引用并入的一样。如果通过引用并入的出版物和专利或专利申请与本说明书中的公开内容相矛盾，本说明书旨在取代和/或优先于任何此类矛盾的材料。

附图简要说明

本发明的新颖特点在所附的权利要求中作了具体阐述。通过参考阐述了在其中利用了本发明的原则的以下详细描述以及附图(在本文中也为“示图”和“图”)，可以更好地理解本发明的特点和优点，在附图中：

图1示意性地图示了音频捕获系统，该音频捕获系统可在医疗套房内使用，以监测、捕获和增强音频通信。

图2示意性地图示了根据一些实施方式的多个音频记录设备，其可用于捕获一个或多个音频通信。

图3示意性地图示了根据一些实施方式的可用于优先检测音频通信的优先级列表的示例。

图4示意性地图示了根据一些实施方式的可为音频检测设备产生的一个或多个波束。

图5示意性地图示了根据一些实施方式的用于检测和增强音频通信的示例性系统。

图6示意性地图示了计算机系统，该计算机系统被编程或以其他方式被配置为实现本文提供的方法。

图7示意性地图示了根据一些实施方式的与多个音频频道相关联的多个音频源。

图8示意性地图示了根据一些实施方式的用户对一个或多个感兴趣的音频频道的选择。

图9示意性地图示了根据一些实施方式的用于从多个音频源或音频频道中选择一个或多个感兴趣的音频源或音频频道的用户界面的示例。

图10示意性地图示了根据一些实施方式的音频管理系统，用于对多个音频源或频道进行后期处理，以便向各种用户提供自定义或定制的音频频道的选择。

图11示意性地图示了根据一些实施方式的音频管理系统，其被配置为根据用户提供的一个或多个输入，调整哪些音频频道被提供给用户。

图12示意性地图示了根据一些实施方式的用于选择各种感兴趣的音频频道的示例性用户界面。

图13示意性地图示了根据一些实施方式的被配置为播送一个或多个音频频道的播送方。

图14示意性地图示了根据一些实施方式的调节实体，其被配置为对某些用户或观看者有选择地增强或静音各种音频频道。

图15根据一些实施方式示意性地图示了第一用户为第二用户修改一个或多个音频频道的示例。

具体实施方式

虽然本发明的各种实施方式已在此示出和描述，但对于本领域的技术人员而言将显而易见地是，这些实施方式仅以示例的方式提供。在不偏离本发明的情况下，本领域的技术人员可以想到许多变化、改变和替换。应该理解的是，可以采用本文所述的本发明实施方式的各种替代方案。

每当术语“至少”、“大于”或“大于或等于”出现在两个或更多个数值系列的第一个数值之前时，术语“至少”、“大于”或“大于或等于”适用于该数值系列中的每个数值。例如，大于或等于1、2或3相当于大于或等于1，大于或等于2，或大于或等于3。

每当术语“不大于”、“小于”或“小于或等于”出现在两个或更多个数值系列的第一个数值之前时，术语“不大于”、“小于”或“小于或等于”适用于该数值系列中的每个数值。例如，小于或等于3、2或1相当于小于或等于3，小于或等于2，或小于或等于1。

如本文中可互换使用的，术语“实时”一般是指使用最近获得的(例如，收集或接收的)数据执行的事件(例如，操作、过程、方法、技术、运算、计算、分析、可视化、优化等)。在一些情况下，实时事件可以几乎立即或在足够短的时间跨度内执行，例如在至少0.0001毫秒(ms)、0.0005ms、0.001ms、0.005ms、0.01ms、0.05ms、0.1ms、0.5ms、1ms、5ms、0.01秒、0.05秒、0.1秒、0.5秒、1秒或更多内执行。在一些情况下，实时事件可以几乎立即执行或在足够短的时间跨度内执行，例如在最多1秒、0.5秒、0.1秒、0.05秒、0.01秒、5ms、1ms、0.5ms、0.1ms、0.05ms、0.01ms、0.005ms、0.001ms、0.0005ms、0.0001ms或更少内执行。

在一个方面，本公开提供了一种用于监测和增强在外科手术期间进行的音频通信的系统。本文所指的监测音频通信可包括使用音频记录设备或音频检测设备(例如，麦克风或麦克风阵列)来记录和/或检测由一个或多个人或对象在外科手术之前、期间和/或之后进行的音频通信。在一些情况下，监测音频通信可包括使用音频记录设备或音频检测设备(例如，麦克风或麦克风阵列)，以基于一个或多个人或对象进行的音频通信来识别一个或多个人或对象。本文提到和描述的增强音频通信可以包括改善音频通信的传输质量，增加音频通信的一个或多个部分的信噪比，和/或用额外的数据或信息增强音频通信。在一些情况下，增强音频通信可以包括相对于音频通信的其他部分优先音频通信的一个或多个部分，或者相对于多个音频通信优先一个或多个音频通信。在一些情况下，增强音频通信可包括基于音频通信的内容或音频通信的来源的身份，调整一个或多个音频检测设备的检测范围、检测区、方向性和/或指向性。在一些情况下，增强音频通信可包括调整一个或多个音频检测设备对从某个区或区域，或从某个扬声器或来源接收到的音频通信的灵敏度。

本公开的系统和方法可用于检测和增强外科手术期间进行的音频通信。如本文所用，外科手术可包括对人或动物的医疗操作。该医疗操作可包括对人体或动物的内部或外部区域的一个或多个操作。医疗操作可以使用至少一种或多种医疗产品、医疗工具或医疗仪器执行。医疗产品，在此可互换地称为医疗工具或医疗仪器，可包括为治疗或诊断目的单独使用或与其他设备结合使用的设备。医疗产品可以是医疗设备。医疗产品可包括在操作期间用于执行操作或促进执行操作的任何产品。医疗产品可包括工具、仪器、植入物、假体、一次性用品，或制造商可能打算用于人类的任何其他装置、用具、软件或材料。医疗产品可用于诊断、监测、治疗、缓解或补偿伤害或残疾。医疗产品可用于疾病的诊断、预防、监测、治疗或缓解。在一些情况下，医疗产品可用于解剖学或生理学手术的调查、替换或修改。医疗产品的一些示例的范围可包括手术仪器(如手持式或机器人式)、导管、内窥镜、支架、心脏起搏器、人工关节、脊柱稳定器、一次性手套、纱布、静脉输液、药物等等。

不同类型的外科手术的示例可以包括但不限于胸腔手术、骨科手术、神经外科、眼科手术、整形和重建手术、血管手术、疝气手术、头颈部手术、手部手术、内分泌手术、结肠和直肠手术、乳房手术、泌尿外科手术、妇科手术和其他类型的手术。在一些情况下，外科手术可包括涉及捐赠者和接受者的两个或更多个医疗操作。在这种情况下，外科手术可包括两个或更多个同时进行的医疗操作，以在捐赠者和接受者之间交换生物材料(如器官、组织、细胞等)。

本公开的系统和方法可以实施以检测和增强在医疗保健设施中执行的外科手术期间进行的音频通信。如本文所用，医疗保健设施可指任何类型的设施、机构或组织，它们可提供某种程度的医疗保健或援助。在一些示例中，医疗保健设施可包括医院、诊所、紧急护理设施、门诊设施、门诊手术中心、疗养院、安宁护理、家庭护理、康复中心、实验室、成像中心、兽医诊所，或其他任何类型的可提供护理或援助的设施。医疗保健设施可能或可能不主要为短期护理或长期护理而提供。医疗保健设施可以在所有的日子和时间开放，或可以在有限的时间内开放。医疗保健设施可能包括或可能不包括帮助提供护理的专门装备。可以向患有慢性或急性疾病的个人提供护理。医疗保健设施可以使用一个或多个卫生保健提供者(又称医务人员/执业医师)。此处对医疗保健设施的任何描述可指医院或任何其他类型的医疗保健设施，反之亦然。

在一些情况下，医疗保健设施可以具有一个或多个医疗保健设施的内部地点，其中可以进行一个或多个手术操作。在一些情况下，该一个或多个地点可包括一个或多个手术室。在一些情况下，一个或多个手术室只能由合格或经批准的个人进入。合格或经批准的个人可以包括诸如接受外科手术的医疗病人或医疗对象、执行外科手术的一个或多个步骤的医疗操作者，和/或支持外科手术的一个或多个方面的医务人员或支持人员等的个人。例如，医务人员或支持人员可以出现在手术室中，以帮助医疗操作者执行外科手术的一个或多个步骤。

本公开的系统和方法可以使用一个或多个音频记录或音频检测设备来实现。如本文所用，音频记录设备可包括能够接收、记录和/或检测音频通信的设备。一个或多个音频记录设备可被配置为获得与外科手术相关联的多个音频通信。在一些情况下，多个音频通信可以使用多个音频记录设备捕获。多个音频记录设备可以包括1、2、3、4、5、6、7、8、9、10或更多个音频记录设备。多个音频记录设备可以包括n个音频记录设备，其中n是大于或等于2的任何整数。

多个音频记录设备可以相对于医疗对象或对医疗对象进行手术操作的医务人员在不同的位置和/或定向上提供。多个音频记录设备可以相对于接受医疗操作的医疗病人或对象或执行医疗操作的医疗操作者，在多个不同的位置和/或定向上提供。多个音频记录设备可以相对于彼此在多个不同位置和/或定向上提供。

在一些情况下，多个音频记录设备可以被附接到手术室的天花板、墙壁、地板、结构件(例如梁)、手术台、医疗仪器或医疗操作者身体的一部分(例如医疗操作者的手、手臂或头)。在一些情况下，多个音频记录设备可以可释放地耦合到手术室的天花板、墙壁、地板、结构件、手术台、医疗仪器或医疗操作者身体的一部分。

在一些情况下，多个音频记录设备可以相对于多个音频记录设备被附接、固定或可释放地耦合到的表面或结构件而是可移动的。例如，多个音频记录设备可以被重新定位和/或旋转，以调整多个音频记录设备的检测区。在一些情况下，一个或多个关节、铰链、臂、导轨和/或轨道可用于调整多个音频记录设备的位置和/或定向。在一些情况下，多个音频记录设备中的每一个的位置和/或定向可以由人类操作者手动调整。在其他情况下，多个音频记录设备中的每一个的位置和/或方向可以部分地基于计算机实现的跟踪软件(例如，视频跟踪软件和/或音频跟踪软件)自动调整。多个音频记录设备中的每一个的位置和/或定向可以被物理调整。多个音频记录设备中的每一个的位置和/或定向可以由人类操作者远程调整或控制。

图1示出了音频捕获系统的示例，该音频捕获系统可在医疗套房内使用，以监测、捕获和增强音频通信。音频捕获系统可包括上述的一个或多个音频记录设备。在一些替代性的实施方式中，音频捕获系统可包括一个或多个成像设备。在一些情况下，音频记录设备可与一个或多个成像设备集成。在其他情况下，音频记录设备可以与一个或多个成像设备分开且不同。音频捕获系统可被配置为捕获与外科手术相关的音频通信，或在手术部位或正在进行外科手术的操作环境中或其附近进行的音频通信。

音频捕获系统可被配置为捕获在第一位置110进行的音频通信。在一些情况下，在第一位置110捕获的音频通信可以使用位于第一位置110的音频增强模块进行处理和/或增强。在其他情况下，在第一位置110捕获的音频通信可以被传输到第二位置120进行处理和/或增强。在一些情况下，第一位置110和第二位置120可以在同一个手术室或医疗保健设施中。在其他情况下，第一位置110可以在手术室或医疗保健设施中，而第二位置120可以是远离手术室或医疗保健设施的位置。在一些情况下，音频捕获系统还可包括本地通信设备115。在一些情况下，本地通信设备115可以可操作地耦合到上述的一个或多个音频记录设备。本地通信设备115可以可选地与远程通信设备125(例如，远程用户127的移动设备)或远程服务器170通信。在一些情况下，远程服务器170可被配置为处理和/或增强在第一位置110处记录的音频通信。

在一些实施方式中，来自第一位置110的音频通信可以使用本地通信设备115传输到第二位置120，该本地通信设备115被配置为通过通信频道150与远程通信设备125通信。任何类型的通信频道150可以在远程通信设备和本地通信设备之间形成。该通信频道可以是直接通信频道或间接通信频道。通信频道可以采用有线通信、无线通信或两者。通信可以通过网络发生，诸如局域网(LAN)、诸如因特网的广域网(WAN)，或任何形式的电信网络(如蜂窝服务网络)。采用的通信可包括但不限于3G、4G、LTE通信，和/或蓝牙、红外、无线电或其他通信。通信可以可选地由路由器、卫星、塔台和/或电线来协助。通信可以或可以不利用第一位置和/或第二位置处的现有通信网络。

第一位置110可以是医疗套房，如医疗保健设施的手术室。医疗套房可以在医疗保健设施的诊所房间或任何其他部分内。医疗保健设施可以是任何类型的设施或组织，其可以提供某种程度的医疗保健或援助。在一些示例中，医疗保健设施可包括医院、诊所、紧急护理设施、门诊设施、门诊手术中心、疗养院、安宁护理、家庭护理、康复中心、实验室、成像中心、兽医诊所，或其他任何类型的可提供护理或援助的设施。医疗保健设施可能或可能不主要为短期护理或长期护理而提供。医疗保健设施可以在所有的日子和时间开放，或可以在有限的时间内开放。医疗保健设施可能包括或可能不包括帮助提供护理的专门装备。可以向患有慢性或急性疾病的个人提供护理。医疗保健设施可以使用一个或多个卫生保健提供者(又称医务人员/执业医师)。此处对医疗保健设施的任何描述可指医院或任何其他类型的医疗保健设施，反之亦然。

第一位置110可以是医疗保健设施内的任何房间或区域。例如，第一位置可以是手术室、外科套房、门诊室、分诊中心、急诊室或任何其他位置。第一位置可以在房间的区域，或整个房间内。第一位置可以是可能发生操作，可能进行手术，可能发生医疗过程，和/或使用医疗产品的任何位置。在一个示例中，第一位置可以是具有正在被进行操作的病人118以及一个或多个医务人员117(诸如正在进行操作或协助进行操作的外科医师或手术助理)的手术室。医务人员可包括正在进行医疗过程或协助进行医疗过程的任何个人。医务人员可包括为医疗过程提供支持的个人。例如，医务人员可包括进行手术的外科医师、护士、麻醉师等。医务人员的示例可包括医师(例如，外科医师、麻醉师、放射科医生、内科医生、住院医生、肿瘤医生、血液科医生、心脏科医生等)、护士(例如，CNRA、手术室护士、巡回护士)、医师助理、手术技术人员等。医务人员可包括出席医疗过程并被授权出席的个人。

在一些情况下，第二位置120可以在与第一位置110相同的手术室或医疗保健设施中。在其他情况下，第二位置120可以是远离第一位置110的任何位置。例如，如果第一位置是医院，则第二位置可以在医院外面。在一些情况下，第一位置和第二位置可以在同一建筑物内，但在不同的房间、楼层或侧翼中。

在一些实施方式中，可以在第一位置110处或附近提供一个或多个音频记录设备。该一个或多个音频记录设备可以由或不由医疗控制台140支撑。在一些实施方式中，一个或多个音频记录设备可以由第一位置处的天花板160、墙壁、家具或其他物品支撑。例如，一个或多个音频记录设备可以被安装在墙壁、天花板或其他设备上。此类音频记录设备可以直接安装在表面上，或可以安装在吊杆或臂上。例如，臂可以从天花板延伸下来，同时支撑音频记录设备。在另一个示例中，臂可以附接到病人的床或表面，同时支撑音频记录设备。在一些情况下，音频记录设备可以由医务人员佩戴。例如，音频记录设备可以戴在医务人员的头带、腕带、躯干或任何其他部分上。音频记录设备可以是医疗设备的一部分，或者可以由医疗设备(例如内窥镜等)支撑。一个或多个音频记录设备可以是固定的或可移动的。一个或多个音频记录设备可以围绕一个或多个、两个或更多个、或三个或更多个轴旋转。一个或多个音频记录设备可以使用平移-倾斜-变焦操作来调整。音频记录设备可以由第一位置处的个人手动移动。音频记录设备可以被锁定到位置和/或解锁以进行移动。在一些情况下，一个或多个音频记录设备可以由一个或多个远程用户远程控制。音频记录设备的位置和/或定向可以被调整，以修改与音频记录设备相关联的检测范围或检测区。

在一些情况下，一个或多个音频记录设备可以在医疗控制台140上提供。医疗控制台140可以可选地包括一个或多个音频记录设备145、146。在其他情况下，一个或多个音频记录设备可以定位在医疗控制台140的铰接臂143的远端。由一个或多个音频记录设备145、146捕获的音频通信可以使用音频处理模块进行处理和增强。音频通信可以在其被捕获时实时处理和增强。音频通信可以发送到被配置为远程接收音频通信并将音频通信提供给音频增强模块的远程通信设备，该音频增强模块被配置为增强由音频记录设备捕获的音频通信。

在一些情况下，增强音频通信可以在第一位置110处本地发生。在一些实施方式中，增强可以在医疗控制台140上发生。例如，增强可以在通信设备115的一个或多个处理器或可以位于医疗控制台的另一计算机的帮助下发生。在一些情况下，增强可以远离第一位置远程发生。在一些情况下，可以利用一个或多个服务器170来执行音频分析和增强。服务器可能能够访问和/或接收来自多个位置的信息，并可能收集一个或多个数据集。数据集可与机器学习结合使用，以提供越来越准确的音频分析和/或增强。本文对服务器的任何描述也可应用于任何类型的云计算基础设施。分析可以远程发生，并且反馈可以基本实时地传回控制台和/或位置通信设备。本文对实时的任何描述可包括在短时间跨度(例如，在小于或等于约10分钟、5分钟、3分钟、2分钟、1分钟、30秒、20秒、15秒、10秒、5秒、3秒、2秒、1秒、0.5秒、0.1秒、0.05秒、0.01秒或更少)内可能发生的任何行动。

在一些实施方式中，通信设备115、125可包括一个或多个麦克风或扬声器。麦克风可包括音频检测设备，其被配置为捕获可听声，如在第一位置的用户的声音或医务人员的语音。可以提供一个或多个扬声器来播放声音(例如，音频通信或增强的音频通信)。例如，远程通信设备125上的扬声器可以让第二位置中的终端用户听到第一位置中的本地通信设备115捕获的声音，反之亦然。在一些实施方式中，可以提供音频增强模块。音频增强模块可由用于监测外科手术的视频捕获系统支持。音频增强模块可包括麦克风阵列，其可被配置为清楚地捕获嘈杂房间内的声音，同时最小化或减少背景噪音或由其他具有较低优先级的人或对象进行的音频通信。音频增强模块可以是可分离的，或可以集成到视频捕获系统。

图2图示了多个音频记录设备，其包括一个或多个音频记录设备200-1、200-2和200-3。一个或多个音频记录设备可以在医疗套房中提供，其中可以对医疗病人118进行手术操作。多个音频记录设备200-n可包括n个音频记录设备，其中n大于或等于1。每个记录设备可以具有与记录设备相关联的相应的检测范围或检测区210-1、210-2和210-3。检测范围或检测区210-1、210-2和210-3可以相对于记录设备集中或定向在特定的方向上(这里称为方向性或指向性)。每个检测区可对应于其中记录设备可登记、记录和/或捕获超过一定阈值音量的音频通信的区或范围。音频记录设备的检测区可以重叠或部分重叠。在一些情况下，音频记录设备的检测区可能是不同的和/或可能不重叠。在一些情况下，检测区可以通过改变音频记录设备的位置和/或定向来调整或修改。在其他情况下，可以使用波束形成和/或波束转向来调整或修改检测区。

本公开内容提供了用于增强音频通信的系统和方法。在一些情况下，增强音频通信可包括改善音频通信的传输或接收质量，增加音频通信的一个或多个部分的信噪比，和/或用额外的数据或信息加强音频通信。在其他情况下，增强音频通信可包括相对于音频通信的其他部分，优先音频通信的一个或多个部分，或相对于多个音频通信优先一个或多个音频通信。在一些情况下，增强音频通信可包括基于音频通信的内容或音频通信的来源的身份，调整一个或多个音频检测设备的检测范围、检测区、方向性和/或指向性。在一些情况下，增强音频通信可包括调整一个或多个音频检测设备对从某个区或区域，或从某个扬声器或来源接收到的音频通信的灵敏度。

如本文所用，音频通信可指基于声音或语音的任何通信。在一些情况下，音频通信可包括一个或多个声学波形或信号，其对应于由人、动物、机器(如医疗设备)、实物、自然现象和/或任何物理、生物或化学互动或反应(其创造可通过传输介质传播的声学波形)产生的语音或一个或多个声音。传输介质可包括气体、液体或固体。音频通信可以使用一个或多个麦克风或麦克风阵列来捕获或记录。一个或多个麦克风可以捕获可听声，如在一个或多个麦克风的检测范围内的人的声音。

本公开的系统和方法可用于在接收或传输音频通信时实时增强音频通信。在一些情况下，本公开的系统和方法可用于通过在接收或传输音频通信后的预定时间内处理一个或多个音频通信并产生增强的音频通信来增强音频质量。

在一些实施方式中，一个或多个参数可包括进行一个或多个音频通信的人类或机器人的身体特征、面部、声音或身份。在一些实施方式中，一个或多个参数可包括一个或多个音频通信的关键词、短语或句子。

在一些实施方式中，处理一个或多个音频通信可包括波束形成，以调整一个或多个音频检测设备的检测区、检测范围、指向性或方向性。在一些实施方式中，处理一个或多个音频通信可包括基于说话者的身份优先检测或捕获一个或多个音频通信。在一些实施方式中，处理一个或多个音频通信可包括基于对一个或多个音频通信中的一个或多个关键词、短语或句子的检测，调整检测或捕获的优先级。

在一些情况下，本公开的系统和方法可用于使用一个或多个控制电压(CV)信号来增强音频通信。该一个或多个CV信号可包括模拟或数字信号。在一些情况下，一个或多个CV信号可用于调整音频通信的一个或多个音频特性。一个或多个音频特性可包括，例如，音频通信的频率、音频通信的波长、音频通信的振幅、与音频通信相关联的音高、与音频通信相关联的音调和/或与音频通信相关联的强度或响度。

在一些情况下，本公开的系统和方法可用于使用自然语言处理(NLP)来增强音频质量。NLP可包括操纵和/或处理自然语言，如语音和文本，以便得出与语音和/或文本相关联的信息或数据(例如，关于外科手术中即将到来的关键步骤的信息，完成手术步骤所需的某种类型的工具，或特定手术步骤所需的特定类型的支持)。

在一些情况下，本公开的系统和方法可用于使用说话者辨认来增强音频质量。说话者辨认可包括基于音频通信的一个或多个特性来识别音频通信的说话者或来源。该一个或多个特性可包括，例如，音频通信的频率、音频通信的波长和/或音频通信的振幅。在一些情况下，一个或多个特性可包括与音频通信相关联的音高、与音频通信相关联的音调和/或与音频通信相关联的强度或响度。

在一些情况下，本公开的系统和方法可用于基于面部检测来增强音频质量。面部检测可包括基于人的面部特征的一个或多个图像或视频来检测或识别人。面部特征可包括人的面部的一个或多个部分(例如，眼睛、鼻子、耳朵、嘴巴、头发、面部结构等)的物理特征。人的面部特征的一个或多个图像或视频可以使用成像设备(例如，照相机、摄像机、成像传感器等)获得。在一些情况下，面部检测可包括基于人的一个或多个图像或视频来识别人的位置。在一些情况下，面部检测可包括将人与在成像设备的检测范围内的某个位置或区相关联。

在一些情况下，本公开的系统和方法可用于基于对与人相关联的其他识别特征(例如，除面部外的身体部分，如人的手)的检测来增强音频质量。在一些情况下，其他识别特征可包括，例如，人的语音的音调、节奏和/或腔调，或与人相关联的特定举止(例如，步态或任何其他重复或习惯性运动)。

在一些情况下，音频增强可以使用实时波束成形来实现。波束成形(或空间滤波)可指在传感器阵列(例如，麦克风阵列)中使用的用于定向信号传输或接收的信号处理技术。波束成形可用于增强相对于麦克风阵列来自期望方向的信号，并抑制来自其他方向的噪声和干扰。波束成形可通过组合天线阵列中的元件来实现，使特定角度的信号经历建设性干扰，而其他角度的信号则经历破坏性干扰。波束成形可以在传输和接收两端使用，以实现空间选择性。基于来源的身份或来源进行的通信内容，波束成形可用于增强对来自特定来源的音频通信的检测。

在一些情况下，波束成形可用于提取房间中的声源并区分房间中的多个说话者。波束成形可以基于说话者的先前或当前位置来实现，该位置可以事先知道或基于面部检测来确定。在一些情况下，说话者的位置可以基于从音频源传输到一个或多个麦克风的音频通信的到达时间来确定。

波束形成可用于改善对在与一个或多个麦克风的方向性或指向性相对应的预定检测范围内接收的音频信号的检测。在一些实施方式中，预定的检测区可以是离对应于主治医生的位置或地点的中心点约+/-60°。在其他实施方式中，预定的检测区可以是离对应于一个或多个相关方的位置或地点的中心点约+/-10°。在一些情况下，本公开的系统和方法可以基于包括一个或多个相关方的优先级列表来实现。优先级列表可包括支持和/或执行手术操作的个人列表。相对于具有较低优先级的个人的音频通信，具有较高优先级的个人可以将他们的音频通信优先处理并捕获。

一般来说，在任何给定的时间点，本公开的系统和方法可用于产生“N”个束，相对于一个或多个感兴趣的点其检测区为“+/-X°”。一个或多个感兴趣的点可以对应于感兴趣的对象或人的位置或地点。在一些情况下，相对于一个或多个感兴趣的点，检测区的范围可以从约+/-1°到约+/-90°。

在外科手术之前，可以为医生、外科医师、助理或其他医务人员设置一个或多个配置文件。自动地或基于预先确定的偏好，可以为每个人分配各种优先级。本公开的系统和方法可以被实现以创建N个束，相对于一个或多个感兴趣的点或人其检测区为“+/-X°”。在一些情况下，相对于一个或多个感兴趣的点或人，检测区的范围可以从约+/-1°到约+/-90°。

在一些实施方式中，一个或多个麦克风(或任何其他音频记录或音频检测设备)可被配置为基于(i)一个或多个说话者目前进行的音频通信和(ii)一个或多个说话者之前进行的音频通信的历史记录来辨认和/或识别一个或多个说话者。一个或多个麦克风可被配置为基于对感兴趣的人的识别和分配给感兴趣的人的优先级来优先检测一个或多个感兴趣的人进行的音频通信。在一些实施方式中，一个或多个麦克风可被配置为基于一个或多个说话者进行的音频通信来辨认和/或识别手术中使用的一个或多个工具或产品。例如，麦克风可用于检测医生、医务工作者或支持人员所说的关键词，并通过关键词识别医生、医务工作者或支持人员所提到的工具或产品。在一些情况下，医生、医务工作者或支持人员可能请求特定的工具或产品，以帮助执行与手术相关联的一个或多个任务或步骤，并且一个或多个麦克风可以检测到该工具或产品已被请求。在检测到特定的工具或产品被请求后，本文公开的系统可以向协助手术的一个或多个个人或实体传输通知或请求，以检索或获取医生或外科医师请求的工具或产品。

在一些实施方式中，自然语言处理(NLP)可用于解读和处理医生或外科医师在手术前和/或手术期间进行的音频通信。NLP可以使用一种或多种算法执行。在一些情况下，NLP可包括上下文感知的NLP，其可以解读音频通信以理解、确定或识别(i)正在进行何种外科手术和/或(ii)正在使用哪些工具和/或产品。在一些实施方式中，上下文感知的NLP也可用于对(i)手术中的不同步骤和/或(ii)医生或医院用于外科手术或医疗过程的工具或产品进行编排。在一些情况下，NLP可用于产生或汇编关于外科手术步骤的时间或各种工具、产品或医疗仪器的使用量或频率的数据(例如，统计数据)。在一些情况下，NLP可用于确定，例如，使用NLP识别的不同手术或手术步骤的成功率和/或失败率。在其他情况下，NLP可用于确定使用特定工具或产品执行的不同手术的成功率和/或失败率，该工具或产品是通过NLP识别的。

在一些情况下，一个或多个麦克风可被配置为检测感兴趣的人的声音和/或感兴趣的人的声音活动，并且基于(i)对感兴趣的人的声音或声音活动的检测和(ii)分配给感兴趣的人的优先级，优先检测感兴趣的人进行的音频通信。例如，当一个或多个麦克风没有检测到感兴趣的人的声音或声音活动时，一个或多个麦克风可以不或不需要优先处理多方进行的任何音频通信。然而，当一个或多个麦克风检测到感兴趣的人的声音或声音活动时，一个或多个麦克风可以优先处理感兴趣的人进行的音频通信，而不是其他人或具有较低分配优先级的感兴趣的人进行的其他音频通信。

在一些情况下，可以实现本公开的系统和方法，以基于检测到的一个或多个感兴趣的人的地方或位置调整本文所述的波束成形能力。例如，如果一个或多个麦克风的方向性或指向性对应于第一检测范围或区，而一个或多个感兴趣的人的地方或位置需要将方向性或指向性调整到第二检测范围或区，则一个或多个麦克风的方向性或指向性可被修改或调整为对应于第二检测范围或区。第一检测范围或区和第二检测范围或区可以重叠或部分重叠。在一些情况下，第一检测范围或区与第二检测范围或区可能不同。调整一个或多个麦克风的方向性或指向性可包括波束转向的一个或多个方面。

在一些情况下，本公开的系统和方法可被实现以促进语音检测。语音检测可包括检测语音或其他音频通信的存在或不存在，或基于由音频记录设备(例如，麦克风或麦克风阵列)接收的一个或多个音频通信来识别说话者。在一些情况下，语音检测可包括检测或识别由医疗操作人员、医生、外科医师、医务人员和/或任何感兴趣的人所说的重要的关键词或句子。在一些情况下，至少部分地基于一个或多个个人所说的重要的关键词、短语或句子，这种语音检测可用于改变或调整一个或多个个人的优先级。

在一些情况下，一个或多个个人的优先级可以基于该一个或多个个人所说的某些词、短语或句子进行调整。如上所述，分配给个人的优先级可用于优先检测由这些个人而不是可能在附近的其他人进行的音频通信。在一些情况下，一个或多个个人可包括至少一个被列在优先级列表上的人。在其他情况下，一个或多个个人可包括至少一个未被列在优先级列表上的人。在这种情况下，当不在优先级列表上的个人做出包括一个或多个重要关键词、短语或句子的表述时，该个人可被添加到优先级列表。此外，优先级列表上的其他个人的优先级可以被调整，以适应另一个人添加到优先级列表。

图3图示了可用于优先检测音频通信的优先级列表300的示例。在一个示例中，在操作室中可能存在多个个人。多个个人可以被视为多个音频源(例如，源1、源2、源3和源4)。优先级列表300可以给每个音频源分配优先级，以便本文所述的音频记录设备将优先检测来自那些具有较高优先级的音频源的音频通信。例如，如果优先级列表指定源1具有最高优先级，源2具有第二高优先级，源3具有第三高优先级，源4具有最低优先级，则一个或多个音频检测设备可被配置为与来自源2、源3和/或源4的音频通信相比，优先处理来自源1的音频通信。

在一些情况下，可以基于语音的内容来调整优先级列表。例如，如果源2传达一个或多个关键词、短语或句子，则可以在至少预定的时间段内与源1相比优先处理源2。在其他情况下，当另一个人进行需要优先于其他音频源的有声通信时，优先级列表可被调整以包括另一个源(例如，源5)。

图4图示了可以为音频检测设备产生的一个或多个波束410-1、410-2。如本文所使用的，音频检测设备可互换地称为音频记录设备。音频检测设备可包括，例如，一个或多个麦克风或麦克风阵列，用于检测、记录和/或接收音频通信。一个或多个波束410-1、410-2可以对应于不同的检测区和/或不同的检测范围。在一些情况下，一个或多个波束410-1、410-2的定向和/或角度覆盖可以被调整，以在由多个音频源420-1、420-2进行的多个音频通信中优先一个或多个音频通信。这样的优先可以响应于，例如，优先级列表或对优先级列表的改变；认出某些关键词、短语或句子；和/或对特定个人发出的特定声音或语音的识别。

图5图示了用于检测和增强音频通信的示例性系统。该系统可包括音频检测设备500，其被配置为检测源自一个或多个音频源501-1、501-2的音频通信。音频检测设备500可被配置为接收音频通信并将音频通信传输到音频增强模块510，音频增强模块510被配置为使用本文所述的任何音频增强方法来增强音频通信。音频增强模块510可进一步被配置为将增强的音频通信传输到输出模块或设备520，例如扬声器。在一些情况下，扬声器可以被集成到位于手术室或医疗保健设施内的计算设备中。在其他情况下，扬声器可以被集成到远离手术室或医疗保健设施的计算设备中。在一些情况下，增强的音频通信可以提供给位于手术室或医疗保健设施中的个人。在其他情况下，增强的音频通信可以提供给医疗设备或机器人，该医疗设备或机器人被配置为使用增强的音频通信来帮助外科手术或正在进行外科手术的外科操作者。

在本文描述的任何实施方式中，机器学习可用于训练本公开的音频增强系统，以改善对具有高优先级的音频通信的检测。在一些情况下，对应于高优先级音频通信的一个或多个数据集可被提供给机器学习模块。机器学习模块可被配置为基于数据集产生机器学习数据。一个或多个数据集可被用作一个或多个机器学习算法的训练数据集。可以基于数据集产生学习数据。在一些实施方式中，可以使用有监督学习算法。可选地，可以利用无监督学习技术和/或半监督学习技术，以产生学习数据。学习数据可用于检测和/或辨认高优先级音频通信。学习数据可用于训练机器学习模块和/或机器学习算法以检测和/或辨认高优先级音频通信。在一些情况下，与音频增强系统使用机器学习算法检测到的一个或多个高优先级音频通信相关联的数据可以反馈到学习数据集中，以改进机器学习算法。

在一些实施方式中，机器学习模块可以利用一个或多个神经网络。一个或多个神经网络可包括，例如，深度卷积神经网络。机器学习可以利用任何类型的卷积神经网络(CNN)。也可以利用移位不变或空间不变的神经网络(SIANN)。也可以利用图像分类、对象检测和/或对象定位。在一些实施方式中，神经网络可包括卷积神经网络(CNN)。例如，CNN可以是U-Net、ImageNet、LeNet-5、AlexNet、ZFNet、GoogleNet、VGGNet、ResNet18、或ResNet等。在一些情况下，神经网络可以是，例如，深度前馈神经网络、循环神经网络(RNN)、LSTM(长短时记忆)、GRU(门控循环单元)、自动编码器、变异自动编码器、对抗性自动编码器、去噪自动编码器、稀疏自动编码器、玻尔兹曼机、RBM(限制性BM)、深度信念网络、生成对抗性网络(GAN)、深度残差网络、胶囊网络、注意力/变换器网络等。在一些实施方式中，神经网络可包括一个或多个神经网络层。该神经网络可以有至少约2个至1000个或更多个神经网络层。在一些情况下，机器学习算法可以实现，例如，随机森林、提升决策树、分类树、回归树、袋装树、神经网络或旋转森林。

在一个方面，本公开提供了计算机系统，其被编程或以其他方式被配置为实现本公开的方法，例如，用于增强音频通信的任何主题方法。图6示出了计算机系统601，其被编程或以其他方式被配置为实现用于增强音频通信的方法。计算机系统601可被配置为例如(a)检测与医疗过程相关联的一个或多个参数和与医疗过程相关联的一个或多个音频通信；以及(b)基于该一个或多个参数处理该一个或多个音频通信以产生一个或多个增强的音频通信。计算机系统601可以是用户的电子设备或相对于该电子设备远程定位的计算机系统。该电子设备可以是移动电子设备。

计算机系统601可包括中央处理单元(CPU，本文也称为“处理器”和“计算机处理器”)605，它可以是单核或多核处理器，或用于并行处理的多个处理器。计算机系统601还包括存储器或存储器位置610(例如，随机存取存储器、只读存储器、闪存)、电子存储单元615(例如，硬盘)、用于与一个或多个其他系统进行通信的通信接口620(例如，网络适配器)以及外围设备625，例如缓存、其他存储器、数据存储和/或电子显示适配器。存储器610、存储单元615、接口620和外围设备625通过通信总线(实线)与CPU 605进行通信。存储单元615可以是用于存储数据的数据存储单元(或数据存储库)。计算机系统601可以借助通信接口620可操作地耦合到计算机网络(“网络”)630。网络630可以是因特网、互联网和/或外联网，或与因特网通信的内联网和/或外联网。在一些情况下，网络630是电信和/或数据网络。网络630可包括一个或多个计算机服务器，它可以实现分布式计算，如云计算。在一些情况下，网络630借助于计算机系统601，可以实现点对点网络，这可以使耦合到计算机系统601的设备表现为客户端或服务器。

CPU 605可以执行机器可读指令序列，其可以体现在程序或软件中。指令可以存储在诸如存储器610的存储器位置中。指令可以被指向CPU 605，该指令随后可以编程或以其他方式配置CPU 605以实现本公开的方法。由CPU 605执行的操作的示例可包括获取、解码、执行和回写。

CPU 605可以是电路的一部分，例如集成电路。系统601的一个或多个其他部件可包括在电路中。在一些情况下，电路是专用集成电路(ASIC)。

存储单元615可以存储文件，如驱动程序、库和保存的程序。存储单元615可以存储用户数据，例如，用户偏好和用户程序。在一些情况下，计算机系统601可包括一个或多个额外的数据存储单元，其位于计算机系统601的外部(例如，位于通过内联网或因特网与计算机系统601通信的远程服务器上)。

计算机系统601可以通过网络630与一个或多个远程计算机系统通信。例如，计算机系统601可以与用户(例如，医疗操作者、医疗助理或监视医疗操作的远程观看者)的远程计算机系统进行通信。远程计算机系统的示例包括个人计算机(例如，便携式PC)、板式或平板计算机(例如，iPad、/>Gala6 Tab)、电话、智能电话(例如，iPhone、支持Android的设备、/>)或个人数字助理。用户可以通过网络630访问计算机系统601。

本文所述的方法可以通过存储在计算机系统601的电子存储位置上(例如，在存储器610或电子存储单元615上)的机器(例如，计算机处理器)可执行代码来实现。该机器可执行或机器可读代码可以以软件的形式提供。在使用期间，该代码可以由处理器605执行。在一些情况下，代码可以从存储单元615检索并存储在存储器610上以便处理器605随时访问。在一些情况下，可以排除电子存储单元615，而将机器可执行指令存储在存储器610上。

该代码可以预先编译并配置给具有适合于执行该代码的处理器的机器使用，也可以在运行时期间编译。代码可以以编程语言提供，可以选择该编程语言以使代码以预编译或编译的方式执行。

本文提供的系统和方法的各方面，例如计算机系统601，可以在编程中体现。本技术的各个方面可以被认为是“产品”或“制造品”，其典型地以机器(或处理器)可执行代码和/或相关联数据的形式出现，该机器可执行代码和/或相关联数据被携带或体现在某种类型的机器可读介质上。机器可执行代码可以存储在电子存储单元上，如存储器(例如，只读存储器、随机存取存储器、闪存)或硬盘。“存储”类型的介质可包括可以在任何时候为软件编程提供非临时性存储的任何或所有诸如各种半导体存储器、磁带驱动器、磁盘驱动器等等的计算机、处理器等的有形存储器，或其相关模块。软件的全部或部分有时可通过因特网或其他各种电信网络进行通信。例如，这种通信可使软件从一个计算机或处理器加载到另一个，例如，从管理服务器或主机加载到应用服务器的计算机平台。因此，另一种可能承载软件元件的介质包括光波、电波和电磁波，诸如跨本地设备之间的物理接口，通过有线和光学路线网络和在各种空中链路之上使用的。携带这种波的物理元件，诸如有线或无线链路、光学链路等，也可被视为承载软件的介质。正如本文所使用的，除非仅限于非暂时性的、有形的“存储”介质，否则诸如计算机或机器“可读介质”的术语是指参与向处理器提供指令以供执行的任何介质。

因此，机器可读介质，诸如计算机可执行代码，可以采取多种形式，包括但不限于有形存储介质、载波介质或物理传输介质。非易失性存储介质包括，例如，光盘或磁片，或任何计算机中的任何存储设备等，可用于实现附图中所示的数据库等。易失性存储介质包括动态存储器，诸如这种计算机平台的主存储器。有形传输介质包括同轴电缆；铜线和光纤，包括构成计算机系统内总线的导线。载波传输介质可采取电或电磁信号，或者声或光波的形式，如在无线电频率(RF)和红外(IR)数据通信期间产生的那些。因此，计算机可读介质的常见形式包括：软盘、柔性盘、硬盘、磁带、任何其他磁性介质、CD-ROM、DVD或DVD-ROM、和任何其他光学介质、打孔卡纸带、任何其他带孔图案的物理存储介质、RAM、ROM、PROM和EPROM、FLASH-EPROM、任何其他存储器芯片或盒、传输数据或指令的载波、传输这种载波的线缆或链路，或计算机可从中读取编程代码和/或数据的任何其他介质。许多这些形式的计算机可读介质可能涉及将一个或多个指令的一个或多个序列传送到处理器以便执行。

计算机系统601可包括电子显示器635或与其进行通信，该电子显示器635包括用户界面(UI)640，用于为医疗工作者提供例如门户，以(i)监测在医疗过程期间进行的一个或多个音频通信的检测，以及(ii)从被配置为处理该一个或多个音频通信的音频增强模块接收一个或多个增强的音频通信。该门户可以通过应用编程接口(API)提供。用户或实体也可以通过UI与门户中的各种元件交互。UI的示例包括，但不限于，图形用户界面(GUI)和基于网络的用户界面。

本公开的方法和系统可以通过一个或多个算法的方式实现。算法可以在中央处理单元605执行时通过软件的方式实现。例如，算法可被配置为(a)检测与医疗过程相关联的一个或多个参数和与医疗过程相关联的一个或多个音频通信；以及(b)基于一个或多个参数处理一个或多个音频通信以产生一个或多个增强的音频通信。

在另一个方面，本公开提供了用于音频束选择的系统和方法。观看外科手术的直播或外科手术的记录的一个或多个个人可以从多个不同的音频束或音频频道中选择一个或多个感兴趣的音频束或音频频道。感兴趣的音频束或音频频道可以对应于支持或观看外科手术的不同个人(例如，不同的专家、医生或远程供应商代表)。在一些情况下，感兴趣的音频束或音频频道可以对应于各种不同的外科工具或仪器的使用或操作。在一些情况下，多个音频束或音频频道可能与多个不同的相机相关联，这些相机捕获正在进行的外科手术的不同视图或不同阶段。

在一些情况下，多个相机可以连接到或可操作地耦合到位于医疗保健设施中的医疗控制台。多个相机可被配置为提供正在进行的外科手术的多个视图。多个相机可以各自具有一个或多个音频记录或检测设备(例如，麦克风)，以加强使用多个相机捕获的图像或视频。多个相机可用于捕获外科手术现场的图像或视频，图像或视频以及任何相关联的音频可通过实时流或以视频记录的形式提供给一个或多个个人。这种视频记录可以存储在库或服务器(例如，云服务器)中，以便一个或多个个人可以在视频被记录后的任何时间访问该视频。

在一些情况下，一个或多个个人可以同时标记外科手术的阶段，并选择或提取与外科手术的阶段相关联的音频。这可以允许个人只收听与外科手术视频相关联的部分音频。个人可以各自选择感兴趣的不同阶段，并收听与外科手术的不同阶段相关联的不同音频剪辑。在一些情况下，个人可以选择感兴趣的相同阶段，并收听与外科手术的不同观点、不同手术仪器的使用或操作、和/或正在协助外科手术或正在提供与执行外科手术有关的音频评论的不同说话者相关联的不同音频剪辑。

在一些情况下，个人可能只关心与特定仪器、特定专家或特定医生相关联的音频通信。本公开的系统和方法可允许第一个人收听第一说话者的音频通信，而第二个人收听第二说话者的音频通信。在一些情况下，第一个人可以收听与第一仪器或者第一医生或专家相关联的音频通信，而第二个人可以收听与第二仪器或者第二医生或专家相关联的音频通信。第一个人和/或第二个人可以是，例如，远程专家、供应商代表、医生、外科医师、外科助理、医务工作者、住院医生、实习医生、医科学生或对观看外科手术和/或收听与外科手术相关联的音频通信感兴趣的任何其他个人(例如，正在接受外科手术的对象的朋友或家庭成员)。第一说话者和/或第二说话者可以是，例如，远程专家、供应商代表、医生、外科医师、外科助理或医务工作者。

在一些情况下，多个个人可以通过从音频设备或音频频道的主列表中选择期望的音频束或频道来选择感兴趣的音频束或频道。可以为每个外科手术产生音频设备或音频频道的主列表。该列表可以手动编译，或基于对一个或多个用于在外科手术期间记录音频通信的音频记录设备的检测而自动产生。

在其他情况下，多个个人可以通过选择仪器、专家、医生、外科医师或感兴趣的手术阶段来选择感兴趣的音频束或频道。在这种情况下，可以对手术视频进行后期处理，以提取相关联的音频束或频道。例如，第一个人可以查看手术视频，并选择感兴趣的特定仪器、专家、医生、外科医师或手术阶段。一个或多个处理器可用于对手术视频进行后期处理，以提取与第一个人选择的感兴趣的特定仪器、专家、医生、外科医师或手术阶段相关联的相关音频通信。同时，第二个人可以查看同一手术视频，并选择感兴趣的特定仪器、专家、医生、外科医师或手术阶段。一个或多个处理器可用于对手术视频进行后期处理，以提取与第二个人选择的感兴趣的特定仪器、专家、医生、外科医师或手术阶段相关联的相关音频通信。

如本文所用，后期处理可包括从多个频道接收音频，并基于个人提供的选择或输入确定或提取感兴趣的特定音频流或频道。选择或输入可以关于感兴趣的特定仪器、专家、医生、外科医师或手术阶段。选择或输入可包括物理输入(例如，在手术视频中点击特定扬声器或特定仪器)。

在一些情况下，可以跟踪元数据，以从多个流中提取一个或多个感兴趣的音频流。元数据可包括将感兴趣的一个或多个音频流与感兴趣的特定仪器、专家、医生、外科医师或手术阶段相关联的信息。元数据可以基于使用例如计算机视觉技术或一个或多个机器学习或分类算法对感兴趣的各种仪器、专家、医生、外科医师或手术阶段的识别或检测来产生。

在一些情况下，一旦识别并选择了感兴趣的特定音频频道或音频流，本公开的系统和方法可用于放大感兴趣的音频频道或音频流。此外，本公开的系统和方法可用于削弱不感兴趣的其他音频频道或音频流。放大或削弱的水平可以基于例如用户偏好或用户提供的输入来调整。

在一些情况下，可以将一个或多个用户自动分配到来自多个音频流或频道的一个或多个特定的音频流或频道。可以基于例如用户的身份或角色将用户分配到一组特定的音频流或频道。在一些情况下，第一用户(例如，产品支持专家)可被自动分配到第一音频流或频道，第二用户(例如，咨询医生)可被自动分配到第二音频流或频道。第一音频流或频道可包括与产品支持专家熟悉和/或了解的一个或多个产品(例如，工具、仪器、设备或系统)相关联的音频通信。在一些情况下，第一音频流或频道可包括与产品支持专家熟悉和/或了解的一个或多个产品的使用相关联的音频通信。第一音频流或频道可包括向产品支持专家提供关于一个或多个产品的身份或使用的信息的音频通信，使得产品支持专家可以为如何正确或有效地准备或使用一个或多个产品提供专门指导。第二音频流或频道可包括，例如，与外科手术的另一个方面相关联的音频通信(例如，与外科手术的一个或多个步骤的执行，或包括医疗或外科技术的外科手术的程序方面相关联的音频通信)。第二音频流或频道可包括向咨询医生提供关于外科医师如何执行手术的信息的音频通信，使得咨询医生可以为如何适当或更有效地执行外科手术的一个或多个步骤提供专门指导。在一些情况下，第一和第二音频流或频道可包括相同或类似的音频内容。在其他情况下，第一和第二音频流或频道可包括不同的音频内容。不同的音频内容可包括由不同的个人进行的音频通信或与外科手术的不同方面或部分相关联的音频通信。

在一些情况下，一个或多个音频流可以从多个音频流中自动过滤，并基于用户的身份、用户的角色或音频流的内容呈现给特定用户或特定用户子集。在其他情况下，一个或多个音频流的过滤和分配给特定用户或用户子集可以被调整或修改。例如，如果一个或多个用户想收听不是自动分配给他们的各种音频流或频道，则一个或多个用户可以提供一个或多个输入来改变或添加其他感兴趣的音频流或频道。在一些情况下，用户也可以提供输入来改变或删除不再感兴趣的音频流或频道。输入可包括，例如，手动选择或删除一个或多个音频流。在一些情况下，这种手动选择或删除音频流可以相对于或参照音频流或频道的主列表进行。在一些情况下，可以对输入进行分析，并用于改变用于对用户进行音频频道或流的初始自动分配的一个或多个参数或因素。在一些情况下，音频频道或流的选择或分配可由特定用户直接改变。在其他情况下，音频频道或数据流的选择或分配可通过正在其中操作手术的医疗保健设施改变。在这种情况下，对各种用户的音频频道或流的分配或选择可以由医疗保健设施管理，并基于医疗保健设施或管理与分配和传输音频频道或流给各种用户相关联的权限的一个或多个实体提供的授权或批准来调整或修改。

图7示意性地图示了与多个音频频道710相关联的多个音频源701。多个音频源701可包括，例如，源1、源2、源3、源4等。多个音频频道710可包括，例如，频道1、频道2、频道3、频道4等。多个音频源701可以被映射到多个音频频道710中的一个或多个。多个音频频道710可以基于一个或多个用户的功能、角色、专业、专长或身份，自动分配给一个或多个用户。一个或多个用户可以访问多个音频频道710的子集。在一些情况下，不同的用户可以能够连接到不同的音频频道。例如，用户A可以连接到对应于音频源1的音频频道1，用户B可以连接到对应于音频源2的音频频道2，用户C可以连接到对应于音频源3的音频频道3，而用户D可以连接到对应于音频源4的音频频道4。将用户分配到特定的频道或音频源可以由正在其中进行手术的医疗保健设施、由医疗保健设施的管理员或雇员，或由管理与手术相关联的一个或多个音频或数据流的服务器或实体来管理。

如图8所示，在一些情况下，一个或多个用户可以选择感兴趣的特定音频频道或特定组音频频道。音频频道的选择可以直接对应于一个或多个感兴趣的特定音频源的选择。或者，音频频道的选择可以基于一个或多个感兴趣的参数(例如，感兴趣的工具、感兴趣的手术阶段、感兴趣的医疗技术、感兴趣的外科医师或医生等)。在这种情况下，可以对手术视频和音频数据进行后期处理，以提取对应于一个或多个用户选择的感兴趣的参数或感兴趣的音频频道的感兴趣的音频源。在一些情况下，用户A可以选择感兴趣的第一组711音频频道，而用户B可以选择感兴趣的第二组712音频频道。第一组711音频频道和第二组712音频频道可以对应于不同感兴趣的工具，不同感兴趣的手术阶段，不同感兴趣的医疗技术，和/或不同感兴趣的外科医师或医生。

图9示意性地图示了用于从多个音频源701或音频频道710中选择一个或多个感兴趣的音频源或音频频道的用户界面750的示例。在一些示例中，用户可以通过提供输入(例如，敲击、触摸、按压、点击等)来与用户界面750中的虚拟元件互动，从而手动选择感兴趣的一个或多个音频源701或音频频道710。该虚拟元件可包括，例如，按钮、复选框或单选按钮。在一些情况下，用户界面750可以允许用户一次选择感兴趣的多个不同的音频频道或音频源。

图10示意性地图示了音频管理系统720，其被配置为执行对多个音频源701或音频频道710的后期处理，以向各种用户提供自定义或定制的音频频道选择。音频管理系统720可以借助于一个或多个处理器来实现。音频管理系统720可以在位于医疗保健设施的计算设备或服务器(例如，远程服务器或云服务器)上实现。在一些情况下，音频管理系统720可被配置为向第一用户B提供第一组音频频道740-1，并向第二用户B提供第二组音频频道740-2。音频管理系统720可被配置为基于用户的身份、角色、专长或专业来选择第一组音频频道740-1和第二组音频频道。在一些情况下，音频管理系统720可被配置为基于用户提供的一个或多个输入来选择第一组音频频道740-1和第二组音频频道。该一个或多个输入可包括，例如，选择一个或多个感兴趣的工具、一个或多个感兴趣的手术阶段、一个或多个感兴趣的医疗技术和/或一个或多个感兴趣的外科医师或医生。

图11示意性地图示了音频管理系统720，其被配置为基于用户提供的一个或多个输入来调整哪些音频频道被提供给用户。在一些情况下，用户可以向音频管理系统720提供一个或多个输入730。该一个或多个输入730可包括，例如，选择感兴趣的一个或多个工具、感兴趣的一个或多个手术阶段、感兴趣的一个或多个医疗技术和/或感兴趣的一个或多个外科医师或医生。音频管理系统720可被配置为使用一个或多个输入730来识别用户感兴趣的各种频道740。感兴趣的各种频道740可以与用户指出的一个或多个感兴趣的工具、一个或多个感兴趣的手术阶段、一个或多个感兴趣的医疗技术和/或一个或多个感兴趣的外科医师或医生相关联。在一些情况下，用户可以在不同时间提供不同的输入730，并且音频管理系统720可被配置为相应地调整频道的选择。频道的选择可包括来自与用户提供的一个或多个输入730相对应的不同音频源的音频数据。

图12示意性地图示了用于选择各种感兴趣的频道的示例性用户界面750。在一些情况下，用户可以选择一个或多个感兴趣的频道，而音频管理系统可被配置为提供与用户选择的一个或多个感兴趣的频道相对应的一个或多个音频源。这种提供可能涉及音频或视频数据的后期处理，以提取感兴趣的相关音频流，如本文其他地方所述。在一些情况下，用户可以选择各种感兴趣的阶段、各种感兴趣的仪器、和/或各种感兴趣的操作者。基于这样的选择，音频管理系统可被配置为提供与用户选择的各种感兴趣的参数相对应的一个或多个音频源和/或一个或多个音频频道。在一些实施方式中，用户可以做出多个选择，其对应于感兴趣的不同的仪器、阶段和操作者，并且音频管理系统可被配置为提供对应于用户进行的各种选择的多个音频源和/或音频频道。

在一些情况下，感兴趣的音频频道可以根据外科手术的阶段或环节而改变。在一些情况下，观看手术视频的一个或多个个人可以改变感兴趣的音频频道或在两个或更多个音频频道之间切换。在一些情况下，观看手术视频的一个或多个个人可以同时收听两个或更多个感兴趣的音频频道。在这种情况下，音频频道可能与外科手术的不同特征或方面相关联。例如，第一音频频道可能与手术工具或仪器相关联，而第二音频频道可能与使用手术工具或仪器的外科医师或医生相关联。

在一些情况下，本公开的系统和方法可被实施，以允许或实现多个个人之间的音频协作。在一些情况下，多个个人可以同时观看外科手术的视频。该视频可包括直播视频或记录的视频。个人可以分别选择各种感兴趣的音频束或音频频道，并与其他个人分享带有感兴趣的音频束或音频频道的手术视频的修改版本。在一些情况下，第一个人可以修改手术视频以包括感兴趣的第一音频束或频道，第二个人可以进一步修改手术视频以包括感兴趣的第二音频束或频道。在一些情况下，第三个人可以查看包含第一和第二音频束或频道的手术视频，该手术视频可以经由直播或通过服务器(例如，云服务器)分享给第三个人。包含第一和第二音频束或频道的手术视频可以为第三个人提供关于与外科手术相关联的各种仪器、专家、医生、外科医师、视图或手术阶段的额外背景。

在一些情况下，多个远程供应商或专家可以同时为外科手术视频的各个部分或节段提供音频评论。音频评论可包括对外科手术的一个或多个步骤或方面的指导、帮助、或解释、评价或者评估。在一些情况下，第一个人可以提供第一音频评论，而第二个人可以提供第二音频评论。第一音频评论可与第一音频频道相关联，而第二音频评论可与第二音频频道相关联。在一些情况下，包含来自第一个人和第二个人两者的音频评论的手术视频可以与第三个人共享。手术视频可以具有包含第一音频评论的第一音频频道和包含第二音频评论的第二音频频道。在一些情况下，包含第一和第二音频频道的手术视频可以让观看手术视频的不同个人比较和对比执行外科手术的不同方法。在本文所述的任何实施方式中，一个或多个用户(例如，远程供应商、专家、外科医师、医生或医务工作者)的音频评论可以被提供以代替或补充先前与手术视频相关联的任何音频流或频道。

在一些实施方式中，在外科手术期间可以进行一个或多个音频通信。例如，一个或多个音频通信可包括由仪器(例如，心电图监测器或其他用于监测各种生物或生理信号的医疗硬件)、机器人(例如，医疗或手术机器人系统)或正在执行或协助进行外科手术的人(例如，一个或多个外科医师、医生、护士、助理和/或医务工作者)发出的声音。

在外科手术期间进行的音频通信可以被记录和/或播送给一个或多个用户。在一些情况下，音频通信可以由播送方(在此也称为“发布方”)记录和播送。音频通信可以与外科手术的一个或多个图像或视频一起播送。

在一些情况下，播送方可以直接向多个不同的用户(例如，一个或多个供应商代表)播送音频通信。多个不同的用户中的每一个都可以分别修改由播送方播送的音频通信。修改音频通信可包括，例如，如上所述，选择或增强感兴趣的各种音频流或音频频道，或者消除或静音一个或多个音频流或频道。在一些情况下，每个人可以只修改他或她接收到的音频通信。例如，如果第一用户发现仪器的蜂鸣声令人分心或烦躁，则第一用户可以将与这种蜂鸣声相关联的音频流或频道静音，而不修改播送给第二用户(其可能对监测第一用户发现令人分心和烦躁的蜂鸣声感兴趣)的音频流或频道。在其他情况下，每个个人都可以为从播送方接收音频通信的其他个人或用户修改音频通信。例如，如果用户发现仪器的蜂鸣声令人分心或烦躁，并且该用户认为其他用户也会发现蜂鸣声令人分心或烦躁，则该用户可以为各个其他用户静音与这种蜂鸣声相关联的音频流或频道(例如，作为先发制人的措施或对其他用户的礼节)。本公开的系统和方法可以被实现，以允许每个个人用户为自己，或者，可替代地，为从播送方接收音频通信的所有其他参与者静音特定频道。在一些情况下，本公开的系统和方法也可以被实现，以允许个人用户为自己和/或从播送方接收音频通信的其他参与者修改、增强或调谐特定频道。

在一些情况下，播送方可以将音频通信播送给调节实体(例如，人或服务器)。调节实体可被配置为在向一个或多个用户播送音频通信之前接收和预处理或修改音频通信。例如，调节实体可以增强普遍感兴趣的某些音频通信，和/或静音或消除不太感兴趣或不太重要的其他音频通信。在一些情况下，调节实体可以将透露个人或私人信息的某些音频通信，或令人分心或烦躁的音频通信静音或消除。经调节实体修改的音频通信可以传输给一个或多个用户，他们可以基于各自的喜好进一步修改音频通信。在一些情况下，调节实体可以为不同的用户或用户子集以不同的方式预处理或修改由播送方播送的音频通信。例如，调节实体可以为第一用户子集增强和/或消除第一组音频频道，并为第二用户子集增强和/或消除第二组音频频道。在任何一种情况下，第一和第二用户子集可以基于个人需求和/或喜好进一步调谐他们接收到的音频通信。

在一些情况下，播送方可以修改向一个或多个用户和/或播送方和一个或多个用户之间的调节实体播送的音频通信。如上所述，修改音频通信可包括选择或增强感兴趣的各种音频流或音频频道，或消除或静音一个或多个音频流或频道。调节实体和/或一个或多个用户可以对播送方修改的音频通信进行进一步的修改。在一些情况下，播送方可以基于用户的身份、角色、专长或专业，为不同的用户子集增强和/或消除不同的音频频道。播送方可以控制哪些音频频道或音频流被播送给调节实体或一个或多个用户。

在一些情况下，每个个人用户、观看者、调节方或远程专家可以选择哪些音频流被增强或消除。在一些情况下，每个个人用户、观看者、调节方或远程专家可以选择为所有参与者增强或消除哪些音频流。在其他情况下，每个个人用户、观看者、调节方或远程专家只能修改他或她已经接收到、正在接收或将要接收的音频流。

音频调谐可由播送方、远程供应商代表和/或个人观看者执行。如果音频因任何原因而不清晰(例如，由于环境噪音或其他听觉干扰)，则音频可以基于个人喜好进行调谐。在一些情况下，音频可以使用一个或多个音频优化算法自动调谐。在其他情况下，音频可以由一个或多个用户手动调谐。音频调谐可包括，例如，增加或降低一个或多个音频通信的音量，加快或减慢一个或多个音频频道，改变一个或多个音频通信的音调、音色、节奏或低音水平，过滤掉各种频率或频率范围，或以其他方式修改实际音频信号。在一些情况下，音频调调谐可用于减少环境噪音、静电、混响和/或收听音频通信时存在的回声。在一些情况下，音频调谐可包括升高某些音频信号或音频信号的一些频率，以提高文字的可懂度，并且减少观看者和听众的疲劳感。

图13示意性地图示了被配置为广播一个或多个音频频道的播送方1310。播送方1310可以将多个音频频道(例如，频道1、频道2、频道3和频道4)播送给调节方实体1320。在一些情况下，播送方1310可以选择特定的音频频道子集来传输给调节实体1320。调节实体1320可被配置为在音频频道被传输给一个或多个用户或观看者之前增强一个或多个音频频道。调节实体1320可被配置为将从播送方1310接收到的一个或多个音频频道静音。例如，调节实体1320可以从播送方1310接收多个频道(例如，频道1、频道2、频道3和频道4)，并将多个频道(例如，频道1、频道2和频道3)的子集传输给用户A和用户B。

图14示意性地图示了被配置为播送一个或多个音频频道的播送方1310。播送方1310可以将多个音频频道(例如，频道1、频道2、频道3和频道4)播送给调节方实体1320。调节实体1320可被配置为选择性地将音频频道的第一子集(例如，频道1和频道2)传输给第一用户，并将音频频道的第二子集(例如，频道3和频道4)传输给第二用户。在一些情况下，调节实体1320可被配置为在向用户传输修改后的音频通信之前为某些用户选择性地增强或静音一些音频频道(例如，基于用户偏好、用户身份或专业知识，或基于授予各种用户的一个或多个权限)。

图15示意性地图示了被配置为播送一个或多个音频频道的播送方1310。播送方1310可将多个音频频道(例如，频道1、频道2、频道3和频道4)播送给调节方实体1320。调节实体1320可被配置为选择性地将音频频道的子集(例如，频道1、频道2和频道3)传输给第一用户(例如，用户A)。第一用户可以是，例如，远程供应商代表或远程专家。第一用户可以增强、消除和/或修改从调节实体1320接收到的一个或多个音频频道。在一些情况下，第一用户可以将音频频道的第二子集(例如，频道1和频道2)转发或转播给第二用户(例如，用户B)。第二用户可以是，例如，另一个远程供应商代表或远程专家。或者，第二用户可以是任何对接收和收听一个或多个与外科手术相关联的修改的或增强的音频通信感兴趣的听众或观看者。例如，第二用户可以是医生、外科医师、医疗助理、医疗工作者、病人的朋友或家庭成员、医科学生、住院医生或实习生。在一些情况下，第二用户可以基于第二用户的需要或偏好，进一步调谐从第一用户接收到的音频频道。

在一些实施方式中，本公开的麦克风阵列(在此也被称为麦克阵列、麦克阵列模块或麦克风阵列模块)可包括一个或多个相机或图像传感器。一个或多个相机或图像传感器可以具有视场，其横跨在其中可以使用麦克阵列模块的一个或多个麦克风来捕获或检测音频信号的区。相机或图像传感器可用于捕获一个或多个音频源的一个或多个图像或视频，一个或多个可检测的音频信号来自这些音频源。一个或多个音频源可包括，例如，医生、外科医师、医务工作者、助手、工具(例如，医疗工具)、仪器或设备。

在一些实施方式中，一个或多个图像或视频可以被发送至一个或多个远程参与者，以便远程参与者可以查看(1)与使用麦克阵列模块检测或捕获的一个或多个音频信号相关联的音频源，或(2)手术环境中检测到一个或多个音频信号的区。在一些情况下，当检测到一个或多个音频信号时，音频源的视图或其中检测到一个或多个音频信号的区可以实时显示给各个远程参与者。在一些情况下，可以向不同的远程参与者提供与感兴趣的不同的音频源或不同的音频信号集相对应的不同视场。

在一些实施方式中，远程参与者可以选择(1)远程参与者希望获得哪些音频束和/或(2)远程参与者希望调查或监测哪个视场。视场可以对应于一个或多个感兴趣的音频束可能来自的区或区域。在一些情况下，远程参与者也可以选择或指定一个或多个感兴趣的音频束、一个或多个感兴趣的音频源或一个或多个感兴趣的区域。在一些情况下，感兴趣的区域可以对应于一个或多个音频源所在的区或环境。在一些情况下，感兴趣的音频束、感兴趣的音频源和/或感兴趣的区域的选择可以在本地或远程执行。

在一些实施方式中，麦克阵列模块可包括一个或多个相机或图像传感器。一个或多个相机或图像传感器可以为用户提供手术环境的视场。视场可用于直观地标记医生、护士、供应商代表、远程专家、本地专家和/或任何参与、支持或监测在手术环境中(无论是在手术环境中本地还是在远离手术环境的位置远程地)执行的手术的人。在一些情况下，视场还可以使得用户能够指定他们是否对人的音频信号感兴趣，或者用户想指定删除或过滤该人的音频信号。在一些情况下，麦克阵列模块还可以跟踪一个或多个相机或成像传感器视场内的一个或多个个人，并在该个人在手术环境内移动时调整音频束或视场(其可对应于一个或多个感兴趣的区域)。可以使用软件和/或通过物理改变麦克阵列模块或其任何组件的位置和/或定向来进行要监测的感兴趣的音频束、视场或区域的调整。

在一些实施方式中，在手术发生之前，可以预先登记、预先确定或预先编程选择各种感兴趣的音频信号、感兴趣的音频源或感兴趣的区域/视场。该选择可以由用户基于个人用户偏好或用户(或其他用户)以前对类似手术的选择进行调整(例如，在手术之前、期间和/或之后)。在一些情况下，对各种感兴趣的音频信号、感兴趣的音频源或感兴趣的区域/视场的选择可以在记录的内容或实时内容上进行，然后用户可以选择他们对音频信号的哪个子集感兴趣(和/或不感兴趣)。在一些情况下，感兴趣的音频信号可以进一步被增强，如本文其他地方所述。在一些情况下，不感兴趣的音频信号可以被静音、减弱或以其他方式过滤掉，以便用户或参与者(例如，远程参与者)可以专注于感兴趣的音频信号。

虽然本发明的优选实施方式已在此显示和描述，但对于本领域的技术人员来说，显然这种实施方式只是以举例的方式提供。并不旨在通过说明书中提供的具体示例来限制本发明。虽然本发明已经参照上述说明书进行了描述，但这里对实施方式的描述和说明并不意味着要以限制性的意义来解释。在不偏离本发明的情况下，本领域的技术人员现将构思到许多变化、改变和替换。此外，应当理解的是，取决于各种条件和变量，本发明的所有方面并不局限于本文所述的具体描绘、配置或相对比例。应当理解的是，在实施本发明时，可以采用本文所述的本发明实施方式的各种替代方案。因此，设想本发明也应包括任何此类替代物、修改、变化或等同物。以下的权利要求书旨在限定本发明的范围，并且这些权利要求范围内的方法和结构以及它们的等同物也将由此被涵盖。

Claims

1.一种用于增强音频通信的方法，包括：

(a)检测与医疗过程相关联的一个或多个音频通信和与所述一个或多个音频通信相关联的一个或多个参数；以及

(b)基于所述一个或多个参数处理所述一个或多个音频通信，以产生一个或多个增强的音频通信。

2.根据权利要求1所述的方法，其中所述一个或多个参数包括进行所述一个或多个音频通信的人类或机器人的身体特征、面部、声音或身份。

3.根据权利要求1所述的方法，其中所述一个或多个参数包括所述一个或多个音频通信的关键词、短语或句子。

4.根据权利要求1所述的方法，其中所述一个或多个参数包括使用中的工具或仪器的类型或所述医疗过程的阶段。

5.根据权利要求1所述的方法，其中处理所述一个或多个音频通信包括波束形成，以调整一个或多个音频检测设备的检测区、检测范围、指向性或方向性。

6.根据权利要求1所述的方法，其中处理所述一个或多个音频通信包括基于说话者的身份优先检测或捕获所述一个或多个音频通信。

7.根据权利要求6所述的方法，其中处理所述一个或多个音频通信包括基于所述一个或多个音频通信中的一个或多个关键词、短语或句子的检测，调整检测或捕获的所述优先级。

8.根据权利要求1所述的方法，其中处理所述一个或多个音频通信包括相对于所述一个或多个音频通信的第二音频通信的音量，增加所述一个或多个音频通信的第一音频通信的音量。

9.根据权利要求1所述的方法，其中处理所述一个或多个音频通信包括相对于所述一个或多个音频通信的第二音频通信的音量，降低所述一个或多个音频通信的第一音频通信的音量。

10.根据权利要求1所述的方法，其中处理所述一个或多个音频通信包括将一个或多个音频通信静音或消除。

11.根据权利要求1所述的方法，其中所述一个或多个增强的音频通信对应于感兴趣的工具或仪器或所述感兴趣的工具或仪器的使用。

12.根据权利要求1所述的方法，其中所述一个或多个增强的音频通信对应于感兴趣的手术阶段。

13.根据权利要求1所述的方法，其中所述一个或多个增强的音频通信对应于感兴趣的医生、外科医师、医务工作者、供应商代表或产品专家。

14.根据权利要求1所述的方法，进一步包括使用计算机视觉、自然语言处理或机器学习检测所述一个或多个参数。

15.根据权利要求1所述的方法，其中检测所述一个或多个参数包括识别与所述一个或多个音频通信相关联的医疗工具或仪器。

16.根据权利要求15所述的方法，其中识别所述医疗工具或仪器包括对所述工具或仪器进行成像，扫描与所述工具或仪器相关联的标识符，或接收包括关于所述工具或仪器的信息的一个或多个电磁波。

17.一种用于增强音频通信的方法，所述方法包括：

(a)接收与医疗过程相关联的多个音频通信；

(b)接收与感兴趣的参数相对应的一个或多个用户输入，其中所述感兴趣的参数与所述医疗过程的一个或多个步骤的执行相关联；以及

(c)基于所述多个音频通信和所述一个或多个用户输入，产生一个或多个增强的音频通信。

18.根据权利要求17所述的方法，其中所述一个或多个用户输入包括对所述感兴趣的参数的用户选择。

19.根据权利要求17所述的方法，其中所述感兴趣的参数包括感兴趣的仪器、专家、代表、医生、外科医师或手术阶段。

20.根据权利要求17所述的方法，其中产生所述一个或多个增强的音频通信包括隔离或提取与所述感兴趣的参数相关联的一个或多个音频频道。

21.根据权利要求17所述的方法，其中产生所述一个或多个增强的音频通信包括相对于所述多个音频通信的第二音频通信的音量，增加所述多个音频通信的第一音频通信的音量。

22.根据权利要求17所述的方法，其中产生所述一个或多个增强的音频通信包括相对于所述多个音频通信的第二音频通信的音量，降低所述多个音频通信的第一音频通信的音量。

23.根据权利要求17所述的方法，其中产生所述一个或多个增强的音频通信包括将所述一个或多个音频通信静音或消除。

24.根据权利要求17所述的方法，其中所述一个或多个用户输入包括从感兴趣的音频频道的主列表中选择感兴趣的音频频道。

25.根据权利要求17所述的方法，其中通过对与所述医疗过程相关联的一个或多个视频进行后期处理，以隔离、提取或加强与感兴趣的参数相关联的一个或多个音频频道产生所述一个或多个增强的音频通信。

26.根据权利要求17所述的方法，其中基于与所述医疗过程的多个音频通信或一个或多个视频相关联的元数据产生所述一个或多个增强的音频通信。

27.根据权利要求17所述的方法，其中所述一个或多个增强的音频通信对应于多个音频频道。

28.根据权利要求27所述的方法，其中所述多个音频频道对应于支持所述医疗过程的多个医生、外科医师、供应商代表或产品专家。

29.根据权利要求27所述的方法，其中所述多个音频频道对应于用于执行所述医疗过程的一个或多个步骤的多个不同工具。

30.根据权利要求27所述的方法，其中所述多个音频频道对应于所述医疗过程的多个不同步骤或阶段。

31.根据权利要求1所述的方法，其中处理所述一个或多个音频通信包括(i)增强一个或多个音频通信或(ii)为一个或多个用户静音或消除一个或多个音频通信。

32.根据权利要求31所述的方法，其中所述一个或多个音频通信由播送方、调节实体、远程专家、供应商代表或所述一个或多个用户处理，其中所述一个或多个用户包括观看手术视频或其一部分的至少一个用户。

33.根据权利要求17所述的方法，进一步包括使用一个或多个相机或成像传感器来跟踪从其接收或捕获所述多个音频通信的区的视场。

34.根据权利要求33所述的方法，进一步包括将所述视场传输给一个或多个远程参与者。

35.根据权利要求34所述的方法，其中一个或多个感兴趣的音频束或区域可由所述一个或多个远程参与者选择，其中所述一个或多个感兴趣的音频束或区域对应于(i)所述多个音频通信的至少一个子集或(ii)所述视场内的一个或多个区域。

36.根据权利要求35所述的方法，其中所述一个或多个感兴趣的音频束或区域的所述选择是在本地或远程执行的。

37.根据权利要求33所述的方法，进一步包括跟踪或标记一个或多个感兴趣的个体或区域。

38.根据权利要求37所述的方法，进一步包括选择(i)一组音频信号来增强或(ii)一组音频信号来删除或衰减。

39.根据权利要求37所述的方法，进一步包括在一个或多个个体相对于所述一个或多个相机或成像传感器移动时，跟踪所述一个或多个感兴趣的个体或区域。

40.根据权利要求36所述的方法，其中在所述医疗过程开始之前，预注册感兴趣的音频束或区域的所述选择。

41.根据权利要求36所述的方法，其中针对与所述医疗过程相关联的记录内容做出感兴趣的音频束或区域的所述选择。

42.一种用于处理音频通信的方法，所述方法包括：

(a)接收来自与医疗过程相关联或执行医疗过程的一个或多个个人的多个音频通信；以及

(b)基于来自所述一个或多个个人的所述多个音频通信的至少一个子集，检测、辨认或识别与所述医疗过程相关联的一个或多个工具、产品或仪器。

43.根据权利要求42所述的方法，其中(a)包括使用一个或多个麦克风或包括所述一个或多个麦克风的麦克风阵列来接收所述多个音频通信。

44.根据权利要求43所述的方法，其中所述一个或多个麦克风被配置为检测所述多个音频通信或其子集内的一个或多个关键词。

45.根据权利要求44所述的方法，其中基于所述一个或多个关键词来识别所述一个或多个工具、产品或仪器。

46.根据权利要求42所述的方法，其中使用自然语言处理来识别所述一个或多个工具、产品或仪器。

47.根据权利要求46所述的方法，其中使用用于分析所述多个音频通信的一个或多个算法实现所述自然语言处理。

48.根据权利要求47所述的方法，其中所述一个或多个算法被配置为实现上下文感知的自然语言处理，以(i)解读所述多个音频通信和(ii)确定哪些工具或产品正在被用于执行所述医疗过程。

49.根据权利要求47所述的方法，其中所述一个或多个算法被配置为实现上下文感知的自然语言处理，以(i)解读所述多个音频通信和(ii)确定哪些工具或产品由执行所述医疗过程的医生或外科医师请求。

50.根据权利要求47所述的方法，其中所述一个或多个算法被配置为实现上下文感知的自然语言处理，以(i)解读所述多个音频通信和(ii)确定正在执行哪种手术或正在执行手术的哪一步。

51.根据权利要求47所述的方法，其中所述一个或多个算法被配置为实现上下文感知的自然语言处理，以(i)解读所述多个音频通信和(ii)编排(a)所述手术中的不同步骤，(b)所述手术的一个或多个步骤的时间，或(c)医生或医院使用哪些工具或产品来执行所述医疗过程。

52.根据权利要求47所述的方法，其中所述一个或多个算法被配置为对所述多个音频通信使用自然语言处理，以产生或汇编关于外科手术中的步骤的时间或所述工具、产品或仪器的使用量或频率的数据。

53.根据权利要求47所述的方法，其中所述一个或多个算法被配置为对所述多个音频通信使用自然语言处理，以确定使用所述自然语言处理识别的不同手术或手术步骤的成功率和/或失败率。

54.根据权利要求47所述的方法，其中所述一个或多个算法被配置为对所述多个音频通信使用自然语言处理，以确定使用所述自然语言处理识别的所述工具、产品或仪器执行的不同手术的成功率和/或失败率。