CN113811954A

CN113811954A - 存储和呈现用户的音频和/或视觉内容

Info

Publication number: CN113811954A
Application number: CN202080035174.5A
Authority: CN
Inventors: E·C·V·塔尔戈恩; L·J·F·戈伊茨; O·托什尼瓦尔; A·D·佩凯尔; V·P·布伊尔
Original assignee: Koninklijke Philips NV
Current assignee: Koninklijke Philips NV
Priority date: 2019-03-13
Filing date: 2020-03-07
Publication date: 2021-12-17
Also published as: JP2022525867A; EP3709307A1; WO2020182696A1; EP3939053A1

Abstract

提供一种用于存储用户的音频和/或视觉内容的系统(100)。所述系统(100)包括一个或多个处理器(102)，其被配置为响应于对用户的姿态和/或语音命令的检测来识别由所述姿态和/或语音命令指示的对象的身体上的位置。所述系统(100)还包括一个或多个处理器(102)，其被配置为控制至少一个存储器(104)存储对对象的身体上的所识别的位置的指示，以及在其之后或期间检测用户的姿态和/或语音命令的时间段上捕获的用户的音频和/或视觉内容。

Description

存储和呈现用户的音频和/或视觉内容

技术领域

本公开涉及用于存储用户的音频和/或视觉内容以及用于呈现用户的音频和/或视觉内容的系统和方法。

背景技术

通常情况下，对象在任何一天都被提供了大量信息，因此对象很难记住提供给他们的所有信息，更不用说准确记住所有信息了。有时信息可能很重要，如果对象忘记信息或错误地回忆信息可能会出现问题。对象也可能难以在他们可用的大量信息中轻松检索或过滤所需信息。

在医学保健领域尤其如此，在医学保健领域中，患者参与对于对象(例如患者)，了解他们的病情、疾病进展、推荐治疗等是很重要的。可以在会诊期间由医学专业人员(例如医生)提供许多解释，并且在通常情况下，对象以后将无法准确地回忆起这些解释。此外，由于医学图像(包括注释和医学报告)中通常包含大量信息，因此对于对象理解通过医学图像方式提供的信息可能是困难的，尤其是在脱离上下文查看信息时，即没有医学专业人士的相关解释时。

可以创建一个目录，其包含为了对象在家里进行就诊的来自医生会诊的所有文件(例如医学图像、报告、背景手册、解剖图等)。然而，这可能是对于对象是大量的信息，他们必须把信息过滤和链接在一起。这对于对象来说可能是复杂和耗时的，这意味着他们将不会参与到信息中，因此将不会积极查阅信息。此外，对象需要在会诊之间向医学专业人员报告与其健康相关的事件(例如症状)。然而，对于对象记录此类事件可能是困难且乏味的，尤其是当可能存在大量事件时。

US 2013/0174077公开了一种医学信息显示装置，其包括用于显示信息的显示单元和用于检测在显示单元的显示表面上执行的姿态操作的姿态输入单元。获取单元在显示对象外观图像的同时获取与在显示表面上执行的姿态操作相对应的对象的医学信息。然而，即使对象能够以这种方式检索医学信息，但对于医学专业人员将这些医学信息提供给装置是困难且耗时的过程，并且使用显示表面访问医学信息也是对象的负担。此外，医学专业人员和对象都面临额外的困难，因为他们需要能够将他们直接看到或感觉到的具体身体部位转化为图形表示，以便适当地使用该装置。这会花费额外的时间并且也会限制准确性。

发明内容

如上所述，现有技术的局限性在于，对于医学专业人员将医学信息提供给装置以供对象将来检索可能是困难且耗时的过程，并且必须使用显示表面访问医学信息对对象产生负担，这也是困难且耗时的过程。此外，现有技术受到精度限制。因此，旨在解决这些限制的改进将是有价值的。

因此，根据第一方面，提供一种用于存储用户的音频和/或视觉内容的系统。所述系统包括一个或多个处理器，其被配置为，响应于对用户的姿态和/或语音命令的检测来识别由姿态和/或语音命令指示的对象的身体上的位置。一个或多个处理器被配置为，控制至少一个存储器存储对对象的身体上的所识别的位置的指示，以及在其之后或期间检测用户的姿态和/或语音命令的时间段上捕获的用户的音频和/或视觉内容。

在一些实施例中，系统可以包括一个或多个检测器，其被配置为检测用户的姿态和/或语音命令和/或捕获用户的音频和/或视觉内容。

在一些实施例中，时间段可以具有预定义的持续时间，或者时间段可以响应于对用户的其他姿态和/或语音命令的检测而结束。

在一些实施例中，姿态可以包括指向姿态、敲击姿态、滑动姿态和/或眼睛姿态。在一些实施例中，姿态可以包括用户的身体部位的姿态或由用户持有的设备的姿态。

在一些实施例中，一个或多个处理器可以被配置为通过被配置为执行以下操作为来识别对象的身体上的位置：使用身体辨识来处理在其期间检测用户的姿态和/或语音命令的时间段上捕获的用户的视觉内容，以识别由姿态和/或语音命令指示的对象的身体上的位置。额外地或备选地，在一些实施例中，一个或多个处理器可以被配置为通过被配置为执行以下操作为来识别对象的身体上的位置：使用身体耦合通信来识别由姿态和/或语音命令指示的对象的身体上的位置。

根据第二方面，提供一种用于存储用户的音频和/或视觉内容的方法。方法包括，响应于对用户的姿态和/或语音命令的检测来识别由姿态和/或语音命令指示的对象的身体上的位置，并且控制至少一个存储器存储对所识别的对象的身体上的位置的指示，以及在其之后或期间检测用户的姿态和/或语音命令的时间段上捕获的用户的音频和/或视觉内容。

根据第三方面，提供一种用于呈现用户的音频和/或视觉内容的系统。系统包括一个或多个处理器，其被配置为，响应于对对象的姿态和/或语音命令的检测来识别由姿态和/或语音命令指示的对象的身体上的位置。一个或多个处理器被配置为，从至少一个存储器采集与对所识别的对象的身体上的所识别的位置的指示一起存储的用户的音频和/或视觉内容，并且，控制一个或多个用户接口呈现所采集的用户的音频和/或视觉内容。

在一些实施例中，所述系统可以包括：一个或多个检测器，其被配置为检测对象的姿态和/或语音命令；和/或一个或多个用户接口，其被配置为呈现所采集的用户的音频和/或视觉内容。

在一些实施例中，一个或多个处理器可以被配置为，控制一个或多个用户接口呈现指示在至少一个存储器中存储了指示的对象的身体上的一个或多个位置的对象的视觉表示。额外地或备选地，在一些实施例中，一个或多个处理器可以被配置为，控制一个或多个用户接口呈现指示姿态与在至少一个存储器中存储了指示的对象的身体上的位置的接近度的反馈。

在一些实施例中，一个或多个处理器可以被配置为，控制一个或多个用户接口呈现所采集的用户的音频和/或视觉内容，以及被识别的对象的身体的视觉表示。

在一些实施例中，一个或多个处理器可以被配置为通过被配置为执行以下操作来识别对象：使用基于相机的辨识来处理在其期间检测对象的姿态和/或语音命令的时间段上捕获的对象的视觉内容，以识别对象。额外地或备选地，在一些实施例中，一个或多个处理器可以被配置为通过被配置为执行以下操作来识别对象：使用语音辨识来处理在其期间检测对象的姿态和/或语音命令的时间段上捕获的对象的音频内容，以识别对象。额外地或备选地，在一些实施例中，一个或多个处理器可以被配置为，通过被配置为执行以下操作来识别对象：使用身体耦合通信来识别对象。

在一些实施例中，一个或多个处理器可以被配置为，通过被配置为执行以下操作来识别对象身体上的位置：使用身体辨识来处理在其期间检测对象的姿态和/或语音命令的时间段上捕获的对象的视觉内容，以识别由姿态和/或语音命令指示的对象的身体上的位置。额外地或备选地，在一些实施例中，一个或多个处理器可以被配置为，通过被配置为执行以下操作来识别对象的身体上的位置：使用身体耦合通信来识别由姿态和/或语音命令指示的对象的身体上的位置。

根据第四方面，提供一种用于呈现用户的音频和/或视觉内容的方法。所述方法包括，响应于对对象的姿态和/或语音命令的检测来识别对象以及由姿态和/或语音命令指示的对象的身体上的位置。所述方法包括从至少一个存储器采集与对所识别的对象的身体上的所识别的位置的指示一起存储的用户的音频和/或视觉内容，并且控制一个或多个用户接口呈现所采集的用户的音频和/或视觉内容。

根据第五方面，提供一种包括计算机可读介质的计算机程序产品。计算机可读介质具有体现在其中的计算机可读代码。计算机可读代码被配置为使得在由合适的计算机或处理器执行时，使计算机或处理器执行之前描述的方法。

根据上述方面和实施例，解决了现有技术的限制。具体地，根据上述方面和实施例，用户(例如医学专业人员)提供信息的方式被简化，因为所有用户需要做的是，针对他们提供的与信息相关的对对象的身体上的相关位置的指示一起存储的信息，执行姿态和/或语音命令。类似地，对象(例如患者)检索信息的方式也被简化，因为所有对象需要做的是，针对关于所采集和呈现的他们身体上的相关位置的信息，执行姿态和/或语音命令。由于用户和对象能够提供其与对象的实际身体上的相关位置相关的姿态和/或语音命令，因此消除了对输入和检索信息的附加设备的需要。相反，音频和/或视觉内容自然地与对象的身体上的相应位置相关联。因此减轻了用户和对象的负担，并且他们能够通过与对象的实际身体上的相关位置相关的简单姿态和/或语音命令，更有效地完成各自的提供信息和检索信息的任务。

此外，根据上述方面和实施例，由姿态和/或语音命令指示的对象的身体上的位置被识别，使得用户的音频和/或视觉内容具体地涉及身体解剖结构，因此，信息更加相关和准确。例如，这能够改进症状的身体位置的记录，并且还有助于更好地理解和更容易地探索音频和/或视觉内容。以这种方式，上述方面和实施例有助于医学专业人员的诊断。因此提供了用于存储用户的音频和/或视觉内容以及用于呈现用户的音频和/或视觉内容的改进的系统和方法。

参考下文描述的实施例，这些和其他方面将变得明显并被阐明。

附图说明

现在将参考以下附图仅通过范例来描述范例性实施例，其中：

图1是根据实施例的系统的示意图；

图2是示出根据实施例的方法的流程图；

图3是根据实施例的系统的示意图；

图4是示出根据实施例的方法的流程图；以及

图5(a)和(b)示出了系统能够在其中使用的范例情况。

具体实施方式

如上所述，本文提供了一种用于存储用户的音频和/或视觉内容的改进的系统和方法以及一种用于呈现用户的音频和/或视觉内容的改进的系统和方法。在本文中，对“用户”的引用可以指医学专业人员，如医生、护士、护理人员等。此外，在本文中，对“对象”的引用可以指患者。本文描述的用户的姿态和/或语音命令是针对对象的实际身体的姿态和/或语音命令。

图1示出了根据实施例的用于存储用户的音频和/或视觉内容的系统100。系统能够由例如在医学机构处的用户使用。医学机构能够是例如全科医生(GP)手术室、医院、诊所或任何其他医学机构。如图1所示，系统100包括一个或多个处理器102。一个或多个处理器102能够利用软件和/或硬件以多种方式实施，以执行本文描述的各种功能。

在具体实施方式中，一个或多个处理器102能够包括多个软件和/或硬件模块，每个模块被配置为执行或用于执行本文描述的方法的单个或多个步骤。一个或多个处理器102可以包括例如一个或多个微处理器、一个或多个多核处理器和/或一个或多个数字信号处理器(DSP)、一个或多个处理单元、和/或一个或多个控制器(例如一个或多个微控制器)，它们可以被配置为或编程为(例如使用软件或计算机程序代码)执行本文所描述的各种功能。一个或多个处理器102可以被实施为用于执行一些功能的专用硬件(例如放大器、前置放大器、模数转换器(ADC)和/或数模转换器(DAC))的组合，以及用于执行其他功能的一个或多个处理器(例如一个或多个可编程微处理器、DSP和相关电路)。

简而言之，一个或多个处理器102被配置为响应于对用户的姿态和/或语音命令的检测来识别由姿态和/或语音命令指示的对象的身体(例如，身体上的区域或身体的一部分)上的位置。此外，一个或多个处理器102被配置为控制至少一个存储器104存储对对象的身体上的所识别的位置的指示以及在其期间或在其之后检测用户的姿态和/或语音命令的时间段捕获的用户的音频和/或视觉内容。

如图1所示，在一些实施例中，系统100可以包括至少一个存储器104。额外地或备选地，在一些实施例中，至少一个存储器104可以在系统100的外部(例如，与系统分开或远离)。例如，根据一些实施例，另一系统可以包括至少一个存储器104。在一些实施例中，医院数据库可以包括至少一个存储器104，至少一个存储器104可以是云计算资源等。系统100的一个或多个处理器102可以被配置为与至少一个存储器104通信和/或连接到至少一个存储器104。至少一个存储器104可以包括任何类型的非暂时性机器可读介质，如高速缓存或系统存储器，包括易失性和非易失性计算机存储器，如随机存取存储器(RAM)、静态RAM(SRAM)、动态RAM(DRAM)、只读存储器(ROM)、可编程ROM(PROM)、可擦除PROM(EPROM)、和电可擦除PROM(EEPROM)。在一些实施例中，至少一个存储器104能够被配置为存储能够由系统100的一个或多个处理器102执行以使系统100以本文所描述的方式操作的程序代码。

额外地或备选地，至少一个存储器104能够被配置为存储本文中所描述的方法所需的或由本文所描述的方法产生的信息。例如，至少一个存储器104被配置为存储对对象身体上的所识别的位置的指示以及在其之后或期间检测用户的姿态和/或语音命令的时间段上捕获的用户的音频和/或视觉内容。至少一个存储器104还可以被配置为存储本文描述的方法所需的或由本文描述的方法产生的任何其他信息或信息的任何组合。系统100的一个或多个处理器102能够被配置为控制至少一个存储器104存储本文描述的方法所需的或由本文描述的方法产生的信息。

如图1所示，在一些实施例中，系统100可以包括一个或多个检测器106。额外地或备选地，在一些实施例中，至少一个检测器106可以在系统100的外部(例如，与系统100分开或远离系统100)。例如，根据一些实施例，另一系统可以包括至少一个检测器106。一个或多个检测器106可以被配置为检测用户的姿态和/或语音命令。额外地或备选地，一个或多个检测器106可以被配置为捕获用户的音频和/或视觉内容。在一些实施例中，被配置为检测用户的姿态和/或语音命令的一个或多个检测器106中的至少一个还可以被配置为捕获用户的音频和/或视觉内容。在其他实施例中，被配置为检测用户的姿态和/或语音命令的一个或多个检测器106和用于捕获用户的音频和/或视觉内容的一个或多个检测器106可以是不同的。

如图1所示，在一些实施例中，系统100可以包括至少一个用户接口108。额外地或备选地，在一些实施例中，至少一个用户接口108可以在系统100的外部(例如，与系统100分开或远离系统100)。系统100的一个或多个处理器102可以被配置为与至少一个用户接口108通信和/或连接到至少一个用户接口108。在一些实施例中，系统100的一个或多个处理器102能够被配置为控制至少一个用户接口108以本文描述的方式进行操作。

用户接口108能够被配置为呈现(或输出、显示或提供)本文描述的方法所需的或由本文描述的方法产生的信息。例如，在一些实施例中，一个或多个用户接口108可以被配置为呈现(或输出、显示或提供)对对象的身体上的所识别的位置的指示、在检测用户的姿态和/或语音命令之后或期间的时间段捕获的用户的音频和/或视觉内容、或本文描述的方法所需的或由本文描述的方法产生的任何其他信息或信息的任何组合。额外地或备选地，一个或多个用户接口108能够被配置为接收用户输入。例如，一个或多个用户接口108可以允许用户(例如，对象或另一用户)手动输入信息或指令、与系统100进行交互和/或控制系统100。因此，一个或多个用户接口108可以是任何一个或多个用户接口，它们能够呈现(或输出、显示或提供)信息和/或使用户能够提供用户输入。

例如，一个或多个用户接口108可以包括一个或多个开关、一个或多个按钮、小键盘、键盘、鼠标、显示器或显示屏、诸如触摸屏的图形用户接口(GUI)、应用程序(例如在诸如平板电脑、智能手机或任何其他智能设备上的智能设备上)、或任何其他视觉组件、一个或多个扬声器、一个或多个麦克风或任何其他音频组件、一个或多个灯(例如一个或多个发光二极管、LED)、用于提供能触知的或触觉反馈的组件(例如振动功能或任何其他能触知的反馈组件)、增强现实设备(例如增强现实眼镜或任何其他增强现实设备)、智能设备(例如智能镜子、平板电脑、智能手机、智能手表或任何其他智能设备)、或任何其他用户接口、或用户接口的组合。在一些实施例中，被控制以呈现信息的一个或多个用户接口可以与使用户能够提供用户输入的一个或多个用户接口相同。

如图1所示，在一些实施例中，系统100可以包括至少一个通信接口(或通信电路)110。额外地或备选地，在一些实施例中，至少一个通信接口110可以在系统100的外部(例如，与系统100分开或远离系统100)。通信接口110能够用于使系统100或系统100的组件(例如一个或多个处理器102、一个或多个存储器104、一个或多个检测器106、一个或多个用户接口108和/或系统100的任何其他组件)能够与彼此和/或一个或多个其他组件进行通信和/或连接。例如，一个或多个通信接口110能够用于使系统100的一个或多个处理器102能够与一个或多个存储器104、一个或多个检测器106、一个或多个用户接口108和/或系统100的任何其他组件进行通信和/或连接。

通信接口110可以使系统100或系统100的组件能够以任何合适的方式进行通信和/或连接。例如，一个或多个通信接口110可以使系统100或系统100的组件能够经由有线连接或经由任何其他通信(或数据传输)机制进行无线通信和/或连接。在一些无线实施例中，例如，一个或多个通信接口110可以使系统100或系统100的组件能够使用射频(RF)、蓝牙或任何其他无线通信技术进行通信和/或连接。

图2示出了根据实施例的用于存储用户的音频和/或视觉内容的方法200。更具体地，图2示出了操作之前参考图1描述的系统100的用于存储用户的音频和/或视觉内容的方法200。图2所示的方法200是计算机实施的方法。如前所述，之前参考图1描述的系统100包括一个或多个处理器102。图2所示的方法200总体上能够由之前参考图1描述的系统100的一个或多个处理器102执行或在其控制下执行。

参考图2，在框202处，响应于对用户的姿态和/或语音命令的检测，识别由姿态和/或语音命令指示的对象的身体(例如，其上的区域或部分)上的位置。更具体地，响应于对用户的姿态和/或语音命令的检测，系统100的一个或多个处理器102识别由姿态和/或语音命令指示的对象的身体上的位置。可以在与用户会诊期间检测用户的姿态和/或语音命令。

本文中，用户的姿态可以包括指向姿态、敲击姿态、滑动姿态、眼睛姿态(例如凝视)或任何其他姿态或姿态的任何组合。在一些实施例中，用户的姿态可以包括用户的身体部位(例如手指、手、眼睛或任何其他身体部位)的姿态或由用户持有的设备(例如指向设备或任何其他设备)的姿态。用户的姿态可以包括与对象的身体上的位置的交互(例如触摸)，或者用户的姿态可以远离对象的身体的位置。在用户的姿态远离对象的身体的位置的情况下，用户的姿态可以在对象的身体上的位置周围的预定区域内(例如在对象身体上的位置的20cm内)，以指示对象的身体上的位置。本文中，用户的语音命令可以包括用户的口头指令，如“开始录音”或“书签位置”。

系统100的一个或多个处理器102可以被配置为以任何合适的方式识别由用户的姿态和/或语音命令指示的对象的身体上的位置。在一些实施例中，这可能涉及身体定位系统的使用。

在一些实施例中，系统100的一个或多个处理器102可以被配置为分析用户的视觉内容以识别由用户的姿态指示的对象的身体上的位置。例如，在一些实施例中，一个或多个处理器102可以被配置为，通过被配置为执行以下操作来识别对象身体上的位置：使用(例如，三维)身体辨识来处理在其期间检测用户的姿态和/或语音命令的时间段上捕获的用户的视觉内容，以识别由用户的姿态和/或语音命令指示的对象的身体上的位置。本领域普通技术人员将知道合适的(例如，三维)身体辨识技术以及它们能够用于识别对象的身体(例如，其上区域或其部分)上的位置的方式。

然而，简而言之，例如，相机(例如深度照相机)可以采集对象的身体的图像，并且所述图像可以由系统100的一个或多个处理器102处理，以识别对象的身体上的身体标记(例如可区分特征或特点)。对象的身体的图像中的这些身体标记能够用于重建身体的皮肤表面。然后皮肤上的点能够从最近的身体标记插入。能够通过相对于皮肤上的点外推姿态的位置来识别由用户的姿态指示的对象的身体上的位置。在一些实施例中，外推到对象的形态的解剖(例如医学)图可以覆盖在辨识出的身体骨架上，以识别由用户的姿态指示的对象的身体上的位置。在一些实施例中，可以使用相机(例如深度相机)来识别用户的姿态。

可以直接捕获用户的视觉内容。例如，用户的视觉内容可以从诸如用户环境中的相机(例如壁挂式相机)或用户持有的设备(例如电话或计算机)上的相机来采集。额外地或备选地，可以间接捕获用户的视觉内容。例如，可以从镜子中采集用户的视觉内容。用户的视觉内容的间接捕获(例如，经由镜子)能够确保指示对象的身体上的以其他方式不可见的位置(例如对象的身体背面的位置)的用户的姿态仍然能够被检测到。系统100的一个或多个处理器102可以处理使用身体映射间接捕获的用户的视觉内容。

额外地或备选地，在一些实施例中，系统100的一个或多个处理器102可以被配置为，通过被配置为执行以下操作来识别对象的身体上的位置：使用身体耦合通信来识别由姿态和/或语音命令指示的对象的身体上的位置。本领域普通技术人员将知道合适的身体耦合通信技术以及它们能够用于识别对象的身体上(例如，其上区域或其部分)的位置的方式。

然而，简而言之，在身体耦合通信中，用户的身体和对象的身体充当通信通道。电信号被感应到用户的身体中(例如，经由可穿戴传感器，如腕戴式传感器)，并且当用户(例如，用手指)触摸对象时，通过用户的身体传输并进入对象的身体。产生的(例如电流或电容)耦合由对象佩戴的一个或多个传感器测量。测量出的耦合将根据用户触摸的对象的身体(例如身体部位)上的位置而不同。能够(例如部分地)计算耦合的身体映射。身体映射可以(例如部分地)预先校准。身体映射以将耦合值映射到对象的身体上的位置。系统100的一个或多个处理器102能够通过将所采集的耦合值与所映射的耦合值进行比较来识别在给定时刻由用户触摸的对象的身体(例如身体部位)上的位置。

返回到图2，在块204处，至少一个存储器104被控制为存储对对象的身体上的所识别的位置的指示，以及在其之后或期间检测用户的姿态和/或语音命令的时间段上捕获的用户的音频和/或视觉内容。更具体地，系统100的一个或多个处理器102以这种方式控制至少一个存储器104。因此，对象的身体上的所识别的位置能够被标记并存储有与对象的身体上的所识别的位置相关联的用户的音频和/或视觉内容。在一些范例中，由用户的姿态和/或语音命令指示的对象的身体上的位置对于心脏病而言可以是在用户的胸部的左侧，对于头痛而言可以是在用户的头部，对于测量血压而言可以是在手臂上，等等。可以存在与用户的音频和/或视觉内容一起存储的对对象的身体上的一个或多个位置的指示，例如在从1到10范围内的数字。

在一些实施例中，一个或多个处理器102能够被配置为自动控制至少一个存储器104响应于对对象的姿态和/或语音命令的检测(例如，在检测到的情况下)，存储对对象的身体上的所识别的位置的指示以及用户的姿态和/或语音命令。在一些实施例中，对对象的身体上的所识别的位置的指示可以与从不同时间(例如在每次会诊时或每天)捕获的用户的音频和/或视觉内容一起存储，使得用户能够查看音频和/或视觉内容以观察随时间的变化。至少一个存储器104可以存储与用户的音频和/或视觉内容相关联的对对象的身体上的所识别的多个位置的指示。在一些实施例中，被识别对象身体上的位置的指示可以以标准目录的形式(如二维表示、列表(例如索引列表)、查找表等)与其相关联的(或相应的)用户的音频和/或视觉内容一起存储在至少一个存储器104中。

在一些实施例中，系统100的一个或多个处理器102能够被配置为，在捕获用户的音频和/或视觉内容的同时，控制至少一个用户接口108呈现其他相关信息(例如医学信息，如扫描图像、解剖表示等)。至少一个用户接口108可以例如包括屏幕或虚拟空间。以这种方式，能够向对象提供有用的信息，以如捕获该音频和/或视觉内容的补充用户的音频和/或视觉内容。

在一些实施例中，在其之后或期间检测用户的姿态和/或语音命令的时间段可以具有预定义的持续时间。在一些实施例中，在其之后检测用户的姿态和/或语音命令的时间段可以响应于对用户的姿态和/或语音命令的检测而开始。在一些实施例中，在其之后检测用户的姿态和/或语音命令的时间段可以捕获预定义的时间量之后或在捕获预定义的音频和/或视觉内容的量(例如预定义的图像和/或句子的量)之后结束。在一些实施例中，在其之后检测用户的姿态和/或语音命令的时间段可以在对用户的其他姿态和/或语音命令的检测之后结束。其他姿态可以例如包括用户停止执行原始姿态(例如不再触摸或指向对象的身体上的所识别的位置)或停止捕获音频和/或视觉内容的视觉指令(例如指向对象的身体上的所识别的位置的用户的敲击动作，或者当原始姿态是用户的敲击动作时用户的额外的敲击动作)。其他语音命令可以例如包括用户停止执行原始语音命令(例如不再说话)或停止捕获音频和/或视觉内容的口头指令，如“停止录音”。在一些实施例中，音频和/或视觉内容可以被连续地捕获，并且在其期间检测用户的姿态和/或语音命令的时间段可以是独立的，例如，使用音频和/或视觉分析(如姿态辨识和/或语音辨识)。

本文所提到的用户的音频内容可以例如包括用户的语音。本文所提到的用户的视觉内容可以例如包括用户的一个或多个图像和/或一个或多个视频。本文所提到的用户的音频和/或视觉内容能够包括(例如个人)医学信息或健康数据。医学信息或健康数据能够例如包括来自医学专业人员的解释，例如关于疾病的位置、一种或多种症状、推荐的处置方法、一个或多个监测点的位置、对血压袖带放置位置的指示等。

尽管图2中未示出，但在一些实施例中，系统100的一个或多个处理器102可以被配置为识别用户。可以以任何合适的方式识别用户。

例如，在一些实施例中，系统100的一个或多个处理器102可以被配置为通过被配置为执行以下操作来识别用户：使用基于相机的辨识来处理在其期间检测用户的姿态和/或语音命令的时间段上捕获的用户的视觉内容，以识别所述用户。本领域普通技术人员将知道合适的基于三维骨骼辨识相机的辨识技术以及它们能够用于识别用户的方式。然而，简言之，例如，能够使用面部辨识技术来识别用户。这可以包括系统100的一个或多个处理器102将由(例如在用户的环境中或用户持有的设备中的)相机获得的一幅或多幅图像与存储器104中的面部图像进行比较，每个存储器104中的面部图像与图像中面部所属的用户的身份的指示一起存储。比较可以包括识别所获得的一幅或多幅图像中的一个或多个面部特征，以及确定它们是否与存储在存储器104中的面部图像中的相应面部特征相匹配。如果存在匹配，通过与包括匹配的面部特征的图像一起存储的身份的方式来识别用户。

额外地或备选地，在一些实施例中，系统100的一个或多个处理器102可以被配置为通过被配置为执行以下操作来识别用户：使用语音(或话音)辨识来处理在其期间检测用户的姿态和/或语音命令的时间段上捕获的用户的音频内容，以识别用户。本领域普通技术人员将知道合适的语音(或话音)辨识技术以及它们能够用于识别用户的方式。然而，简言之，例如，系统100的一个或多个处理器102可以使用图案辨识来处理所捕获的声纹，并且将所捕获的声纹与参考声纹进行比较，每个参考声纹都与参考声纹对应的用户的指示一起存储在存储器104中，以识别用户。

额外地或备选地，在一些实施例中，系统100的一个或多个处理器102可以被配置为通过被配置为执行以下操作来识别用户：使用的身体耦合通信来识别用户。本领域普通技术人员将知道合适的身体耦合通信技术以及它们能够用于识别用户的方式。然而，简言之，例如，用户可以佩戴一种设备(例如标签)，所述设备被配置为将能够被识别的电信号感应到他们的身体中。被配置为感应电信号的设备充当用户的个人标识符。可以检测和处理电信号来识别用户。

额外地或备选地，在姿态包括由用户持有的设备(例如，指向设备)的姿态的实施例中，设备可以用于识别用户。在用户被识别的一些实施例中，系统100的一个或多个处理器102可以被配置为控制至少一个存储器104以存储对用户的识别的指示以及用户的音频和/或视觉内容。

尽管在图2中也未示出，但在一些实施例中，系统100的处理器102可以被配置为控制至少一个存储器104存储与对象的身体上的一个或多个位置(其可以包括所识别的位置)相关联的附加信息。附加信息可以(例如自动)从(例如通用)数据库中检索和/或经由至少一个用户接口108(例如GUI)接收。数据库可以例如包括可以从中检索附加信息的电子健康记录(EHR)或电子病历(EMR)。在一些实施例中，用户可以经由至少一个用户接口108输入附加信息。在一些实施例中，至少一个用户接口108可以被配置为呈现所识别的对象的身体的视觉表示，用户能够在所识别的对象的身体的视觉表示上标记(或选择)对象的身体上的一个或多个位置以输入与那些一个或多个位置相关联的附加信息。附加信息被定义为除了用户的音频和/或视觉内容之外的信息。附加信息能够因此补充用户的音频和/或视觉内容。附加信息能够(例如自动)被链接到对象的身体上的相关位置。以此方式，信息的目录能够与对象的身体上的一个或多个位置(其可以包括所识别的位置)相关联。

在一些实施例中，用户可以在执行姿态和/或语音命令的同时或之后输入附加信息，使得系统100的处理器102将附加信息与由姿态和/或语音命令指示的对象的身体上的所识别的位置相关联。在用户正在用一只手执行姿态的范例中，用户可以使用他们的另一只手或用语音命令经由用户接口108输入该附加信息。额外地或备选地，在一些实施例中，附加信息可以在用户的音频和/或视觉内容的捕获之后(例如在稍后的时间)提供。附加信息的范例包括但不限于关于对象的医学信息(或对象的健康数据)，其形式可以是来自用户的一种或多种解释、一幅或多幅医学图像、一个或多个医学视频、一份或多份医学(例如诊断)报告、一份或多份解剖学可视化(或表示)、一种或多种治疗方案选项的描述、一份或多份处方、与一个或多个支持小组的链接、针对对象的一个或多个问题(例如关于他们的下一次会诊、感受、症状等)、或任何其他附加信息、或附加信息的任何组合。

在范例中，附加信息(如解释性解剖表示)可以由医学专业人员从医学数据库中查询、呈现在显示器上并且在与对象会诊期间进行解释。附加信息例如通过医学专业人员的姿态与对象的身体上的相关位置相关联。在另一范例中，对象为了康复而必须执行的运动可以由医学专业人员向对象示出、由相机进行视觉捕获并且与对象的身体上的相关位置相关联。在该范例中，视觉上捕获的运动是附加信息。

在一些实施例中，由用户的姿态和/或语音命令指示的对象身体上的所识别的位置和相关联的用户的音频和/或视觉内容中的任何一个或多个可以随时间(例如自动)更新，例如随着病情(例如疾病)的转移。由姿态和/或语音命令指示的对象的身体上的所识别的位置可以由系统100的处理器102更新，所述处理器102分析用户的音频和/或视觉内容以检测用户的姿态和/或语音命令何时指示对象的身体上的所识别的位置的移动。系统100的处理器102能够被配置为控制至少一个存储器104存储对象的身体上的更新后的所识别的位置。系统100的处理器102能够被配置为控制至少一个存储器104存储对象的身体上的更新后的所识别的位置，以及在其之后或期间检测用户的原始姿态和/或语音命令的时间段上捕获一个或多个用户的音频和/或视觉内容，以及在其之后或期间检测对指示对象身体上的所识别的位置移动的用户的姿态和/或语音命令的时间段上捕获的用户的音频和/或视觉内容。

以此方式，能够观察所识别的位置和相关联的音频和/或视觉数据的演变。因此，例如，有可能观察到病情(例如疾病)的改善或恶化。这样，通过更新对象的身体上的所识别的位置和相关联的用户的音频和/或视觉内容中的任何一个或多个，可以刺激对象的后续参与。

图3示出了根据实施例的用于呈现用户的音频和/或视觉内容的系统300。系统能够由对象使用，例如在他们自己的环境中，如在家里。如图3所示，系统300包括一个或多个处理器302。一个或多个处理器302能够利用软件和/或硬件以多种方式实施，以执行本文描述的各种功能。

在具体实施方式中，一个或多个处理器302能够包括多个软件和/或硬件模块，每个模块被配置为执行或用于执行本文描述的方法的单个或多个步骤。一个或多个处理器302可以包括例如一个或多个微处理器、一个或多个多核处理器和/或一个或多个数字信号处理器(DSP)、一个或多个处理单元和/或可以被配置或编程(例如使用软件或计算机程序代码)为执行本文所述的各种功能的一个或多个控制器(例如一个或多个微控制器)。一个或多个处理器302可以被实施为用于执行一些功能的专用硬件(例如放大器、前置放大器、模数转换器(ADC)和/或数模转换器(DAC))和用于执行其他功能的一个或多个处理器(例如一个或多个可编程微处理器、DSP和相关电路)的组合。

简而言之，一个或多个处理器302被配置为，响应于对对象的姿态和/或语音命令的检测来识别对象以及由姿态和/或语音命令指示的对象的身体上的位置(例如，其上区域或一部分)。一个或多个处理器302还被配置为，从至少一个存储器304采集与对所识别的对象的身体上的所识别的位置的指示一起存储的用户的音频和/或视觉内容，并控制一个或多个用户接口308呈现所采集的用户的音频和/或视觉内容。如前所述，在本文中，对“用户”的引用可以指医学专业人员，如医生、护士、护理人员等。此外，在本文中，对“对象”的引用可以指患者。

如图3所示，在一些实施例中，系统300可以包括至少一个存储器304。额外地或备选地，在一些实施例中，至少一个存储器304可以是在系统300的外部(例如，与系统300分开或远离系统300)。例如，根据一些实施例，另一系统可以包括至少一个存储器304。在一些实施例中，医院数据库可以包括至少一个存储器304，至少一个存储器304可以是云计算资源等。在一些实施例中，用于呈现用户的音频和/或视觉内容的系统300的至少一个存储器304可以与用于存储用户的音频和/或视觉内容的系统100的至少一个存储器104相同。例如，根据一些实施例，至少一个存储器104、304可以是中央存储器。在其他实施例中，用于呈现用户的音频和/或视觉内容的系统300的至少一个存储器304和用于存储用户的音频和/或视觉内容的系统100的至少一个存储器104可以是不同的。

系统300的一个或多个处理器302可以被配置为与至少一个存储器304通信和/或连接到至少一个存储器304。至少一个存储器304可以包括任何类型的非暂时性机器可读介质，如高速缓存或系统存储器，其包括易失性和非易失性计算机存储器，如随机存取存储器(RAM)、静态RAM(SRAM)、动态RAM(DRAM)、只读存储器(ROM)、可编程ROM(PROM)、可擦除PROM(EPROM)、和电可擦除PROM(EEPROM)。在一些实施例中，至少一个存储器304能够被配置为存储能够由系统300的一个或多个处理器302执行以使系统300以本文描述的方式进行操作的程序代码。

额外地或备选地，至少一个存储器304能够被配置为存储本文描述的方法所需的或由本文描述的方法产生的信息。例如，至少一个存储器304被配置为存储用户的音频和/或视觉内容以及对对象的身体上的位置(例如，其上区域或一部分)的指示。至少一个存储器304还可以被配置为存储本文描述的方法所需的或由本文描述的方法产生的任何其他信息或信息的任何组合。系统300的一个或多个处理器302能够被配置为控制至少一个存储器304存储本文描述的方法所需的或由本文描述的方法产生的信息。

如图3所示，在一些实施例中，系统300可以包括一个或多个检测器306。额外地或备选地，在一些实施例中，至少一个检测器306可以是在系统的外部300(例如，与系统300分开或远离系统300)。例如，根据一些实施例，另一系统可以包括至少一个检测器306。一个或多个检测器306可以被配置为检测对象的姿态和/或语音命令。

如图3所示，在一些实施例中，系统300可以包括至少一个用户接口308。额外地或备选地，在一些实施例中，至少一个用户接口308可以在系统300的外部(例如，与系统300分开或远离系统300)。例如，根据一些实施例，另一系统可以包括至少一个用户接口308。系统300的一个或多个处理器302可以被配置为与至少一个用户接口308通信和/或连接到至少一个用户接口308。在一些实施例中，系统300的一个或多个处理器302可以被配置为控制至少一个用户接口308以本文描述的方式进行操作。

用户接口308能够被配置为呈现(或输出、显示或提供)本文描述的方法所需的或由本文描述的方法产生的信息。例如，在一些实施例中，一个或多个用户接口308可以被配置为呈现(或输出、显示或提供)对所识别的对象的指示、对对象的身体上的所识别的位置的指示、所采集的用户的音频和/或视觉内容、或任何其他信息、或本文描述的方法所需的或由本文描述的方法产生的信息的任何组合中的任何一个或多个。额外地或备选地，一个或多个用户接口308能够被配置为接收用户输入。例如，一个或多个用户接口308可以允许用户(例如对象或另一用户)手动输入信息或指令、与系统300进行交互和/或控制系统300。因此，一个或多个用户接口308可以是能够呈现(或输出、显示或提供)信息和/或使用户能够提供用户输入的任何一个或多个用户接口。

例如，一个或多个用户接口308可以包括一个或多个开关、一个或多个按钮、小键盘、键盘、鼠标、显示器或显示屏、诸如触摸屏的图形用户接口(GUI)、应用程序(例如在诸如平板电脑、智能手机或任何其他智能设备的智能设备上)、或任何其他视觉组件、一个或多个扬声器、一个或多个麦克风或任何其他音频组件、一个或多个灯(例如一个或多个发光二极管、LED)、用于提供可触知的或触觉反馈的部件(例如振动功能或任何其他可触知的反馈组件)、增强现实设备(例如增强现实眼镜或任何其他增强现实设备)、智能设备(例如智能镜子、平板电脑、智能手机、智能手表或任何其他智能设备)、或任何其他用户接口、或用户接口的组合。在一些实施例中，被控制以呈现信息的一个或多个用户接口与使用户能够提供用户输入的一个或多个用户接口可以是相同的。

如图3所示，在一些实施例中，系统300可以包括至少一个通信接口(或通信电路)310。额外地或备选地，在一些实施例中，至少一个通信接口310可以在系统300的外部(例如，与系统300分开或远离系统300)。通信接口310能够用于使系统300或系统300的部件(例如一个或多个处理器302、一个或多个存储器304、一个或多个检测器106、一个或多个用户接口308和/或系统300的任何其他部件)能够与彼此和/或一个或多个其他部件进行通信和/或连接到彼此和/或一个或多个其他部件。例如，一个或多个通信接口310能够用于使系统300的一个或多个处理器302能够与一个或多个存储器304、一个或多个检测器106、一个或多个用户接口308和/或系统300的任何其他组件进行通信和/或连接。

通信接口310可以使系统300或系统300的部件能够以任何合适的方式进行通信和/或连接。例如，一个或多个通信接口310可以使系统300或系统300的部件能够无线地、经由有线或经由任何其他通信(或数据传输)机制进行通信和/或连接。在一些无线实施例中，例如，一个或多个通信接口310可以使系统300或系统300的部件能够使用射频(RF)、蓝牙或任何其他无线通信技术进行通信和/或连接。

图4示出了根据实施例的用于呈现用户的音频和/或视觉内容的方法400。更具体地，图4示出了操作之前参考图3描述的用于呈现用户的音频和/或视觉内容的系统300的方法400。图4所示的方法400是计算机实施的方法。如前所述，之前参考图3描述的系统300包括一个或多个处理器302。图4所示的方法400总体上可以由之前参考图3描述的系统300的一个或多个处理器302执行或在其控制下执行。

参考图4，在块402处，响应于对对象的姿态和/或语音命令的检测，识别对象以及由姿态和/或语音命令指示的对象的身体(例如，其上区域或部分)上的位置。更具体地，系统300的一个或多个处理器302响应于对对象的姿态和/或语音命令的检测来识别对象以及由姿态和/或语音指示的对象的身体上的位置。

本文中，对象的姿态可以包括指向姿态、敲击姿态、滑动姿态、眼睛姿态(例如凝视)或任何其他姿态或姿态的任何组合。在一些实施例中，对象的姿态可以包括对象的身体部位(例如手指、手部、眼睛或任何其他身体部位)的姿态或由对象持有的设备(例如指向设备或任何其他设备)的姿态。对象的姿态可以包括与对象的身体上的位置的交互(例如触摸)，或者姿态可以远离对象的身体的位置。在对象的姿态远离对象的身体的位置的情况下，对象的姿态可以是在对象的身体上的位置周围的预定义区域内(例如在对象的身体上的位置的20cm以内)，以指示对象的身体上的位置。本文中，对象的语音命令可以包括对象的口头指令，例如“开始播放”。

系统300的一个或多个处理器302可以被配置为以任何合适的方式识别对象。

例如，在一些实施例中，系统300的一个或多个处理器302可以被配置为，通过被配置为执行以下操作来识别对象：使用基于相机的辨识来处理在其期间检测对象的姿态和/或语音命令的时间段捕获的对象的视觉内容来识别对象。本领域普通技术人员将知道合适的基于相机的辨识技术以及它们能够用于识别对象的方式。然而，简言之，例如，能够使用面部辨识技术来识别对象。这可以包括系统100的一个或多个处理器102，其将由相机获得的一幅或多幅图像(例如，在对象或由对象持有的设备的环境中)与存储器104中的面部图像进行比较，存储器104中的每个面部图像与图像中的面部所属的对象的身份一起存储。比较可以包括识别一个或多个所获得的图像中的一个或多个面部特征，并确定它们是否与存储在存储器104中的面部图像中的相应面部特征匹配。如果存在匹配，则通过与包含匹配的面部特征的图像一起存储的身份的方式来识别对象。

额外地或备选地，在一些实施例中，系统的一个或多个处理器302可以被配置为，通过被配置为执行以下操作来识别对象：使用语音(或话音)辨识来处理在其期间检测姿态和/或语音命令的时间段上捕获的对象的音频内容以识别对象。本领域普通技术人员将知道合适的语音(或话音)辨识技术以及它们能够用于识别对象的方式。然而，简言之，例如，系统100的一个或多个处理器102可以使用图案辨识来处理所捕获的声纹，并且将所捕获的声纹与参考声纹进行比较，每个参考声纹都与对参考声纹所对应的对象的指示一起存储在存储器104中，以识别对象。

额外地或备选地，在一些实施例中，系统300的一个或多个处理器302可以被配置为通过被配置为执行以下操作来识别对象：使用身体耦合通信以识别对象。本领域普通技术人员将知道合适的身体耦合通信技术以及它们能够用于识别对象的方式。然而，简言之，例如，对象可以佩戴设备(例如标签)，所述设备被配置为将能够被识别的电信号感应到他们的身体中。被配置为感应电信号的设备充当针对对象的个人标识符。可以检测和处理电信号以识别对象。

额外地或备选地，在姿态包括由对象持有的设备(例如，指向设备)的姿态的实施例中，所述设备可以用于识别对象。

系统300的一个或多个处理器302可以被配置为以任何合适的方式识别由对象的姿态和/或语音命令指示的对象的身体上的位置。在一些实施例中，这可能涉及身体定位系统的使用。

在一些实施例中，系统300的一个或多个处理器302可以被配置为分析对象的视觉内容，以识别由对象的姿态指示的对象的身体上的位置。例如，在一些实施例中，一个或多个处理器302可以被配置为，通过被配置为执行以下操作来识别对象的身体上的位置：使用(例如，三维)身体辨识来处理在检测对象的姿态和/或语音命令期间的时间段捕获的对象的视觉内容以识别对象的身体上的位置。本领域普通技术人员将知道合适的(例如，三维)身体辨识技术以及它们能够用于识别对象的身体(例如，其上区域或部分)上的位置的方式。

然而，简言之，例如，相机(例如深度照相机)可以采集对象的身体的图像，并且图像可以由系统100的一个或多个处理器102处理，以识别对象的身体上的身体标记(例如可区分的特征或特点)。对象的身体的图像中的这些身体标记能够用于重建身体的皮肤表面。然后能够从最近的身体标记插入皮肤上的点。能够通过相对于皮肤上的点外推姿态的位置来识别由对象的姿态指示的对象的身体上的位置。在一些实施例中，外推到对象的形态的解剖(例如医学)图可以覆盖在经辨识的身体骨架上，以识别由对象的姿态指示的对象的身体上的位置。在一些实施例中，可以使用相机(例如深度照相机)来识别对象的姿态。

可以直接捕获对象的视觉内容。例如，对象的视觉内容可以从相机采集，如在对象环境中的相机(例如壁挂式相机)或由对象持有的设备(例如电话或计算机)上的相机。额外地或备选地，可以间接捕获对象的视觉内容。例如，对象的视觉内容可以从镜子采集。对象的视觉内容的间接捕获(例如经由镜子)能够确保指示对象的身体上的以其他方式不可见的位置(例如对象的身体背部上的位置)的对象的姿态仍然能够被检测。系统100的一个或多个处理器102可以使用身体映射处理间接捕获的对象的视觉内容。

额外地或备选地，在一些实施例中，系统300的一个或多个处理器302可以被配置为，通过被配置为执行以下操作来识别对象的身体上的位置：使用身体耦合通信来识别对象的身体上的位置。本领域普通技术人员将知道合适的身体耦合通信技术以及它们能够用于识别对象身体上的位置(例如，其上区域或部分)的方式。

然而，简言之，在身体耦合通信中，对象的身体充当通信通道。电信号被感应到对象的身体中(例如，经由可穿戴传感器，如腕戴式传感器)，并在对象(例如用他们的手指)触摸他们身体上的位置时通过对象的身体进行传输。产生的(例如电流或电容)耦合由佩戴在对象身体上的一个或多个传感器进行测量。测量出的耦合将根据对象触摸的对象的身体(例如身体部位)上的位置而不同。能够(例如部分地)计算耦合的身体映射。身体映射可以(例如部分地)预先校准。身体映射可以将耦合值映射到对象的身体上的位置。系统100的一个或多个处理器102能够通过将所采集的耦合值与映射的耦合值进行比较来识别在给定时刻处由对象触摸的对象的身体上(例如身体部位)的位置。

返回图4，在块404处，从至少一个存储器304采集与对所识别的对象的身体上的所识别的位置的指示一起存储的用户的音频和/或视觉内容。更具体地，系统300的一个或多个处理器302从至少一个存储器304采集与对所识别的对象的身体上的所识别的位置的指示一起存储的用户的音频和/或视觉内容。

在图4的块406处，控制一个或多个用户接口308呈现所采集的用户的音频和/或视觉内容。更具体地，系统300的一个或多个处理器302控制一个或多个用户接口308呈现所采集的用户的音频和/或视觉内容。例如，一个或多个用户接口308可以包括扬声器和/或显示器，经由所述扬声器和/或显示器呈现所采集的用户的音频和/或视觉内容。因此，用户的音频和/或视觉内容(其可以包括之前描述的对象的医学信息或健康数据)与对象的身体上的位置相关联，并且能够被呈现以允许对象容易地通过(利用姿态和/或语音命令)激活相关身体部位来浏览他们的健康数据。

在一些实施例中，一个或多个处理器302能够被配置为，响应于(例如，基于)对象的姿态和/或语音命令的检测来自动呈现所采集的用户的音频和/或视觉内容。在一些实施例中，一个或多个处理器302能够被配置为控制一个或多个用户接口308利用所识别的对象的身体的视觉表示来呈现所采集的用户的音频和/或视觉内容。在一些实施例中，一个或多个处理器302可以被配置为控制一个或多个用户接口308将所采集的用户的视觉内容(和任何附加信息)覆盖在所识别的对象的身体的视觉表示上。在一些实施例中，一个或多个处理器302能够被配置为控制一个或多个用户接口308将所采集的用户的视觉内容(和任何附加信息)覆盖在所识别的对象的实际身体上(例如，使用增强现实AR)。所采集的用户的视觉内容能够呈现在任何用户接口308上(例如，在显示器上、在屏幕上、在虚拟或增强现实空间中)，或以任何其他方式呈现。

尽管在图4中未示出，但在一些实施例中，一个或多个处理器302可以被配置为控制一个或多个用户接口308(例如显示器或增强现实设备)呈现指示在至少一个存储器304中存储了指示的对象的身体上的一个或多个位置的对象的视觉表示。所呈现的对象的视觉表示能够有效地提供在至少一个存储器304中存储了指示的对象的身体上的一个或多个位置的映射。在一些实施例中，一个或多个处理器302可以被配置为呈现对象的身体部位或由对象持有的设备的实况位置，以执行具有指示在至少一个存储器304中存储了指示的对象的身体上的一个或多个位置的对象的视觉表示的姿态。以此方式，能够向对象提供视觉引导(例如，参考他们用于姿态的身体部位或设备)，以重新访问所保存的他们身体上的点以及检索相关联的音频和/或视觉内容。以类似的方式，一个或多个处理器302可以被配置为控制一个或多个用户接口308(例如扬声器)呈现音频引导，以将对象导向至在至少一个存储器304中存储了指示的对象的身体上的一个或多个位置。

额外地或备选地，在一些实施例中，一个或多个处理器302可以被配置为控制一个或多个用户接口308呈现指示对象的姿态与在至少一个存储器304中存储了指示的对象的身体上的位置(例如，对象身体上的区域或部分)的接近度的反馈。例如，一个或多个处理器302可以被配置为控制一个或多个可触知的或触觉反馈部件呈现可触知的或触觉反馈(如振动)，所述可触知的或触觉反馈指示姿态与在至少一个存储器304中存储了指示的对象的身体上的位置的接近度。可触知的或触觉反馈可以例如通过可穿戴设备(例如在对象的手指或手部上)或通过手持设备(例如智能手机)来呈现。额外地或备选地，例如，一个或多个处理器302可以被配置为控制一个或多个光源来呈现指示姿态与在至少一个存储器304中存储了指示的对象的身体上的位置的接近度的发光反馈(诸如，发光强度或色移)。当对象的姿态处于在至少一个存储器304中存储了指示的对象的身体的位置的预定义距离(例如20cm)之内时，可以呈现所述反馈。在一些实施例中，随着对象的姿态更接近在至少一个存储器304中存储了指示的对象的身体的位置，所呈现的反馈可能变得更加强烈。以此方式，能够向对象提供引导，以定位和激活他们身体上的标记，并检索相关联的音频和/或视觉内容。

在一些实施例中，对象可以输入与在至少一个存储器304中存储了指示的对象的身体上的一个或多个位置相关联的数据(如一种或多种症状)。对象能够经由至少一个用户接口308输入这样的数据。在呈现对象的视觉表示的一些实施例中，对象可以输入数据作为对视觉表示的注释。处理器302能够被配置为经由至少一个用户接口308采集输入数据并且控制至少一个存储器304存储输入数据。

在一些实施例中，用于呈现用户的音频和/或视觉内容的系统300还可以用于检查对象的症状。例如，如果对象患有某种症状(例如头痛)，则对象能够通过姿态和/或语音命令的方式来描述症状。例如，对象可以通过敲击姿态(例如执行敲击姿态的次数可以对疼痛进行评级)来描述疼痛的剧烈程度或强度、通过滑动姿态来描述疼痛的方向、或者通过任何其他姿态的方式描述任何其他症状。额外地或备选地，对象可以口头描述疼痛的剧烈程度或强度、疼痛的方向或任何其他症状。系统300的处理器302可以被配置为处理所指示的症状。

在一些实施例中，系统300的处理器302可以被配置为控制至少一个用户接口308呈现一个或多个问题，以询问对象症状的确认或细节。以此方式，能够评估与对象的症状相关联的潜在病情的紧迫性。在一些实施例中，系统300的处理器302可以被配置为控制至少一个用户接口308呈现与症状相关的通知，如与症状相关的事件的指示、存储具有对对象的身体上的相应位置的指示的症状的选项、或任何其他与症状相关的通知。以此方式，系统300能够是前瞻性的。

图5(a)示出了可以使用用于存储用户的音频和/或视觉内容的系统100的情况。在该范例中，用户500是医学专家(例如医生)，并且对象600是患者。如图5(a)所示，用户500执行姿态502和/或语音命令504。在该范例中，姿态是指向姿态。如前所述，响应于对用户500的姿态502和/或语音命令504的检测，系统100的一个或多个处理器102(图5(a)中未示出)识别由姿态502和/或语音命令504指示的对象600的身体上的位置606。在该范例中，由姿态502和/或语音命令504指示的对象600身体上的位置606在对象600的手臂上。还如前所述，系统100的一个或多个处理器102控制至少一个存储器104(图5(a)中未示出)存储对对象600身体上的所识别的位置606的指示以及在其之后或期间检测用户500的姿态502和/或语音命令504的时间段上捕获的用户500的音频和/或视觉内容。

图5(b)示出了可以使用用于呈现用户的音频和/或视觉内容的系统300的情况。在该范例中，对象600是患者。如图5(b)所示，对象600执行姿态602和/或语音命令604。在该范例中，姿态是指向姿态。如前所述，响应于对对象600的姿态602和/或语音命令604的检测，系统300的一个或多个处理器302(图5(b)中未示出)识别对象600以及由姿态602和/或语音命令604指示的对象的身体上的位置606。还如前所述，系统300的一个或多个处理器302从至少一个存储器304(图5(b)中未示出)采集与对所识别的对象600的身体上的所识别的位置606的指示一起存储的用户500的音频和/或视觉内容，并且控制一个或多个用户接口308(图5(b)中未示出)呈现所采集的用户500的音频和/或视觉内容。因此提供了一种多模式系统，其中，能够通过用户的姿态和/或语音命令的方式对对象的身体上的位置进行标记，通过所述多模式系统，对象能够随后激活用户的音频和/或视觉内容的重放，并且可能执行其他具体动作(例如记录相关联的症状)。

还提供了一种包括计算机可读介质的计算机程序产品。计算机可读介质具有体现在其中的计算机可读代码。计算机可读代码被配置为使得在由合适的计算机或处理器执行时，使计算机或处理器执行本文描述的方法。计算机可读介质可以是例如能够承载计算机程序产品的任何实体或设备。例如，计算机可读介质可以包括数据存储器，如ROM(如CD-ROM或半导体ROM)或磁记录介质(如硬盘)。此外，计算机可读介质可以是可传输的载体，如电或光信号，其可以经由电缆或光缆或通过无线电或其他方式传送。当计算机程序产品体现在这样的信号中时，计算机可读介质可以由这样的电缆或其他设备或装置构成。可选择地，计算机可读介质可以是在其中嵌入了计算机程序产品的集成电路，所述集成电路适于执行本文描述的方法或在本文描述的方法的执行中使用。

因此本文提供了一种用于存储用户的音频和/或视觉内容的改进的系统100、方法200和计算机程序产品，以及用于呈现用户的音频和/或视觉内容的改进的系统300、方法400和计算机程序产品，其解决了与现有技术相关的限制。

通过研究附图、公开内容和所附权利要求，本领域普通技术人员在实践本文描述的原理和技术时能够理解和实现对本公开的实施例的变型。在权利要求中，“包括”一词不排除其他要素或步骤，不定冠词“一”或“一个”不排除多个。单个处理器或其他单元可以实现权利要求中记载的几个项目的功能。在相互不同的从属权利要求中叙述某些措施的事实并不表示这些措施的组合不能有利地使用。计算机程序可以存储或分布在合适的介质上，如与其他硬件一起提供或作为其他硬件的一部分提供的光存储介质或固态介质，但也可以以其他形式分布，如经由互联网或其他有线或无线电信系统。权利要求中的任何附图标记不应被解释为限制范围。

Claims

1.一种用于存储用户(500)的音频和/或视觉内容的系统(100)，所述系统(100)包括一个或多个处理器(102)，所述一个或多个处理器被配置为：

响应于对用户(500)的姿态(502)和/或语音命令(504)的检测来识别由所述姿态(502)和/或语音命令(504)指示的对象(600)的身体上的位置(606)；并且

控制至少一个存储器(104)存储对所述对象(600)的所述身体上的所识别的位置(606)的指示，以及在其期间或在其之后检测所述用户(500)的所述姿态(502)和/或语音命令(504)的时间段上捕获的所述用户(500)的音频和/或视觉内容。

2.如权利要求1所述的系统(100)，其中，所述系统(100)包括一个或多个检测器(106)，所述一个或多个检测器被配置为：

检测所述用户(500)的所述姿态(502)和/或语音命令(504)；和/或

捕获所述用户(500)的所述音频和/或视觉内容。

3.如前述权利要求中的任一项所述的系统(100)，其中：

所述时间段具有预定义的持续时间；或者

所述时间段响应于对所述用户(500)的其他姿态和/或语音命令的检测而结束。

4.如前述权利要求中的任一项所述的系统(100)，其中，所述姿态(502)包括指向姿态、敲击姿态、滑动姿态和/或眼睛姿态。

5.如前述权利要求中的任一项所述的系统(100)，其中，所述姿态(502)包括：

所述用户(500)的身体部位的姿态；或者

由所述用户持有的设备的姿态。

6.如前述权利要求中的任一项所述的系统(100)，其中，所述一个或多个处理器(102)被配置为通过被配置为执行以下操作来识别所述对象(600)的所述身体上的所述位置(606)：

使用身体辨识来处理在其期间检测所述用户(500)的所述姿态(502)和/或语音命令(504)的所述时间段上捕获的所述用户(500)的视觉内容，以识别由所述姿态(502)和/或语音命令(504)指示的所述对象(600)的所述身体上的所述位置(606)；和/或

使用身体耦合通信来识别由所述姿态(502)和/或语音命令(504)指示的所述对象(600)的所述身体上的所述位置(606)。

7.一种用于存储用户的音频和/或视觉内容的方法(200)，所述方法(200)包括：

响应于对用户的姿态和/或语音命令的检测来识别(202)由所述姿态和/或语音命令指示的对象的身体上的位置；并且

控制(204)至少一个存储器存储对所述对象的所述身体上的所识别的位置的指示以及在其期间或在其之后检测所述用户的所述姿态和/或语音命令的时间段上捕获的所述用户的音频和/或视觉内容。

8.一种用于呈现用户(500)的音频和/或视觉内容的系统(300)，所述系统(300)包括一个或多个处理器(302)，所述一个或多个处理器被配置为：

响应于对对象(600)的姿态(602)和/或语音命令(604)的检测来识别所述对象(600)和由所述姿态(602)和/或语音命令(604)指示的所述对象(600)的身体上的位置(606)；

从至少一个存储器(304)采集与对所识别对象(600)的所述身体上的所识别的位置(606)的指示一起存储的用户(500)的音频和/或视觉内容；并且

控制一个或多个用户接口(308)呈现所采集的所述用户(500)的音频和/或视觉内容。

9.如权利要求8所述的系统(300)，其中，所述系统(300)包括：

一个或多个检测器(306)，其被配置为检测所述对象(600)的所述姿态(602)和/或语音命令(604)；和/或

一个或多个用户接口(308)，其被配置为呈现所采集的所述用户(500)的音频和/或视觉内容。

10.如权利要求8至9中的任一项所述的系统(300)，其中，一个或多个处理器(302)被配置为：

控制一个或多个用户接口(308)呈现所述对象(600)的视觉表示，所述视觉表示指示在所述至少一个存储器(304)中存储了指示的所述对象(600)的所述身体上的一个或多个位置(606)；和/或

控制一个或多个用户接口(308)呈现指示所述姿态(602)与在所述至少一个存储器(304)中存储了指示的所述对象(600)的所述身体上的位置(606)的接近度的反馈。

11.如权利要求8至10中的任一项所述的系统(300)，其中，一个或多个处理器(302)被配置为：

控制一个或多个用户接口(308)呈现所采集的所述用户(500)的音频和/或视觉内容，以及所识别的对象(600)的所述身体的视觉表示。

12.如权利要求8至11中的任一项所述的系统(300)，其中，一个或多个处理器(302)被配置为通过被配置为执行以下操作来识别所述对象(600)：

使用基于相机的辨识来处理在其期间检测所述对象(600)的所述姿态(602)和/或语音命令(604)的时间段上捕获的所述对象(600)的视觉内容，以识别所述对象(600)；

使用语音辨识来处理在其期间检测所述对象(600)的所述姿态(602)和/或语音命令(604)的所述时间段上捕获的所述对象(600)的音频内容，以识别所述对象(600)；和/或

使用身体耦合通信来识别所述对象(600)。

13.如权利要求8至12中的任一项所述的系统(300)，其中，一个或多个处理器(302)被配置为通过被配置为执行以下操作来识别所述对象(600)的所述身体上的所述位置(606)：

使用身体辨识来处理在其期间检测所述对象(600)的所述姿态(602)和/或语音命令(604)的时间段上捕获的所述对象(600)的视觉内容，以识别由所述姿态(602)和/或语音命令(604)指示的所述对象(600)的所述身体上的所述位置(606)；和/或

使用身体耦合通信来识别由所述姿态(602)和/或语音命令(604)指示的所述对象(600)的所述身体上的所述位置(606)。

14.一种用于呈现用户的音频和/或视觉内容的方法(400)，所述方法(400)包括：

响应于对对象的姿态和/或语音命令的检测来识别(402)所述对象以及由所述姿态和/或语音命令指示的所述对象的身体上的位置；

从至少一个存储器采集(404)与所识别对象的所述身体上的所识别的位置的指示一起存储的用户的音频和/或视觉内容；并且

控制(406)一个或多个用户接口呈现所采集的所述用户的音频和/或视觉内容。

15.一种计算机程序产品，包括计算机可读介质，所述计算机可读介质具有体现在其中的计算机可读代码，所述计算机可读代码被配置为使得在由合适的计算机或处理器执行时，使所述计算机或处理器执行如权利要求7或14所述的方法。