CN104160441B

CN104160441B - 健康监控系统中的讲话者核实

Info

Publication number: CN104160441B
Application number: CN201280068413.2A
Authority: CN
Inventors: 翁富良; T·哈桑; 冯哲
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2011-12-29
Filing date: 2012-12-26
Publication date: 2017-12-15
Anticipated expiration: 2032-12-26
Also published as: EP2810277B1; WO2013101818A1; JP6234937B2; US20140365219A1; EP2810277A1; JP2015510606A; US20130173268A1; US8818810B2; KR101986867B1; CN104160441A; US9424845B2; KR20140137343A

Abstract

一种用于核实人被注册以使用远程医疗设备的方法，包含识别由人说出并由远程医疗设备接收的字中的未提示的触发词。远程医疗设备提示人陈述注册用户的名字，并可选地提示人陈述对于该人的健康意见。远程医疗设备使用从未提示的触发词、注册用户的名字、以及健康意见产生的话语数据，核实该人是注册用户。

Description

健康监控系统中的讲话者核实

技术领域

概括地讲，本申请涉及自动化的语音识别领域，更具体地，涉及核实讲话者的语音识别系统和方法。

背景技术

远程医疗和家庭医疗保健的领域近年来经历了强劲的增长。在远程医疗系统中，病人被在地理上从医生或者其他医疗保健提供商的面前移除。例如，病人可以在家，而不是在医疗保健设施的现场。远程医疗设备能使医疗保健提供商监控病人的健康状态，并潜在地诊断并处理一些医疗问题，而不需要病人前往医疗保健设施。使用远程医疗系统具有如下的潜力：通过增加对病人的监控来降低医疗保健的成本，并改善医疗保健的质量。

各种已知的远程医疗系统向病人提供一种能使病人向医生或者医疗保健提供商传输医疗数据的设备。一些设备被配置为记录生物信号，诸如心率、血压、以及呼吸率，并将记录的生物信号的数据传输至数据库，用于之后的复查。其他远程医疗系统作为物理治疗方案的部分，向病人提供提醒以处方规定的次数服药或者进行锻炼。

虽然远程医疗系统具有大量潜在的优点，但这样的系统还可能给常使用远程医疗设备而没有医疗保健专业人员的辅助的病人呈现难题。提供直观的用户界面增加了远程医疗设备的有效性，也增加了病人将会勤于使用远程医疗设备的可能性。在一些环境中，远程医疗设备还需要在不同病人之间进行区分，以向每个病人提供适当的治疗。例如，在退休社区中，可能有一大群病人使用远程医疗设备，或者相同家庭的每个成员可能使用远程医疗设备用于不同的治疗。一些形式的远程医疗设备是手持单元，其便携并可能在病人之间不慎交换。因此，改善远程医疗设备，以缓解病人与设备之间的交互，并保证远程医疗设备向每个病人提供适当的治疗将是有利的。

发明内容

根据一个实施例，已开发了用于核实人的身份的方法。该方法包含：用音频输入设备产生与人说出的话语对应的音频数据；用音频数据处理器识别所述音频数据中的第一话语数据；响应于识别的与预定的触发话语对应的第一话语数据，用用户界面设备来产生输出，以提示人说出注册名；响应于识别的与预定的触发话语对应的第一话语数据，将识别的第一话语数据存储在存储器中；用所述音频输入设备产生与说出的注册名对应的音频数据；用所述音频数据处理器识别与说出的注册名对应的所述音频数据中的第二话语数据；将识别的第二话语数据存储在所述存储器中；响应于在存储器中存储的所述第一和第二话语数据对应于在所述注册数据库中注册的与所述注册名关联的用户的声音的预定模型，用讲话者核实模块核实该人是在注册数据库中注册的与所述注册名关联的用户；响应于所述讲话者核实模块核实该人是在所述注册数据库中注册的所述用户，用所述用户界面设备产生输出，来向该人提供服务。

根据另一个实施例，已开发了具有讲话者核实的远程医疗设备。该远程医疗设备包含：音频输入设备，被配置为从人说出的话语产生音频数据；音频数据处理器，可操作地连接至所述音频输入设备，并被配置为从由所述音频输入设备产生的音频数据产生话语数据；存储器，被配置为存储由所述音频数据处理器产生的多个话语数据；注册数据库，被配置为将至少一个用户与所述至少一个用户所对应的注册名和声音模型关联；讲话者核实模块，可操作地连接至所述存储器和所述注册数据库；用户界面设备；以及控制器，可操作地连接至所述音频输入设备、音频数据处理器、存储器、注册数据库、讲话者核实模块和用户界面设备。所述控制器被配置为：激活所述音频输入设备来接收包含由人说出的话语的声音，并产生与所述话语对应的音频数据而不提示该人说话；用所述音频数据处理器识别与由该人说出的所述话语对应的音频数据中的第一话语数据；将识别的第一话语数据存储在所述存储器中；响应于与预定的触发话语对应的第一话语数据，用用户界面设备来产生输出，以提示该人说出注册名；用所述音频输入设备产生与说出的注册名对应的音频数据；用所述音频数据处理器识别与说出的注册名对应的所述音频数据中的第二话语数据；将识别的第二话语存储在所述存储器中；响应于在所述存储器中存储的第一和第二话语数据对应于在所述注册数据库中注册的与所述注册名关联的所述用户的声音的预定模型，用讲话者核实模块核实说出所述注册名的该人是在注册数据库中注册的与所述注册名关联的用户；以及响应于所述讲话者核实模块核实说出所述注册名的该人是所述用户，用所述用户界面设备产生输出，来向该人提供服务。

附图说明

图1是由病人使用的手持远程医疗设备的概要图。

图2是用于核实人是远程医疗设备的注册用户的过程的框图。

图3是与远程医疗设备使用的注册数据库的示例。

图4是与远程医疗设备使用的健康意见数据库的示例。

具体实施方式

为了大体理解本文公开的系统和过程的细节，遍及本说明书参考了附图。在附图中，类似的参考标记指代类似的元件。如本文使用的，术语“话语”是指由人说出的任何内容，包含字和词。术语“话语数据”是指对应于一个或多个话语的数据。话语数据可以对应于记录话语的直接声音，或者是从语音识别器产生的经处理的数据，语音识别器典型地包含前端处理器，诸如数字信号处理器、声学建模器、以及语言模型。

如本文使用的，术语“核实”是指如下过程：远程医疗设备经该过程对声称是远程医疗设备的注册用户的人实际上是该用户进行认证。在讲话者核实过程中，远程医疗设备通过处理来自人的一个或多个话语，核实该人是或者不是声称的用户。例如，如果远程医疗设备被配置为识别注册用户“约翰史密斯”，那么人首先向该远程医疗设备键入输入，表明他是注册用户约翰史密斯，并提供一个或多个话语，远程医疗设备使用来自注册用户约翰史密斯的预定的声音模型，使用该话语来核实该人是或者不是注册用户约翰史密斯。

如本文使用的，术语“健康意见”是指与以下内容有关的字或者词：有关病人的健康和安康的建议或者信息。例如，词“今天我应该走一英里”是与病人应该进行的锻炼有关的健康意见。一些健康意见对几乎任何病人都是通用的，诸如营养健康意见“我应该吃新鲜的蔬菜”。其他健康意见可以针对特定病人。例如，针对带有药处方的病人的健康意见是“我应该在适当的时间服用我的药处方”。在提供的示例中，健康意见中的语言从病人的角度以第一人称构成。如下所述，病人大声说出一个或多个健康意见，作为用于使用远程医疗设备的核实过程的一部分。一些健康意见以第一人称角度提供，以增强健康意见对病人的适用性，尽管其他健康意见包含各种形式的词和字。

图1描绘了远程医疗设备100。远程医疗设备100包含：音频输入设备104、一个或多个用户界面设备108、音频数据处理器112、讲话者核实模块116、网络输入/输出(I/O)设备120、控制器124和存储器128。存储器128为以下内容存储数据：记录的话语数据的缓冲132、存储的程序指令136、注册数据库140、以及健康意见数据库144。在一个操作模式中，存储器128还存储预定的触发话语数据134。存储器128包含一个或多个设备来存储数字数据，诸如随机存取存储器(RAM)和非易失性数据存储设备，诸如磁介质和固态数据存储设备。在图1的示例中，远程医疗设备100包含在形成具有由人102手持使用的尺寸和形状的外壳150内。远程医疗设备100被配置为从人102接受话语，以核实人102是远程医疗设备100的注册用户、以及从人102接受话语来操作该远程医疗设备。

远程医疗设备100包含位于外壳150内的一个或多个用户界面设备108。用户界面设备提供输出信息给用户，并从用户接收输入信息、命令、以及话语。输出设备的常见示例包含视觉显示屏，诸如液晶显示器(LCD)和其他视觉显示屏；发出声音和合成语音的扬声器；触觉反馈设备等。输入设备的常见示例包含还被用作音频输入104的麦克风、小键盘、集成在显示屏的触摸屏界面、以及包含按钮和开关的触觉控制。尤其是，用户界面设备108能使远程医疗设备提示人102来提供由音频输入104检测的话语。

远程医疗设备100包含网络I/O设备120。网络I/O设备的常见示例包含无线数据通信模块，诸如无线局域网(WLAN)、无线广域网(WWAN)网络设备。其他I/O设备包含有线网络设备，诸如以太网设备，或者串行设备，诸如USB设备，以将远程医疗设备100连接至向数据网络提供接入的分离的计算机。网络I/O设备能使远程医疗设备100经由数据网络，诸如互联网，与在线数据库和医疗保健提供商通信。

音频输入104典型地包含一个或多个麦克风，麦克风位于外壳150，处于能够检测远程医疗设备100周围的环境中的声音的位置。音频输入设备104发挥功能，以检测由人102说出的话语，并从该话语产生音频数据。在一些实施例中，音频数据包含由一个或多个麦克风产生的模拟电信号。在其他实施例中，音频输入104包含模数转换器，将与接收的话语对应的模拟信号转换为数字信号，诸如代表记录的声音的脉冲编码调制(PCM)信号或其他数字信号。音频输入设备104的一些实施例包含信号滤波器、回声消除电路、以及改善音频数据的质量的其他信号处理设备。

音频数据处理器112从音频输入设备104接收音频数据，并从音频数据产生话语数据。音频数据处理器112包含处理音频数据的声学建模器和语言模型，以从音频数据提取说出的字和词。音频数据处理器112可操作地连接至存储器128。在一个操作模式中，音频数据处理器112对产生的话语数据与存储器128中与一个或多个触发词对应的预定的话语数据134进行比较。如果产生的话语数据与预定的触发词的话语数据对应，那么控制器124激活远程医疗设备100中的其他组件，包含讲话者核实模块。在另一个操作模式中，音频数据处理器112对产生的话语数据与健康意见数据库144中的一个或多个健康意见所对应的话语数据进行比较。当音频数据处理器112产生与各种类型的预定的话语数据对应的话语数据时，音频数据处理器112将话语数据存储在存储器128中的话语数据缓冲132中。话语数据缓冲132积累被用于核实人102是远程医疗设备100的注册用户的多组话语数据。

讲话者核实模块116可操作地连接至存储器128和控制器124。讲话者核实模块116从话语数据缓冲132读出话语数据，并核实该话语数据与存储在注册数据库140中的语音模型对应，其中所述语音模型与使用远程医疗设备100的人的声称的注册名关联。话语数据缓冲132存储有由音频数据处理器112产生的积累的话语数据，包含与触发词、注册用户名、以及一个或多个说出的健康意见对应的话语数据。在一个实施例中，讲话者核实模块116产生与如下内容对应的置信度：话语数据缓冲132中的话语数据与注册用户的声音模型对应的可能性。讲话者核实模块116还产生与冒充者声音模型对应的置信度，其对应于属于不是注册用户的人的一个或多个声音的各种声音特征。根据用于模块116的讲话者核实方法，使用高斯混合模型(GMM)或者其他技术，事先用来自不同的人的大量的数据来训练冒充者声音模型。远程医疗设备100将产生的冒充者声音模型存储在注册数据库140中，用于在讲话者核实过程期间使用。

如果对于用户的声音模型的置信度高出冒充者至少预定的阈值，那么讲话者核实模块116核实：话语数据与注册用户的声音模型对应。如果对于冒充者的声音模型的置信度高出注册用户至少预定的阈值，那么讲话者核实模块116核实：话语数据不与注册用户的声音模型对应。在一些情况下，没有足够可用的话语数据来产生清楚表明话语数据是否与用户的声音模型对应的置信度。远程医疗设备100提示人102说出一个或多个健康意见，来产生增加至话语数据缓冲132的额外的话语数据，并且数据缓冲132中额外的话语数据增加了以下内容的可能性：讲话者核实模块116具有足够的话语数据来用注册用户的声音模型去核实人102。

注册数据库140包含与被授权使用远程医疗设备100的一个或多个用户对应的注册数据。图3描绘了存储在注册数据库300中的数据的示例。注册数据库300包含对应于以下内容的列：注册名标识符304、对应于注册名的话语数据308、以及对应于注册用户的声音模型的话语数据312。注册名标识符304是识别远程医疗设备100的每个用户的字符串或者数字标识符。在图3的示例中，“冒充者”名字是注册数据库中的特殊的条目，其存储与不是注册用户之一的一个或多个声音模型对应的话语数据。

在表格300中，对于每个用户308的注册名的话语数据和对于每个用户312的声音模型的话语数据都包含从用户在登记过程期间说出的话语获得的话语数据。在登记过程中，用户说出包括一个或多个一系列字和词的话语，包含注册名和一系列训练词。注册用户的声音模型是使用从包括注册名和训练词的话语产生的话语数据产生的。登记过程典型地在病人接收远程医疗设备之前进行一次。远程医疗设备100可以直接进行登记过程，或者分离的登记系统进行注册，并且远程医疗设备100接收用户信息和产生的声音模型。例如，远程医疗设备100可以从经由网络I/O设备120通过互联网160接入的在线注册数据库170，下载对于一个或多个登记用户的注册数据。

对于注册名308的话语数据存储有与被注册以使用远程医疗设备100的用户的注册名对应的话语数据。注册名可以简单地为用户的名字，例如“约翰史密斯”，或者可以是特殊的登录名或者数字病人编号。出于说明的目的，注册名在图3中列出为文本，但是典型地在注册数据库300中存储为二进制话语数据。对于声音模型312的话语数据包含对应于由注册用户提供的多个话语的话语数据。在一些实施例中，在登记过程期间被用于产生声音模型的话语数据被提供一次。在其他实施例中，在远程医疗设备100核实特定的注册用户正在说话之后，话语数据312被更新为新产生的话语数据。更新的话语数据会导致在用远程医疗设备100治疗期间发生的用户的声音的逐步改变。对于声音模型的话语数据典型地以二进制数据格式存储在注册数据库140中。

健康意见数据库144包含与多个健康意见关联的数据。图4描绘了存储在健康意见数据库的数据的示例。表格400包含对应于以下内容的列：健康意见标识符404、被用于提示人说出健康意见的数据408、以及对应于说出的健康意见的话语数据412。表格400中的每行代表对应于单个的健康意见的数据，并且表格400典型地包含多个健康意见。健康意见标识符是识别特定健康意见的字符串或者数字值。在一些实施例中，远程医疗设备100使用来自图3中表格300的健康意见标识符404和注册名标识符304，将选择的健康意见与特定病人关联。

对于健康意见的提示数据408包含能使远程医疗设备100向用户产生消息提示用户说出对应的健康意见的格式化数据。虽然在图4中描绘的提示数据是文本的形式，但提示数据可以以各种格式存储，包含远程医疗设备经由扬声器输出的音频数据、以及以用户界面设备108的屏幕上显示的视觉提示的形式。一些提示对用户提供词，以重复回到远程医疗设备100。其他健康意见提示对用户提供简单的问题，而用户说出问题的答案。在问题和答案配置中，远程医疗设备100可以在显示屏显示答案，以辅助讲话者记住问题的答案。

话语数据412与特定的健康意见对应。出于示例性目的，话语数据在图4中描绘为文本，但是话语数据典型地以二进制数据格式存储在健康意见数据库144中。在一些实施例中，对于每个健康意见的话语数据412直接与注册用户的记录的话语对应，该注册用户在使用远程医疗设备之前在登记过程期间说出每个健康意见。在其他实施例中，话语数据不直接与注册用户的声音对应，而是对一个或多个声音通用。音频数据处理器112被配置为对从话语的音频数据产生的话语数据与预定的话语数据412进行比较，以识别人102是否说出了提示的健康意见或者说出了不同的词。

在一些实施例中，存储在健康意见数据库144中的远程医疗设备100检索是从分离的健康意见数据库174通过互联网160经由网络I/O设备120检索的。医疗保健提供商用各种健康意见(包含适用于很多病人的通用健康意见)以及与特定注册用户关联的特定健康意见，来填充健康意见数据库174。远程医疗设备100周期地更新健康意见数据库144中的健康意见，以便用户接收多种多样的健康意见。

再次参考图1，控制器124协调远程医疗设备100的操作，更具体而言，控制远程医疗设备以核实与远程医疗设备交互的人是注册用户。远程医疗设备的一些实施例包含单个的微电子设备，诸如处理器、微控制器、现场可编程门阵列(FPGA)、特定用途集成电路(ASIC)、或者其他数字计算设备，以实现一些或者所有以下项目的功能：控制器124、音频数据处理器112、讲话者核实模块116、以及网络I/O 120。控制器124执行保持在存储器128的存储的程序指令区136的软件指令。在一些实施例中，远程医疗设备100中的各种组件(包含音频数据处理器112和讲话者核实模块116)实现为由控制器116执行的软件程序。实现音频数据处理器112和讲话者核实模块116的功能的存储的指令，存储在存储器100的存储的程序区136。在其他实施例中，音频数据处理器112和讲话者核实模块116中的一个或两者包含专门的处理设备，诸如数字信号处理器(DSP)。又一个实施例使用硬件和软件组件的组合，执行音频数据处理器112和讲话者核实模块116的功能。远程医疗设备中的各种微电子组件可以组合为“片上系统”(SoC)配置中的单个的物理设备。

图2描绘用于通过讲话者核实过程，来核实声称是远程医疗设备的注册用户的人的身份与注册用户匹配的过程200。出于说明的目的，结合远程医疗设备100来说明过程200。如下所述，被说明为实现功能或者执行一些动作的过程是指控制器执行存储在存储器中的编程的指令，来操作一个或多个电子组件以实现该功能或者执行该动作。过程200以音频输入设备从通过音频输入设备接收的声音产生音频数据开始(框204)。在远程医疗设备100中，音频输入设备104包含从环境接收声音的一个或多个麦克风，以及从接收的声音产生音频数据的音频输入设备。过程200从音频信号产生话语数据(框212)，如果音频信号包含话语，那么对话语数据与预定的触发词进行比较(框216)。触发词典型地是并非用于通常会话的一个字或者多个字，以防止远程医疗设备100的不慎激活。远程医疗设备不对人产生提示或者请求来说出触发词。

远程医疗设备100以监控操作模式连续执行框204–216中的过程，直到人102说出触发词。在监控模式中，远程医疗设备的各种组件未激活或者被置于低功率操作模式，其降低了远程医疗设备100的功耗。在经由电池操作的远程医疗设备的实施例中，低功率模式延长远程医疗设备的电池寿命。当音频数据处理器112从与触发话语数据134对应的音频信号产生话语数据时，远程医疗设备100继续过程200。

在过程200中，对应于触发词的话语数据存储在存储器中，供以后核实讲话者的身份使用(框220)。在远程医疗设备100中，话语数据存储在话语数据缓冲132。在接收了触发词之后，过程200产生对讲话者的提示，来陈述注册用户的注册名(框224)。远程医疗设备100可以使用扬声器来产生音频提示，或者视觉显示请求使人102说出用户名。

远程医疗设备产生与说出的注册名对应的音频数据(框232)，并且产生与注册名的音频数据对应的话语数据(框236)。在远程医疗设备100中，如果人102不提供与注册数据库140中的一个用户对应的注册名(框238)，那么远程医疗设备100要么提示讲话者重复注册用户的名字、要么返回框204描述的处理来监控寻找触发词。在接收了与注册用户的名字对应的话语数据之后(框238)，过程200将与注册用户的名字对应的话语数据存储在存储器中(框240)。在远程医疗设备100中，除了来自触发词的话语数据外，与注册名对应的话语数据也被存储在话语数据缓冲132。

过程200继续产生一个或多个置信度，用于用与注册名对应的用户的预定的声音模型来核实存储在存储器中的话语数据(框244)。远程医疗设备100中的讲话者核实模块116从话语数据缓冲132提取记录的话语数据，并且从注册数据库140提取对应于注册用户的声音模型的话语数据。在一些实施例中，注册数据库140存储对于多于一个用户的语音模型，并且过程200选择对应于说出的注册名的用户，在被注册以使用远程医疗设备100的不同用户之间进行区分。讲话者核实模块116还从注册数据库140中的冒充者提取话语数据。

在一些实例中，用于触发词的话语数据和注册名足够讲话者核实模块116以产生清楚表明人102是否是具有该注册名的用户的置信度(框248)。过程200利用积累的数据量，测量在框244的处理中识别的置信度的可靠性。如果讲话者核实模块116核实：对于注册用户声音模型的置信度高出对于冒充者模型的置信度多于预定的阈值(框256)，那么远程医疗设备100核实：人102是具有该注册名的用户(框260)，并且远程医疗设备100向用户提供服务(框264)。

如果讲话者核实模块116识别：表明与冒充者对应的话语数据的置信度(框256)，那么讲话者核实模块116识别：人102不是注册用户(框292)，并且远程医疗设备100拒绝向冒充者提供远程健康服务(框296)。在一些配置中，远程医疗设备100维持对失败的核实尝试的计数，并且如果计数超过预定的阈值，那么远程医疗设备阻止任何额外的尝试来使用该远程医疗设备核实用户。例如，如果使用该远程医疗设备核实人的3次连续尝试每次结果都是该人被识别为冒充者，那么远程医疗设备锁住任何用户，直至医疗保健专业人员重置该设备。

在一些情况下，讲话者核实模块116产生不足以核实人102是否是注册用户的置信度(框248)。例如，如果对于注册用户的声音模型和冒充者声音模型这两者产生的置信度都低于预定的阈值，或者如果两个置信度位于彼此的预定范围内，那么讲话者核实模块116可以请求额外的话语数据以进行核实。在另一个示例中，从不足量的话语数据产生的高或低置信度具有低可靠性。过程200收集额外的话语数据，以产生具有足够程度的可靠性的置信度来核实讲话者。

为了产生额外的话语数据，过程200提示人102说出健康意见(框272)。远程医疗设备从健康意见数据库144选择健康意见，并产生对于人102的音频或者视觉提示。音频输入104产生与说出的健康意见对应的音频数据(框276)，并且音频数据处理器112从音频数据产生话语数据(框280)。音频数据处理器112对产生的话语数据与存储在健康意见数据库144的选择的健康意见的预定的话语数据进行比较。

如果产生的话语数据不与健康意见对应(框282)，那么远程医疗设备100重复提示人说出健康意见(框272)。在过程200期间，远程医疗设备100维持产生的话语数据不与提示的健康意见对应的次数的计数器。如果该计数超过预定的最大数(框283)，那么设备100用用户界面提示替代核实(框298)。例如，如果用户对于健康意见连续3次不能提供正确的响应，那么设备100请求替代核实。如果产生的话语数据与健康意见对应(框282)，那么产生的话语数据存储在话语数据缓冲132中(框284)。过程200然后返回框244来使用所有的积累的话语数据(包含来自健康意见的话语数据)进行讲话者核实。

在一些情况下，在收集足够的话语数据来核实人102是否是注册用户之前，过程200提示多个健康意见。在每个重复期间远程医疗设备100提示不同的健康意见，以提供更广泛种类的话语数据给讲话者核实模块116。过程200在用户核实处理期间对接受的健康意见的数量加以限制(框268)。例如，如果过程200接收与5个健康意见对应的话语数据，但是仍然缺少足够的话语数据来核实人102是否是注册用户，那么讲话者核实过程200终止，并且远程医疗设备100使用替代的核实过程(框298)。在一个替代的核实处理中，远程医疗设备在用户界面108的显示屏上产生登入提示，并且人102经由小键盘键入用户名和密码。

远程医疗设备100和核实过程200向病人提供简单且有效的核实过程。由于远程医疗设备100使用从人接收的所有有效的话语数据(包含初始触发词)来核实人是注册用户，因此远程医疗设备100能以最小数量的语音样本来有效核实用户。另外，在核实过程期间健康意见语音样本向病人提供健康建议，以增加提供给每个病人的医疗福利，即便是在初始核实过程期间。

在附图和上述描述中已示出并详细描述了本发明，但其性质上应该被视为说明性而非限制性的。例如，本文说明的语音的示例是英语，但远程医疗设备100可以被配置为从范围广泛的语言识别语音并产生话语数据。要理解的是呈现的仅是优选的实施例，并且期望要保护的是在本发明的精神内的所有改变、修改和进一步的应用。

Claims

1.一种用于核实人的身份的方法：

用音频输入设备产生与人说出的话语对应的音频数据；

用音频数据处理器识别所述音频数据中的第一话语数据；

响应于识别出的第一话语数据与预定的触发话语对应，用用户界面设备来产生输出，以提示人说出注册名；

响应于识别出的第一话语数据与所述预定的触发话语对应，将所述识别出的第一话语数据存储在存储器中；

用所述音频输入设备产生与所说出的注册名对应的音频数据；

用所述音频数据处理器识别所述音频数据中与所述说出的注册名对应的第二话语数据；

将所识别出的第二话语数据存储在所述存储器中；

响应于在所述存储器中存储的所述第一话语数据和所述第二话语数据对应于在注册数据库中注册的与所述注册名关联的用户的声音的预定模型，用讲话者核实模块核实该人是在所述注册数据库中注册的与所述注册名关联的用户；以及

响应于所述讲话者核实模块核实该人是在所述注册数据库中注册的用户，用所述用户界面设备产生输出以向该人提供服务。

2.如权利要求1所述的方法，还包括：

响应于所述讲话者核实模块识别：所述存储器中的所述第一话语数据和第二话语数据用所述用户的声音的预定模型不足以核实该人，用所述用户界面设备产生输出，来提示该人说出预定短语；

用所述音频输入设备产生与所说出的预定短语对应的音频数据；

用所述音频数据处理器识别所述音频数据中与所说出的预定短语对应的第三话语数据；

将所述第三话语数据存储在所述存储器中；以及

响应于在所述存储器中存储的所述第一话语数据、所述第二话语数据、以及所述第三话语数据对应于在所述注册数据库中注册的用户的声音的预定模型，用所述讲话者核实模块核实该人是在所述注册数据库中注册的用户。

3.如权利要求2所述的方法，还包括：

响应于所述第三话语数据对应于所述预定短语的预定的话语数据，将所述第三话语数据存储在所述存储器中。

4.如权利要求2所述的方法，还包括：

响应于所述第三话语数据不对应于所述预定短语的预定的话语数据，用所述用户界面设备产生输出，以提示该人第二次说出所述预定短语。

5.如权利要求2所述的方法，所述用户界面设备产生提示，以使该人说出健康建议作为所述预定短语。

6.如权利要求5所述的方法，所述用户界面设备产生提示，以使该人说出与在所述注册数据库中的所述注册名关联的健康建议。

7.如权利要求2所述的方法，还包括：

响应于存储在所述存储器中的所述第一话语数据、所述第二话语数据、以及所述第三话语数据不对应于在所述注册数据库中注册的所述用户的声音的预定模型，用所述讲话者核实模块来核实说出所述注册名的人不是在所述注册数据库中注册的与所述注册名关联的用户；以及

响应于所述讲话者核实模块核实说出所述注册名的人不是在所述注册数据库中注册的用户，用所述用户界面设备产生输出以拒绝为该人服务。

8.如权利要求2所述的方法，还包括：

响应于所述讲话者核实模块识别所述存储器中的所述第一话语数据、所述第二话语数据、以及所述第三话语数据用所述用户的声音的预定模型不足以核实该人，继续用所述用户界面设备产生输出，以提示该人说出至少一个额外的预定短语；

用所述音频输入设备产生与该人说出的所述至少一个额外的预定短语对应的音频数据；

用所述音频数据处理器识别所述音频数据中与所述至少一个额外的预定短语对应的至少一个额外的话语数据；

将所述至少一个额外的话语数据存储在所述存储器中；以及

响应于在所述存储器中存储的所述第一话语数据、所述第二话语数据、所述第三话语数据、以及至少一个额外的话语数据对应于在所述注册数据库中注册的所述用户的声音的预定模型，用所述讲话者核实模块核实该人是在所述注册数据库中注册的与所述注册名关联的用户。

9.如权利要求8所述的方法，还包括：

响应于在超过预定阈值的若干额外的话语数据存储在所述存储器之后，所述存储器没有足够的话语数据使所述讲话者核实模块核实该人是用户，识别所述讲话者核实模块不能核实该人是在所述注册数据库中与所述注册名关联的用户。

10.如权利要求9所述的方法，还包括：

响应于所述讲话者核实模块不能核实该人是所述注册数据库中与所述注册名关联的用户，用所述用户界面设备提示该人用不同于所述音频输入设备的用户输入设备来输入用于核实该人的信息。

11.一种具有讲话者核实的远程医疗设备，包括：

音频输入设备，被配置为从人说出的话语产生音频数据；

音频数据处理器，可操作地连接至所述音频输入设备，并被配置为从由所述音频输入设备产生的音频数据产生话语数据；

存储器，被配置为存储由所述音频数据处理器产生的多个话语数据；

注册数据库，被配置为将至少一个用户与对应于所述至少一个用户的注册名和声音模型关联；

讲话者核实模块，可操作地连接至所述存储器和所述注册数据库；

用户界面设备；以及

控制器，可操作地连接至所述音频输入设备、音频数据处理器、存储器、注册数据库、讲话者核实模块、以及用户界面设备，所述控制器被配置为：

激活所述音频输入设备来接收包含由人说出的话语的声音，并产生与所述话语对应的音频数据而不提示该人说话；

用所述音频数据处理器识别与由该人说出的所述话语对应的音频数据中的第一话语数据；

将所识别出的第一话语数据存储在所述存储器中；

响应于所述第一话语数据与预定的触发话语对应，用用户界面设备来产生输出，以提示该人说出注册名；

将所识别出的第二话语存储在所述存储器中；

响应于在所述存储器中存储的所述第一话语数据和所述第二话语数据对应于在所述注册数据库中注册的与所述注册名关联的用户的声音的预定模型，用讲话者核实模块核实说出所述注册名的该人是在注册数据库中注册的与所述注册名关联的用户；以及

响应于所述讲话者核实模块核实说出所述注册名的人是用户，用所述用户界面设备产生输出以向该人提供服务。

12.如权利要求11所述的远程医疗设备，所述控制器还被配置为：

响应于所述讲话者核实模块识别：所述存储器中的所述第一话语数据和所述第二话语数据用所述用户的声音的预定模型不足以核实该人，用所述用户界面设备产生输出，以提示该人说出预定短语；

用所述音频数据处理器，识别所述音频数据中与所说出的预定短语对应的第三话语数据；

将所述第三话语数据存储在所述存储器中；以及

响应于在所述存储器中存储的所述第一话语数据、所述第二话语数据、以及所述第三话语数据对应于在所述注册数据库中注册的所述用户的声音的预定模型，用所述讲话者核实模块核实说出所述注册名的该人是在所述注册数据库中注册的用户。

13.如权利要求12所述的远程医疗设备，所述音频数据处理器还被配置为：

14.如权利要求12所述的远程医疗设备，所述控制器还被配置为：

15.如权利要求12所述的远程医疗设备，所述用户界面设备还被配置为：

产生提示，以使该人说出健康建议作为所述预定短语。

16.如权利要求15所述的远程医疗设备，所述用户界面设备还被配置为：

产生提示，以使该人说出与在所述注册数据库中的所述注册名关联的健康建议。

17.如权利要求12所述的远程医疗设备，所述控制器还被配置为：

18.如权利要求12所述的远程医疗设备，所述控制器还被配置为：

响应于所述讲话者核实模块识别在所述存储器中存储的所述第一话语数据、所述第二话语数据、以及所述第三话语数据不足以核实：在所述存储器中存储的所述第一话语数据、所述第二话语数据、以及所述第三话语数据对应于在所述注册数据库中注册的所述用户的声音的预定模型，继续用所述用户界面设备产生输出，以提示该人说出至少一个额外的预定短语；

用所述音频输入设备产生与由该人说出的所述至少一个额外的预定短语对应的音频数据；

将所述至少一个额外的话语数据存储在所述存储器中；以及

响应于在存储器中存储的所述第一话语数据、所述第二话语数据、所述第三话语数据、以及至少一个额外的话语数据对应于在所述注册数据库中注册的所述用户的声音的预定模型，用所述讲话者核实模块核实该人是在所述注册数据库中注册的与所述注册名关联的用户。

19.如权利要求18所述的远程医疗设备，所述控制器还被配置为：

20.如权利要求19所述的远程医疗设备，所述控制器还被配置为：

响应于所述讲话者核实模块核实该人不是所述注册数据库中与所述注册名关联的用户，用所述用户界面设备提示该人用不同于所述音频输入设备的用户输入设备来输入核实该人的信息。

21.如权利要求11所述的远程医疗设备，还包括：

手持外壳，所述音频输入设备、音频数据处理器、存储器、注册数据库、讲话者核实模块、用户界面设备、以及控制器位于其中。