CN104094132A

CN104094132A - 经由声波纹位置感知的基于区域的存在确定

Info

Publication number: CN104094132A
Application number: CN201380007184.8A
Authority: CN
Inventors: S·德拉弗恩塔; G·S·琼斯; J·S·潘内尔
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2012-01-30
Filing date: 2013-01-30
Publication date: 2014-10-08
Anticipated expiration: 2033-01-30
Also published as: US20130195285A1; WO2013113119A1; CN104094132B; DE112013000440T5; US9401058B2

Abstract

可以接收来自接近环境中的一个或多个麦克风的说话者的语音。麦克风可以是定向麦克风或全向麦克风。可以对语音进行处理以产生用以确定说话者的身份的话语。说话者的身份可与声波纹相关联。该身份可与计算系统的用户证书相关联。这些证书可以唯一识别计算系统内的用户。可以分析话语以建立说话者存在的区域。该区域可以是环境中的有界区域。可以将该区域在环境中进行映射以确定说话者的位置。该位置可以是相对位置或绝对位置。

Description

经由声波纹位置感知的基于区域的存在确定

技术领域

本发明涉及存在确定的领域，更特别地涉及经由声波纹位置感知的基于区域的存在确定。

背景技术

在大型设施(例如，工作场所)内定位人员对日常业务操作而言越来越重要。这些操作经常可以包括组织会议、争取资源和协调人员活动。例如，高层办公建筑物(例如，高层办公室)经常将许多公司部门容纳在可以包括分布在许多楼层的几百名人员的一个建筑物内。在这些大型设施内管理业务操作常常可能是艰巨的。也就是说，由于普遍存在的计算(例如，移动计算机)使得人员能够在这些大型设施内自由移动，因此确定位置(例如，存在)可能耗时并且困难。缺乏存在解决方案的设施往往采用诸如直接联系人员以确定人员位置等的手动协调努力。这些手动努力可能使生产率下降，并且频繁导致尝试进行业务操作的人员受挫。

可选地，设施可以配备有传统的存在解决方案。这些传统的存在解决方案频繁地依赖于射频识别(RFID)、超声波、无线保真(WiFi)、全球定位系统(GPS)和用以确定人员位置的其它技术。这些解决方案通常涉及使用必须由人员佩戴的唯一识别标签(例如，授权人员、访客、居民等)以供存在系统确认并识别人员的位置。该系统的缺陷经常包括标签相对于个人的关联不精确、在设施内获取个人的标签的成本、标签的电池寿命有限、丢失标签、丢失标签的更换费用和标签的不一致使用。这些缺陷可能很快对于在这些大型设施内采用有价值的存在技术造成显著障碍。

发明内容

本发明的一个方面可以包括用于经由声波纹位置感知的基于区域的存在确定系统、设备、计算机程序产品和方法。可以接收到来自与环境中的一个或多个麦克风接近的说话者的语音。麦克风可以是定向麦克风或全向麦克风。说话者可以是人。可以对语音进行处理以产生用以确定说话者的身份的话语。说话者的身份可与声波纹相关联。该身份可与计算系统的用户证书相关联。这些证书可以唯一识别计算系统内的用户。可以分析话语以建立说话者存在的区域。该区域可以是环境中的有界区域。可以将该区域在环境中进行映射以确定说话者的位置。该位置可以是相对位置或绝对位置。

本发明的另一方面可以包括用于经由声波纹位置感知的基于区域的存在确定方法、设备、计算机程序产品和系统。语音引擎可被配置为基于所接收到的语音话语来确定说话者在环境中的位置。可以从接近说话者的一个或多个麦克风接收到话语。位置可以是环境中的一个或多个区域。话语可匹配至声波纹。声波纹可关联至说话者身份。数据存储器能够保存与说话者身份相关联的一个或多个声波纹以及映射。说话者身份可与计算系统的用户证书相关联。映射可以使一个或多个区域与环境相关联。

附图说明

图1是示出根据这里所公开的创造性布置的实施例的经由声波纹位置感知的基于区域的存在确定方案的示意图。

图2是示出根据这里所公开的创造性布置的实施例的经由声波纹位置感知的基于区域的存在确定方法的示意图。

图3是示出据这里所公开的创造性布置的实施例的经由声波纹位置感知的基于区域的存在确定系统的示意图。

具体实施方式

本公开是经由声波纹位置感知的基于区域的存在确定所用的解决方案。在该解决方案中，可以利用分布在整个环境(例如，设施)内的麦克风的阵列来在该设施内建立说话者(例如，人员)存在。在一个实施例中，可以将麦克风放置在设施的每个房间内，其中每个麦克风位置可被映射到设施的区域。在本实施例中，在麦克风检测到来自说话者的语音的情况下，可以利用与该说话者相关联的声波纹来唯一识别并定位区域内的说话者。本公开可以进行声波纹创建、说话者识别、说话者验证和存在确定等。在一个实施例中，本公开可以是没有追踪装置的当前实时定位服务(RTLS)。在本实施例的一个配置中，即使在没有对该服务注册人员声波纹的情况下，RTLS也能够自动对来自人员的语音做出反应。

所属技术领域的技术人员知道，本发明的各个方面可以实现为系统、方法或计算机程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、驻留软件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。此外，在一些实施例中，本发明的各个方面还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。

可以采用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆、RF等等，或者上述的任意合适的组合。可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

下面将参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机程序指令实现。

这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些计算机程序指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。

也可以把这些计算机程序指令存储在计算机可读介质中，这些指令使得计算机、其它可编程数据处理装置、或其他设备以特定方式工作，从而，存储在计算机可读介质中的指令就产生出包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的指令的制造品(article of manufacture)。

也可以将这些计算机程序指令载入计算机、其它可编程数据处理设备或其它装置，以使得在该计算机、其它可编程设备或其它装置上进行一系列操作步骤，从而产生计算机实现处理，以使得在计算机或其它可编程设备上执行的指令提供用于实现流程图和/或框图框所指定的功能/行为的处理。

图1是示出根据这里所公开的创新性布置的实施例的用于通过声波纹位置感知来进行基于区域的存在确定的方案100的示意图。可以在方法200和/或系统300上下文中进行方案100。在方案100中，声波纹创建101、说话者验证130、存在确定160可以是使能本公开功能的阶段。应当理解，阶段101可以独立进行以及/或者可以是存在确定处理(例如，130,160)的阶段从属处理。应当理解，阶段101、130、160可以同时或顺次进行。在声波纹创建101中，可以使利用麦克风116所接收到的语音114与说话者身份124相关联以建立说话者112的声波纹126。在说话者验证130中，可以利用现有的声波纹126来基于语音124识别说话者112。在存在确定160中，可以采用映射162来建立与说话者112相关联的存在信息164。

如这里所使用的，环境105可以是提供人员(例如，说话者112)活动场所的建造环境。环境105可以包括但不限于建筑物、街区、城市和地理有界区域等。例如，环境105可以是大学校园。在一个实施例中，可以将环境105分割成一个或多个区域(例如，区域A)。区域可以是环境105的在逻辑和/或物理上分开的部分。

房间110可以是环境105内的可区分空间。房间110可以包括但不限于房间(例如，房间110)、走廊和公共区域等。房间110可以包括可以固定的麦克风116或可移动麦克风。麦克风116可以包括但不限于单个麦克风、多个通信链接的麦克风和多个独立麦克风等。

在一个示例中，麦克风116可以是音频/视频装置的组件。例如，麦克风116可以是与安全照相机相关联的麦克风。麦克风116可以检测来自接近的说话者112的语音114。说话者112可以是产生语音114的接近麦克风114的个人。语音114是麦克风114可以接收到的通信的有声形式。语音114可以包括包含但不限于句子、单词和音节等的传统语言构成。也就是说，语音114可以包括孤立的单词、连接的单词和连续语音。语音114可以包括但不限于一种或多种语言。应当理解，语音114可以是对准麦克风114的和/或是间接的(例如，环境噪声)。例如，语音114可以包括房间110内的与该房间内的其它人进行通信的说话者112。

麦克风116可以将语音114传送至语音引擎120。引擎120可以将语音114处理成一个或多个话语122。话语122可以是口语中的语音的一个完整单位。话语122可以与包括但不限于音调、语调和响度等的一个或多个属性相关联。也就是说，话语122可以是语音识别处理的人为因素。通过将说话者身份124与话语122相组合，引擎120可以产生声波纹126。

声波纹126可以是使语音114(例如，话语)与说话者身份(例如，用户证书)相关联的独特数据集。在一个实施例中，声波纹126可以是语音信号的随时间改变的频谱表示。在本实施例中，可以利用该信号来唯一识别说话者。例如，声波纹126可以是在计算安全系统内所利用的语音行为生物特征。声波纹126可以包括但不限于话语122、声谱图和用户证书等。声波纹126可以包括单个独特声波纹和多个声波纹等。声波纹126可以包括但不限于模板和语音模型(例如，隐马尔可夫模型(Hidden Markov Model))等。应当理解，在声波纹内所存储的话语可以包括话语属性(例如，说依赖于说话者的特性)。在一个实施例中，可以利用与声波纹126相关联的用户证书来确定说话者身份。

在说话者验证130中，可以利用先前建立的声波纹126来验证说话者112的身份。在说话者验证130中，可以对语音114和声波纹126进行验证132动作。验证132可以包括对语音114进行解码、使语音114与声波纹126相匹配等。在一个示例中，引擎120可以将语音114的话语属性与和声波纹126相关联的话语属性进行比较。应当理解，验证132可以是任意复杂的并且可以利用一个或多个规则集和设置等。也就是说，验证132可以是具有鲁棒性且可扩展的，从而使得本公开能够广泛适用于各种实现。

在语音114与声波纹126相匹配的情况下，可以通过使用与声波纹126相关联的用户证书来确定说话者身份134。在语音114没有与声波纹126相匹配的情况下，可以将说话者身份134设置为访客身份。在一个示例中，在手动提供证书的情况下，可以将访客身份手动分配给系统(例如，系统300)的注册过的用户。在另一示例中，在说话者112与自动向系统提供证书的装置互动的情况下，可以将访客身份自动分配至系统(例如，系统300)的注册过的用户。

在存在确定160中，映射162可以使得能够进行基于区域的说话者112的存在确定。映射162可以使麦克风116(例如，麦克风A)与位置(例如，区域A)相关联。来自说话者112的语音114可以由麦克风116接收到并且可以传送至引擎120。引擎120可以利用映射来识别接收到语音114的麦克风并且确定说话者位置。例如，可以经由可以与区域A相关联的唯一装置标识符来识别麦克风A。

引擎120可以生成存在信息164，存在信息可以是与说话者112位置相关联的数据。存在信息164可以包括但不限于位置166和地图168等。在一个示例中，信息164可以包括传送说话者112的有效性的状态指示符。位置166可以是绝对位置和/或相对位置。例如，在说话者112接近麦克风116(例如，麦克风A)、但不在房间110(例如，区域A)内的情况下，可以建立相对位置(例如，接近区域A)。地图168可以是传送说话者112在环境105中的位置的图形元件。例如，地图168可以是指示说话者112在区域A(例如，房间110)中的建筑物的平面图。地图168可以示出利用本公开可以追踪的一个或多个说话者以及适当位置。在一个示例中，地图168可以示出说话者的历史位置，从而允许视觉追踪能力。

在一个实施例中，本公开可以使得能够同时进行多个说话者的基于区域的存在确定。在另一实施例中，本发明可以便于进行一个或多个说话者的存在追踪。应当理解，在方案100中所述的环境105配置可以是示例性设置。本公开可以支持单个区域内的多个麦克风以及各自配备有多个麦克风的多个区域等。

这里所呈现的附图仅是为了例示的目的并且不应构成在任何方面对本发明的限制。应当理解，只要维持了公开的功能，则阶段101、130、160可以是可选的。应当理解，可以将说话者身份124手动提供至引擎120。在一个示例中，与计算系统登录处理互动的说话者112可以手动输入身份124。在该示例中，可以验证用户证书并且可以确定说话者身份。应当理解，尽管方案100描述了基于区域的存在确定能力，但本公开不限于这方面。此外，本公开可以扩展至提供针对多个环境105的存在确定能力。应当理解，引擎120可以是独立于文本的语音处理器，而且可以支持依赖于文本的实现。

图2是示出根据这里所公开的创新性布置的实施例的、经由声波纹位置感知的基于区域的存在确定方法200的示意图。可以在方案100和/或系统300上下文中进行方法200。在方法200中，可以利用麦克风所接收到的语音以验证说话者身份并且在环境中定位说话者。

在步骤205中，可以从环境中的一个或多个麦克风接收语音。例如，会议室可以配备有可以用来从说话者获得语音的麦克风的阵列。在步骤210中，可以分析该语音以确定适当的话语。分析可以包括但不限于信号处理、语音解码和标准化等。该分析可以产生可以包括音位和单词等的话语。话语可以是诸如词汇等的数据模型。在步骤215中，可以选择声波纹。在步骤220中，可以将话语针对所选择的声波纹进行匹配并且可以生成匹配分数。该匹配分数可以是数值、模糊逻辑值等。例如，分数可以是诸如百分比等的数值。在一个实施例中，匹配分数可以是指示发生肯定验证的可能性的置信度值。

在步骤225中，可以针对阈值评估分数。可以手动和/或自动建立阈值。阈值可以是数值、模糊逻辑值等。在一个示例中，阈值可以是可以允许根据评估触发编程性动作的规则集。在该示例中，规则集可以允许基于评估的结果来建立复杂逻辑。例如，在分数低于阈值的情况下，可以将指示在环境中检测到访客的通知传送至管理员。在评估结果失败的情况下，该方法可以继续进入步骤230，否则进入步骤240。在步骤230中，如果存在要匹配的更多声波纹，则方法可以返回至步骤215。应当理解，方法200可以支持针对说话者的多个声波纹。在一个实施例中，在重复步骤215的情况下，可以选择与说话者身份相关联的替代声波纹并且可以进行步骤220～225。在实施例中，可以运行步骤215～225，直到所有的声波纹用完或发生匹配为止。

在步骤235中，可以根据话语来生成访客声波纹并且可以分配访客证书。可以使用在方案100的声波纹创建101内所述的相似处理来生成访客声波纹。可以手动和/或自动分配访客证书。在步骤240中，可以确定用户证书。可以基于一个或多个规则集、设置等来确定证书。在一个示例中，可以从认证系统自动获得证书。在步骤245中，可以利用环境映射来建立说话者位置。在步骤250中，可以基于说话者位置来可选地进行资源权限评定。在一个示例中，方法200可以是基于存在的安全系统的处理。在一个示例中，在确定说话者位置的情况下，可以制定安全行动(例如，授权对资源的访问)。例如，在说话者接近与安全区域相关联的锁定的门的情况下，可以利用方法200来自动解锁该门。在步骤225中，该方法可以结束。

这里所呈现的附图仅是为了例示的目的并且不应构成在任何方面对本发明的限制。可以实时或接近实时地进行方法200。可以串行和/或并行进行方法200内的步骤205～255。一个或多个步骤205～255可以是可选的，只要允许保持方法200的功能。

图3是示出根据这里所公开的创造性布置的实施例的、用于经由声波纹位置感知来进行基于区域的存在确定的系统300的示意图。可以在方案100和/或方法200上下文中执行系统300。在系统300中，语音引擎320可以允许经由语音368来进行对说话者366的实时说话者存在确定。例如，随着说话者366在区域362和/或环境360内移动，引擎320可以利用语音368来快速确定说话者位置。系统300的组件310、350和360可以经由网络380通信链接。应当理解，系统300可以有利于统一通信协作，从而允许从系统300触发传统和/或专有的统一通信行为。例如，基于根据语音368的说话者366存在确定，可以将电话呼叫自动转发至接近说话者366的电话。

在一个实施例中，系统300可以是用于在现有的计算设施中进行存在确定的“插入”解决方案。例如，引擎320可以是存在服务器应用的插件组件。在另一实施例中，系统300可被配置为与现有存在系统一体化已增强和/或扩展存在系统功能。

存在服务器310可以是能够接受、存储和/或分发存在信息(例如，存在信息343)的硬件/软件元件。服务器310可以包括但不限于语音引擎320、映射330、声波纹332、数据存储器340和界面344等。服务器310可以与存在体、观察者和服务等进行通信。在一个实施例中，服务器310可以是统一通信系统的组件。在该实施例中，服务器310可以是IBM LOTUS SAMETIME服务器。

语音引擎320可以是能够接收语音368、识别说话者366、验证说话者366和/或确定说话者366位置的硬件/软件实体。引擎320可以包括但不限于话语处理器322、验证引擎324、定位器326和设置328等。引擎320可以是联网的计算元件、分布式计算元件等。在一个示例中，引擎320的功能可以是Web服务的一部分。在另一示例中，引擎320的功能可以是应用编程接口(API)的能力。

话语处理器322可以是被配置为处理语音368的硬件/软件组件。处理器322的功能可以包括但不限于声音识别、语音识别、语音编码、语音记录、语音重放和标准化(例如，倒频谱标准化法)等。处理器322可以包括一个或多个基于统计的语音识别算法。例如，处理器322可以利用声学建模和/或语言建模来处理语音368。应当理解，处理器322可以包括传统和/或专有的语音识别技术。在一个示例中，可以利用处理器322来创建声波纹332。在该示例中，处理器322可以利用传统和/或专有的技术来处理和/或存储声波纹332。技术可以包括但不限于频率估计、隐马尔可夫模型(HMM)、高斯混合模型、模式匹配算法、神经网络、矩阵表示、矢量量化和决策树等。应当理解，处理器322可以利用包括但不限于竞争者模型和世界模型等的“反说话者”技术。

验证引擎324可以是用于识别和/或验证说话者366的硬件/软件元件。引擎324的功能可以包括目录服务350通信、证书354验证和说话者识别等。引擎324可以进行包括但不限于模板匹配和规则集评估等的验证动作。验证引擎324可以进行包括但不限于目录352创建(例如，访客目录)和证书354创建(例如，登记)等的目录服务350辅助动作。

定位器326可以是被配置为基于语音368来进行说话者366的存在确定的硬件/软件组件。定位器326的功能可以包括但不限于存在确定、存在追踪和存在信息分发等。定位器326可以用于创建和/或管理表342。定位器326可以响应于确定说话者366的位置已改变来更新表342。在一个示例中，定位器326可以是语音引擎320的可选组件。在该示例中，定位器326可以是通信链接至引擎320的外部存在组件(例如，统一通信存在引擎)。

设置328可以是用于建立系统300和/或服务器310的行为的一个或多个配置选项。设置328可以包括但不限于话语处理器322选项、身份引擎324设置和定位器326选项等。可以手动和/或自动配置设置328。在一个示例中，可以根据通信链接的存在系统来试探性确定设置328。在一个示例中，设置328可以存在于界面344内。在该示例中，可以利用传统和/或专用的界面机制来管理和/或配置设置328。

映射330可以是将传感器364(例如，麦克风)链接至环境360中的区域362的数据集。可以手动和/或自动建立映射330。在发生对环境360、区域362和/或传感器364的改变时，可以动态地更新映射330。在一个示例中，可以经由一个或多个用户界面来管理映射330。

可以将声波纹332存储在服务器310、引擎320和数据存储器340等中。在一个实施例中，声波纹332可使得能够实现多语言支持。在本实施例中，声波纹332可以包括针对单个说话者的多语言声波纹。应当理解，可以使声波纹332与一个或多个安全机制相关联。可以使声波纹332与说话者特性相关联。

数据存储器340可以是能够保存追踪表342、映射330、声波纹332和地图346等的硬件/软件组件。数据存储器340可以是存储区域网络(SAN)和网络附属存储(NAS)等。数据存储器340可以符合关系型数据库管理系统(RDBMS)和面向对象数据库管理系统(OODBMS)等。数据存储器340可以通信地链接至一个或多个传统和/或者专用机制中的服务器310。在一个示例中，数据库340可以是结构化查询语言(SQL)投诉数据库的组件。在另一示例中，数据库340可以是语音数据库的一部分。

追踪表342可以是用于使得能够进行针对一个或多个说话者366的存在记录的数据集。表342可以包括但不限于存在信息343、声波纹信息和证书等。在一个示例中，系统300可以使得能够经由可以包括与一个或多个说话者366有关的存在信息的追踪表342进行存在追踪。在另一示例中，追踪表342可以采用说话者366的历史位置以预测后续的说话者366的位置。应当理解，表342仅是为了例示的目的而呈现的，并且不应构成在任何方面对本发明的限制。

存在信息343可以包括位置信息、定时信息(例如，日期/时间)和环境地图等。可以将存在信息343传送至系统300内的一个或多个组件。在一个示例中，可以将信息343传送至统一通信系统的组件。在该示例中，可以将信息343传递至存在感知应用(例如，即时通信(Instant Messenger)、会议应用等)。

界面344可以是允许地图346的互动和/或呈现的用户互动组件。界面344可以在Web浏览器应用、桌面应用程序等的上下文内呈现。在一个实施例中，界面344可以是IBM LOTUS SAMETIME应用的画面。界面344的功能可以包括图形用户界面(GUI)、语音用户界面(VUI)和混合模式界面等。在一个示例中，界面344可以通信地连接至计算装置(例如，客户端装置)。

地图346可以是用于向说话者366呈现存在信息的数据集。在一个实施例中，可以根据请求来动态地生成地图346。在另一示例中，地图346可以是持久性的并且可以在系统300的运行时持续更新。在一个实施例中，地图346可以是允许与同说话者相关联的存在信息进行互动的图形化互动地图。

目录服务器350可以是用于存储、组织和提供对用户目录352内的信息的访问的硬件/软件组件。服务器350可以包括传统和/或专有的实现。在一个示例中，服务器350可以是IBM LOTUS DOMINO服务器。服务器350可以包括但不限于用户目录352、服务器350设置等。用户目录352可以是用于进行用户(例如，说话者366)的认证和授权的数据集。目录352可以包括但不限于证书354、访问许可等。证书354可以与用户配置文件和用户数据等相关联。

传感器364可以是能够检测附近的来自说话者366的语音368的装置。例如，传感器364可以是声电转换器。传感器364可以是动态麦克风、压电麦克风和光纤麦克风等。应当理解，传感器364可以是有线装置和/或无线装置。传感器364可以包括但不限于固定传感器和可动传感器等。

网络380可以是连接一个或多个系统300组件的电气和/或计算机网络。网络380可以包括但不限于双绞线、光纤和同轴电缆等。网络380可以包括有线和/或无线组件的任何组合。网络380的拓扑可以包括但不限于总线、星形和网状等。网络380的类型可以包括但不限于局域网(LAN)、广域网(WAN)和VPN等。网络380可以包括但不限于因特网、内联网和外联网等。

在一个实施例中，系统300可以调整各成功验证之后的声波纹(例如，说话者模型)以捕获说话者的声音的长期变化。例如，说话者366的声音可以由于可能影响语音368的变老而改变。

这里所呈现的附图仅是为了例示目的并且不应构成在任何方面对本发明的限制。系统300可以采用传统和/或专有的技术。系统300可以利用传统和/或专有的协议。这些协议可以包括但不限于超文本传输协议(HTTP)、传输控制协议(TCP)、因特网协议(IP)、轻量级目录访问协议(LDAP)、实时传输协议(RTP)和可扩展消息处理现场协议(XMPP)等。系统300可以符合联网计算环境、分布式计算环境和云计算环境等。在一个示例中，系统300的架构可以是服务导向架构。

应当理解，系统300的实现细节可以基于部署要求和/或限制而改变。例如，系统300可以用于洲和/或国家公共安全、安全相关的惩教设施、自动考勤监控、协助调查(例如，确认托辞)和执法活动(例如，定位肇事者)等。

图1-3中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

Claims

1.一种基于声波纹的位置感知方法，包括：

从接近环境中的多个麦克风中的至少一个麦克风的说话者接收语音；

处理所述语音以产生用以确定所述说话者的身份的话语，其中所述说话者的身份与声波纹相关联，其中所述身份与计算系统的用户证书相关联，其中所述用户证书唯一识别所述计算系统中的用户；

分析所述话语以建立所述说话者存在的区域，其中所述区域是所述环境中的有界区域；以及

将所述区域在所述环境中进行映射以确定所述说话者的位置。

2.根据权利要求1所述的方法，其中，所述多个麦克风是定向麦克风和全向麦克风中的至少一种，其中所述说话者是被授权访问所述计算系统的人，其中所述计算系统被雇佣所述人的实体所拥有，其中所述位置是相对位置和绝对位置中的至少一个。

3.根据权利要求1所述的方法，其中，所述分析包括至少一个三角测量计算，所述三角测量计算部分基于由所述环境中的所述语音或环境噪声产生的所述有界区域特有的声学回声来确定用户位置。

4.根据权利要求1所述的方法，还包括：

识别声波纹数据库，其中所述声波纹数据库包括与说话者相关联的至少一个声波纹；以及

使所述说话者的话语与所述声波纹数据库中的声波纹相匹配。

5.根据权利要求4所述的方法，其中，在所述匹配无法使所述说话者的话语匹配至所述声波纹数据库内的声波纹的情况下，将所述说话者身份建立为所述区域的访客，其中由拥有或租借所述有界区域的实体授权在所述区域内的多个人各自存储用户特有声波纹。

6.根据权利要求1所述的方法，还包括：

从与所述说话者身份相关联的计算装置接收声波纹，其中所述说话者身份与所述计算系统的用户相关联；

将所述声波纹和说话者身份存储在声波纹数据库内；

随后基于与所述用户相关联的语音话语来确定所述说话者的身份，其中所述确定使说话者的身份与所述声波纹数据库内的声波纹相匹配；以及

经由所述语音话语来建立所述说话者的位置。

7.根据权利要求1所述的方法，还包括：

基于随后的话语来在所述环境中连续追踪与所述说话者相关联的多个位置，其中所述多个位置是所述环境中的多个区域。

8.根据权利要求7所述的方法，还包括：

评估与所述说话者相关联的所述多个位置；以及

基于所述评估来预测与所述说话者相关联的后续位置。

9.根据权利要求1所述的方法，其中，所述区域是房间、建筑物和地理有界区域中的至少一个。

10.根据权利要求1所述的方法，使用配备有GPS的装置来确定地理区域，其中使用基于所述声波纹的针对所述说话者的区域的映射来补充GPS信号由于无线电频率干扰而不可靠的封闭环境的存在数据。

11.一种基于声波纹的位置感知系统，包括：

语音引擎，被配置为基于所接收到的语音话语来确定说话者在环境中的位置，其中所述话语是从接近所述说话者的多个麦克风接收到的，其中所述位置是所述环境中的多个区域中的至少一个，其中所述话语与声波纹相匹配，其中所述声波纹与说话者身份相关联；以及

数据存储器，其能够保存与说话者身份相关联的至少一个声波纹以及映射，其中所述说话者身份与计算系统的用户证书相关联，其中所述映射使所述多个区域中的至少一个与所述环境相关联。

12.根据权利要求11所述的系统，还包括：

话语处理器，其能够确定与所述环境中的说话者相关联的话语；

验证引擎，被配置为基于所述话语来建立所述说话者的身份，其中所述说话者的身份与声波纹相关联，其中针对所述话语来匹配所述声波纹；以及

定位器，其能够识别所述环境中的所述说话者存在的区域。

13.根据权利要求11所述的系统，其中，所述多个麦克风中的每一个与所述环境中的所述多个区域中的每一个相关联，其中所述多个麦克风是定向麦克风和全向麦克风中的至少一种。

14.根据权利要求11所述的系统，其中，所述多个区域中的至少一个是房间、建筑物和地理有界区域中的至少一个。

15.根据权利要求11所述的系统，其中，所述位置是全球定位系统(GPS)位置和与笛卡尔坐标系相关联的位置中的至少一个。

16.根据权利要求11所述的系统，其中，所述定位器被配置为基于多个标准来预测所述说话者的位置，其中所述多个标准是多个历史位置、日期、和时间中的至少一个。

17.根据权利要求11所述的系统，还包括：

认证组件，其能够响应于确定所述说话者的位置来许可或拒绝对资源的访问，其中所述组件与访问控制系统相关联，其中所述访问控制系统与所述环境相关联。

18.根据权利要求11所述的系统，其中，所述语音引擎被配置为根据话语自动生成说话者的声波纹，其中所述语音引擎能够使所述声波纹与说话者身份相匹配，其中所述说话者身份与和计算系统相关联的用户证书相关联。

19.根据权利要求11所述的系统，其中，在语音引擎无法将所述声波纹匹配至现有的用户身份的情况下，以编程方式将临时的用户身份分配至所述声波纹。

20.一种计算机程序产品，包括其中嵌入有计算机可用程序代码的计算机可读存储介质，所述计算机可用程序代码包括：

存储在存储介质中的计算机可用程序代码，在利用处理器来运行所述计算机可用程序代码的情况下，所述计算机可用程序代码可操作以从接近环境中的多个麦克风中的至少一个的说话者接收话语，其中所述多个麦克风是定向麦克风和全向麦克风中的至少一种，所述说话者是人员；

存储在存储介质中的计算机可用程序代码，在利用处理器来运行所述计算机可用程序代码的情况下，所述计算机可用程序代码可操作以处理所述语音以产生用以确定所述说话者的身份的话语，其中所述说话者的身份与声波纹相关联，所述身份与计算系统的用户证书相关联，所述用户证书唯一识别所述计算系统内的用户；

存储在存储介质中的计算机可用程序代码，在利用处理器来运行所述计算机可用程序代码的情况下，所述计算机可用程序代码可操作以分析所述话语以建立所述说话者存在的区域，其中所述区域是所述环境中的有界区域；以及

存储在存储介质中的计算机可用程序代码，在利用处理器来运行所述计算机可用程序代码的情况下，所述计算机可用程序代码可操作以将所述区域在所述环境中进行映射以确定所述说话者的位置，其中所述位置是相对位置和绝对位置中的至少一个。

21.根据权利要求20所述的计算机程序产品，还包括：

存储在存储介质中的计算机可用程序代码，在利用处理器来运行所述计算机可用程序代码的情况下，所述计算机可用程序代码可操作以从与所述说话者身份相关联的计算装置接收声波纹，其中所述说话者身份与计算系统的用户相关联；

存储在存储介质中的计算机可用程序代码，在利用处理器来运行所述计算机可用程序代码的情况下，所述计算机可用程序代码可操作以将所述声波纹和说话者身份存储在声波纹数据库内；

存储在存储介质中的计算机可用程序代码，在利用处理器来运行所述计算机可用程序代码的情况下，所述计算机可用程序代码可操作以随后基于与所述用户相关联的语音话语来确定所述说话者的身份，其中所述确定使所述说话者的身份与所述声波纹数据库内的声波纹相匹配；以及

存储在存储介质中的计算机可用程序代码，在利用处理器来运行所述计算机可用程序代码的情况下，所述计算机可用程序代码可操作以经由所述语音话语来建立所述说话者的位置。

22.一种计算机系统，包括：

一个或多个处理器、一个或多个计算机可读存储器以及一个或多个计算机可读的有形存储装置；

程序指令，其存储在所述一个或多个存储装置中的至少一个上，用于经由所述一个或多个存储器中的至少一个利用一个或多个处理器中的至少一个进行处理，以从接近环境中的多个麦克风中的至少一个的说话者接收语音；

程序指令，其存储在所述一个或多个存储装置中的至少一个上，用于经由所述一个或多个存储器中的至少一个利用一个或多个处理器中的至少一个进行处理，以处理所述语音以产生用以确定所述说话者的身份的话语，其中所述说话者的身份与声波纹相关联，所述身份与计算系统的用户证书相关联，其中所述用户证书唯一识别所述计算系统内的用户；

程序指令，其存储在所述一个或多个存储装置中的至少一个上，用于经由所述一个或多个存储器中的至少一个利用一个或多个处理器中的至少一个进行处理，以分析所述话语以建立所述说话者存在的区域，其中所述区域是所述环境中的有界区域；以及

程序指令，其存储在所述一个或多个存储装置中的至少一个上，用于经由所述一个或多个存储器中的至少一个利用一个或多个处理器中的至少一个进行处理，以将所述区域在所述环境中进行映射以确定所述说话者的位置。

23.根据权利要求22所述的系统，其中，所述环境中的麦克风是不与所述说话者能够携带的移动装置相关联的静止麦克风。

24.根据权利要求22所述的系统，还包括：

语音处理系统的语音引擎，被配置为确定说话者在所述环境中的位置；以及

数据存储器，用于保存用于确定所述说话者的身份的至少一个声波纹。

25.一种计算机程序产品，包括：

一个或多个计算机可读的有形存储装置；

程序指令，其存储在所述一个或多个存储装置中的至少一个上，以从接近环境中的多个麦克风中的至少一个的说话者接收语音；

程序指令，其存储在所述一个或多个存储装置中的至少一个上，以处理所述语音以产生用以确定所述说话者的身份的话语，其中所述说话者的身份与声波纹相关联，其中所述身份与计算系统的用户证书相关联，其中所述用户证书唯一识别所述计算系统内的用户，其中通过以下来确定所述身份：

I)识别声波纹数据库，其中所述声波纹数据库包括与说话者相关联的至少一个声波纹；

II)使所述说话者的话语与所述声波纹数据库内的声波纹相匹配，其中在所述匹配无法使所述说话者的话语匹配至所述声波纹数据库内的声波纹的情况下，将所述说话者身份建立为所述区域的访客；

程序指令，其存储在所述一个或多个存储装置中的至少一个上，以分析所述话语以建立所述说话者存在的区域，其中所述区域是所述环境中的有界区域；以及

程序指令，其存储在所述一个或多个存储装置中的至少一个上，以将所述区域在所述环境中进行映射以确定所述说话者的位置。