CN102985965B

CN102985965B - 声纹标识

Info

Publication number: CN102985965B
Application number: CN201180025755.1A
Authority: CN
Inventors: D·J·拉斯姆森
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2010-05-24
Filing date: 2011-05-09
Publication date: 2015-04-01
Anticipated expiration: 2031-05-09
Also published as: CN102985965A; US9691393B2; EP2577655A4; WO2011149647A3; TWI536365B; US8606579B2; EP2577655A2; TW201142823A; EP2577655B1; US20110288866A1; WO2011149647A2; US20140100849A1

Abstract

可提供声纹标识。可记录多个讲话者并将其与身份指示符相关联。可为每个讲话者创建声纹。如果根据身份指示符至少一个讲话者的声纹相对应于已知用户，可创建将用户与该声纹相关联的数据库条目。还可显示与用户相关联的附加信息。

Description

声纹标识

背景

声纹标识是用于创建声纹并根据各种指示符标识讲话者的过程。在一些情况中，这对于业务逻辑过程能够标识讲话者可能很有价值。例如，用户可进入与不熟悉的人的会议或在诸如有话筒的计算机等记录设备的范围内进行对话。在较晚的对关联于会议或对话的笔记的审阅中，知道在记下某些笔记时是谁在讲话或者能够看到示出什么人在什么时候讲话的以颜色编码的语音记录流可能很有价值。这些依赖于能够通过语音或其它手段标识人的系统，但常规系统要求人以某种方式注册他们的声纹。因为用户很忙并且不情愿参与，这些系统面临采用的障碍。

概要

提供声纹学习。提供本发明内容以便以简化的形式介绍将在以下详细描述中进一步描述的一些概念。此发明内容不旨在标识所要求保护的主题的关键特征或必要特征。本发明内容也不旨在用于限制所要求保护的主题的范围。

可提供声纹标识。可记录多个讲话者并将之与身份指示符相关联。可为每个讲话者创建声纹。如果根据身份指示符至少一个讲话者的声纹相对应于已知用户，则可创建将用户与该声纹相关联的数据库条目。还可显示与用户相关联的附加信息。

以上概括描述和以下详细描述两者都提供了示例，并且只是说明性的。因此，以上概括描述和以下详细描述不应当被认为是限制性的。此外，除了本文中所阐述的那些特征或变体以外，还可以提供其他特征或变体。例如，实施例可涉及具体实施方式中所描述的各种特征组合和子组合。

附图简述

合并在本公开中并构成其一部分的附图示出本发明的实施例。在附图中：

图1是操作环境的框图；

图2A-2C是在提供声纹标识中使用的示例表；

图3是用于提供声纹标识的方法的流程图；以及

图4是包括计算设备的系统的框图。

具体实施方式

以下详细描述参考各个附图。只要可能，就在附图和以下描述中使用相同的附图标记来指示相同或相似的元件。尽管可能描述了本发明的实施例，但修改、改编、以及其他实现是可能的。例如，可对附图中所示的元素进行置换、添加、或修改，并且可通过对所公开的方法置换、重新排序、或添加阶段来修改本文中所描述的方法。因此，以下详细描述并不限制本发明。相反，本发明的正确范围由所附权利要求书定义。

可提供声纹标识。根据发明的各实施例，讲话者可被记录并与各种环境指示符相关联。例如，用户可出席会议或在话筒的范围内进行电话呼叫。可为讲话者中的每一个生成声纹并将其与已知声纹的数据库相比较。基于已标识的讲话者，各种业务逻辑模块可提供附加功能，诸如显示来自之前会议的笔记和/或电子邮件、提供出席者的列表、和/或对会议转录本做注释以标识什么用户在什么时间讲话。环境指示符可从环境因素提取，诸如会议位置或设备标识符的在场。例如，用户的蜂窝电话可广播可与所记录的语音相关联并被用于将声纹与用户关联起来的蓝牙标识符。这些指示符和生成的声纹可由各个用户私密地存储和/或在诸如公司员工的多个用户中共享。一般而言，收集和/或共享的指示符越多，声纹和标识的用户之间的相关可变得越快和越准确。

例如，主用户可出席与该用户以前没有见过的九个其他用户的会议。主用户的声纹数据库可能不包含与为主用户和/或其他九个用户而生成的声纹相匹配的任何条目。新生成的声纹可被存储并可关联于环境指示符，诸如无线网络标识符、蓝牙标识符、会议位置和/或日历约会。

日历约会能够提供会议中的出席者的列表，使得每个声纹可与可能用户的列表相关联。其它指示符可包括主用户相关联于会议而创建的笔记和/或电子邮件。例如，主用户可发送包括来自会议的动作项的电子邮件给出席者中的三位；动作项电子邮件可与这三个出席者中的每一个相关联。随着用户与这其他九个用户的一些和/或全部这些人或这些人的子集有越来越多的会议，那么相关可允许对单个用户的隔离。

例如，三个用户中的一个可与主用户进行电话呼叫以讨论动作项电子邮件。可为该其他用户生成声纹且环境指示符（例如，呼叫者ID号）可与声纹相关联。声纹可与在较早的会议期间生成的声纹做比较且可作出进行呼叫的用户之间的相关。可将呼叫者ID号增加到关联于声纹的相关联的环境指示符的列表中。此外，呼叫者ID号可在公司目录中获得并与会议中的已知出席者中的一个相关联。这可允许对与该声纹相关联的用户的肯定标识。初始置信水平可与已标识用户的声纹相关联，该水平可随着附加指示符的收集增加。

如果声纹和它们所关联的指示符数据跨一组个体共享，则标识过程可更快地发生。例如，由于任何用户数据都产生肯定标识，组织可将声纹与每个个体相关联。可不要求用户显式地记录他们的语音，但一旦系统将一声纹标识为属于特定个体，可使得所标识的声纹对其他用户可用。然后可用所标识的声纹来帮助标识其它声纹，诸如通过将出席者的列表缩小。如果会议有三个已知出席者，其中两个有已标识的声纹，那么可将第三个用户标识为与该会议期间记录的一个未知声纹相关联。

讲话者标识系统可使用语音生物统计来标识和/或验证给定讲话者是他们说他们是的那个人。可通过将一个人的话音档案数字化从而产生存储的模型声纹或模板来使用语音生物统计。生物统计技术可将每个讲出来的词降为由数个称为共振峰的主导频率组成的段。每个段可包括数个可按照数字格式捕捉的音调。这些音调可共同地标识讲话者的独特的声纹。可以类似于存储指纹或其他生物统计数据的方式将声纹存储在数据库中。可使用各种技术来处理和存储声纹，诸如频率估计、隐马尔可夫（Markov）模型、高斯（Gaussian）混合模型、模式匹配算法、神经网络（neural network）、矩阵表示（matrix representation）、矢量量化（Vector Quantization）和/或决策树（decision tree）。有些系统还可使用反讲话者技术，诸如竞争者模型（cohort model）和世界模型。

图1是用于提供声纹标识的操作环境100的框图。操作环境100可包括事件位置105，该事件位置包括主用户设备110和多个出席者用户设备120（A)-（C)的。主用户设备110可包括以下参考图4将更详细讨论的计算设备400，并可包括记录设备，诸如话筒和/或用于记录事件中的出席者的语音和/或图像的摄像头。例如，数个同事可在诸如会议室的事件位置105出席会议。主用户设备110可记录会议并可捕捉与出席者相关联的身份指示符，诸如与出席者用户设备120（A)-(C)相关联的设备ID（例如，蓝牙和/或无线网络MAC地址）。

主用户设备110可用于将记录发送给用于为会议期间记录的每个语音生成声纹的另一个设备，诸如识别服务器140。主用户设备110还可用于自己生成声纹并将它们发送给识别服务器140。识别服务器140可用于创建和/或管理事件在场数据库150、事件出席者数据库155和/或身份指示符数据库160。可将与声纹和/或事件相关联的数据存储在这些数据库中并可周期性地将其与标识与声纹中的每一个相关联的用户相关。根据本发明的实施例，可将数据存储在单个数据库中和/或分散在多个数据库和表之上。

图2A示出示例事件在场表200。事件在场表200可包括多个行，每行包括与声纹列205、事件列210、主列215和位置列220相关联的数据。声纹列205中的数据可对应于由主用户设备110生成的声纹。事件列210中的数据可与相关联于主用户设备110的主用户所创建的日历事件标识符相关联。主列215中的数据可包括与主用户相关联的用户标识符，且位置列220中的数据可包括与事件位置105相关联的位置标识符。

图2B示出示例事件出席者表230。事件出席者表230可包括多个行，每行包括与出席者列235、时间列240和出席者声纹列245相关联的数据。事件出席者表230还可包括事件列210和主列215以作为包括与在事件在场表200中的这些列中所找到的相同的数据的索引列。出席者列235中的数据可对应于与根据日历条目与事件相关联的和/或由诸如主用户的用户手工输入的出席者的列表。时间列240中的数据可从日历事件获取和/或根据记录发生时的时间输入。出席者声纹列245中的数据可包括与出席者列235中所标识的出席者相关联的已知声纹。例如，主用户可有用户标识符“jsmith”并可有已知声纹，如第一事件出席者表行247所示。根据日历条目，已知出席者用户“cfrank”参加了事件，但还没有已标识的声纹，如第二事件出席者表行248所示。另一事件（例如，有事件标识符38405的事件）可没有相关联的日历事件，但可有三个声纹为出席者生成。声纹之一可与主用户jsmith相关联，而为其它两个声纹创建未知出席者行，如第三事件出席者表行249所示。

图2C示出示例身份指示符表250。身份指示符表250可包括多个行，每行包括与已知用户列255和指示符列260相关联的数据。身份指示符表250还可包括事件列210以作为包括与在事件在场表200的事件列210以及事件出席者列230中所找到的相同的数据的索引列。身份指示符表250可用来存储与所记录的事件相关联的、可用来标识事件中的用户和将用户匹配至声纹的环境指示符。例如，在具有事件标识符“37125”的事件期间，位置指示符、蓝牙设备ID、主用户和三个MAC地址被记录并存储在身份指示符表250中、。类似地，在具有事件标识符“38405”的事件期间，主用户、位置、MAC地址和蓝牙设备ID可被记录。

根据本发明的各实施例，可周期性地执行事件在场表200、事件出席者表230和身份指示符表250之间的相关。此相关可试图创建用户和声纹之间的唯一链接。例如，如第一指示符表行262和第二指示符表行264所示，已知MAC地址“04:33:28:29:AF:C3”与用户“cfrank”相关联并在事件“37215”和“38405”中在场。用户“cfrank”在事件“37215”中的出席可与第二事件出席者表行248相关。这可导致cfrank作为事件“38405”中未知用户中的一个的可能匹配被列在出席者列235中，诸如在事件出席者表第三行249中。根据事件在场表200，三个声纹与事件“37125”中的出席者相关联，其中的两个出席者还在事件“38405”期间在场。已知两个公共声纹中的一个属于主用户“jsmith”。因此，相关可确定另一个共同的声纹应与用户“cfrank”相关联。此外，此相关可允许事件“37215”中的第三个声纹的标识与该会议中的唯一一个其他出席者用户“bjones”相关联。此数据可在事件出席者表230中更新而且涉及用户“cfrank”和/或“bjones”的声纹的将来的记录可立即与这些用户相关联。本发明的其它实施例可使用不同的表结构来完成类似的相关。

图3是阐明根据本发明用于提供声纹标识的实施例的方法300中涉及的各一般阶段的流程图。方法300可使用计算设备400来实现，这将在下面参考图4予以更详细描述。在下文中将更详细地描述实现方法300的各阶段的方式。方法300可开始于起始框305并继续至阶段310，在那里计算设备400可记录语音流。例如，主用户设备110可包括用于在会议期间记录语音和/或图像的话筒和/或摄像头。主用户设备110还可用于收集环境身份指示符，诸如与诸如出席者用户设备120(A)-(C)的无线设备相关联的蓝牙设备ID和/或MAC地址。

方法300可从阶段310前进至阶段315，在那里计算设备400可为所记录的语音中的每一个生成声纹。例如，主用户设备110可使用语音生物统计来将用户的话音档案数字化以生成存储的模型声纹。

在计算设备400在阶段315生成声纹以后，方法300可继续至阶段320，在那里计算设备400可确定声纹中的任何一个是否与已知用户匹配。例如，主用户设备110可在已知用户数据库中查找声纹以确定该声纹是否与主用户的组织中的另一个用户相关联。

如果在阶段320确定了声纹与已知用户匹配，方法300可前进至阶段325，在那里计算设备400可显示与已知用户相关联的信息元素。例如，主用户可在与第二用户的电话呼叫中。第二用户的声纹可与主用户的工作团队同事相匹配并且主用户设备110可显示从第二用户处接收的近期电子邮件的列表。然后方法300可为其他用户重复或在阶段330结束。

如果在阶段320声纹未与已知用户匹配，则方法300可前进至阶段335，在那里计算设备400可创建在场表中的条目。例如，主用户设备110可创建事件出席表200中的条目，包括声纹、事件标识符、主标识符（例如，与主用户设备110相关联的用户）和/或记录发生的位置。

方法300可以从阶段335前进到阶段340，在那里计算设备400可创建出席者表中的条目。例如，主用户设备110可创建事件出席者表230中的条目，包括事件标识符、主标识符、至少一个预期的出席者、记录发生的时间和/或至少一个预期出席者的已知声纹。已知声纹可从包括用户标识符和已验证的声纹（例如，包括唯一用户的标识中的足够置信度的声纹）之间的关联的已知用户数据库中提取。

方法300可从阶段340前进至阶段345，在那里计算设备400可将在场和出席者表中的条目相关。例如，主用户设备110可确定给定声纹是否在不同会议中出现并将该声纹与不同会议之间的共同出席者匹配。在一个场景中，第一个会议可由用户1、用户2、用户3和用户4出席，产生四个声纹，称为A、B、C和D。第二个会议可由用户1、用户3和用户5出席，产生三个声纹，称为A、C和E。计算设备400可由此将声纹A和C与用户1和用户3相关，尽管还需要更多数据来唯一地标识声纹A和C中的哪一个匹配用户1和用户3中的哪一个。

类似地，技术设备400可将声纹、身份指示符和预期出席者相关起来。在以上的场景中，可标识四个诸如蓝牙设备标识符和/或无线设备MAC地址的身份指示符并将其与第一个会议的四个声纹（A、B、C和D）中的每一个相关联。在第二个会议中，可标识三个身份指示符并将其与在场的三个声纹（A、C和E）相关联。如果来自第一个会议的四个身份指示符中的任何一个也在第二个会议的三个身份指示符中出现，则共同身份指示符可只与共同声纹（A和C）相关联，同时不同的指示符可与不同的声纹（第一个会议中的B和D以及第二个会议中的E）相关联。

当越来越多的数据可用时可缩小身份指示符的范围，直至计算设备400可唯一地标识与声纹和/或身份指示符相关联的用户。例如，主用户设备110可将蓝牙设备ID与该设备的主用户和/或该主用户的声纹相关联，方式为通过从其中只有该用户的语音出现的记录（例如，只记录电话呼叫的该主用户端）生成用户的声纹。其他身份指示符可通过阶段345的相关与指定用户相关联，诸如已知声纹与在会议中出现的某个指示符相关联，而与会议相关联的日历条目提供会议中出席者用户的列表。出席者用户的列表提供可能用户的初始列表以匹配可通过附加数据的相关而缩小至唯一用户的声纹/设备标识符对。

方法300可以从阶段345前进至阶段350，在那里计算设备400可在已知用户数据库和/或表中创建新的已知用户条目。例如，一旦主用户设备110将特定用户与声纹和/或身份指示符相关，它就可将该数据存储在数据库表和/或其它存储介质中。于是下一次声纹和/或身份指示符被主用户设备110遇到时，该数据可被访问并可用来显示相关信息，如以上参考阶段325所描述的。一旦计算设备400在阶段350中创建了已知用户条目，方法300然后就可在阶段330处结束。

根据本发明的一个实施例可包括用于提供声纹标识的系统。系统可包括存储器存储以及耦合到该存储器存储的处理单元。处理单元可用于记录事件中的多个讲话者、将所记录的多个讲话者中的每一个与至少一个身份指示符相关联、创建多个声纹（每个都与所记录的多个讲话者中的至少一个相关联）、并根据至少一个身份指示符确定多个声纹中是否至少有一个对应于一用户。如果是，处理单元可用于创建与用户相关联的、包括相对应的多个声纹中的至少一个的数据库条目，和/或显示与用户相关联的至少一个信息元素。

所使用的身份指示符可包括，例如，记录的位置、记录的时间、呼叫者ID、设备标识符、主用户、与事件相关联的日历条目、记录的图像和语音转文本段。所显示的信息元素可包括，例如，与相对应的用户之前的会议的列表、与相对应的用户相关联的联系信息、与相对应的用户相关联的电子邮件、与相对应的用户相关联的文档和与相对应的用户相关联的社交网络信息。

处理单元可用于创建、更新、删除和/或修改多个表和/或存储设备中的数据库条目，以跟踪身份指示符并将声纹与用户相关联。例如，处理单元可用于创建包括多个讲话者中的每一个的声纹和事件标识符的事件在场数据库条目、包括与事件相关联的事件标识符和事件中的用户列表的事件出席者数据库条目、和/或包括事件标识符和与所记录的多个讲话者中的每一个相关联的至少一个身份指示符的身份指示符数据库条目。然后处理单元可用于将来自数据库的条目相关，并根据相关的条目确定多个声纹中的一个是否与唯一用户相关联。

处理单元还可用于确定多个声纹中的一个与少于阀值数量的可能用户相关联（例如，缩小可与声纹相关联的可能用户）。阀值数量可在系统和/或逐用户的基础上配置。如果是，处理单元可向主用户显示请求以从可能用户中选择哪个用户应该与该声纹相关联。例如，处理单元可回放与声纹相关联的所记录的语音的样本并显示三个可能用户的列表以供主用户选择。

根据本发明的另一个实施例可包括用于提供声纹标识的系统。系统可包括存储器存储以及耦合到该存储器存储的处理单元。处理单元可用于从事件记录生成多个声纹（每个都与事件中的出席者相关联）、为多个声纹中的至少一个创建新事件在场数据库条目、并确定多个声纹中的至少一个是否与至少一个之前的事件在场数据库条目相关联。如果是，处理单元可用于将与至少一个之前的事件在场数据库条目相关联的身份指示符和与新事件在场数据库条目相关联的身份指示符相关、确定相关的身份指示符是否唯一地标识与多个声纹中的至少一个相关联的用户、并且如果是则显示与所唯一地标识的用户相关联的至少一个信息元素。处理单元可用于为所唯一地标识的用户分配置信度值。置信度值可随着相关的身份指示符的数量增加而增加。事件在场数据库中的条目可全部与相同的主用户相关联和/或与不同的主用户相关联，其中主用户可包括操作用来记录语音的设备的用户。例如，多个主用户可包括单个组织内的不同用户。

处理单元还可用于确定记录的位置是否不与所唯一标识的用户相关联。如果是，并且来自事件的其它声纹之一不是所唯一标识的用户的声纹，则处理单元可确定记录的位置是否与单个用户相关联并且，如果是，则将其它声纹与该单个用户相关联。例如，如果两个人之间的记录发生在用户所分配到的办公室，那么作为对办公室的访问者的那个用户可为所唯一标识的用户。在此情况中，办公室所属于的用户可与另一个声纹相关联。

根据本发明的又一个实施例可包括用于提供声纹标识的系统。系统可包括存储器存储以及耦合到该存储器存储的处理单元。处理单元可用于通过耦合于系统的话筒记录与事件相关联的语音流、隔离与该语音流相关联的多个讲话者、生成多个声纹（每个都与同该语音流相关联的多个讲话者中的一个相关联）、并确定至少一个声纹是否与已知用户相关联。如果是，则处理单元可用于显示与已知用户相关联的至少一个信息元素。否则，处理单元可用于创建在场数据库中的在场条目、创建出席者数据库中的出席者条目、周期性地将在场数据库中的多个在场条目与出席者数据库中的多个出席者条目相关、并根据多个在场条目和多个邻近条目的周期性的相关创建包括至少一个声纹的、已知用户数据库中的新已知用户条目。

图4是包括计算设备400的系统的框图。按照本发明的一实施例，上述存储器存储和处理单元可在诸如图4的计算设备400之类的计算设备中实现。可使用硬件、软件或固件的任何合适的组合来实现存储器存储和处理单元。例如，存储器存储和处理单元可用计算设备400或结合计算设备400的其他计算设备418中的任一个来实现。根据本发明的实施例，上述系统、设备和处理器是示例，而其他系统、设备和处理器可包括上述存储器存储和处理单元。此外，计算设备400可包括如上所述的操作环境100。

参考图4，根据本发明的一实施例的系统可包括诸如计算设备400的计算设备。在基本配置中，计算设备400可包括至少一个处理单元402和系统存储器404。取决于计算设备的配置和类型，系统存储器404可包括，但不限于，易失性存储器（例如，随机存取存储器（RAM））、非易失性存储器（例如，只读存储器（ROM））、闪存、或任何组合。系统存储器404可包括操作系统405、一个或多个编程模块406，并可包括声纹生成器407。例如，操作系统405可适用于控制计算设备400的操作。在一个实施例中,编程模块406可包括可用于分析记录的语音并创建声纹签名的声纹生成器407.此外，本发明的实施例可结合图形库、其他操作系统、或任何其他应用程序来实践，并且不限于任何特定应用或系统。该基本配置在图4中由虚线408内的那些组件示出。

计算设备400可具有附加特征或功能。例如，计算设备400还可包括附加数据存储设备（可移动和/或不可移动），诸如例如，磁盘、光盘、或磁带。这些附加存储在图4中由可移动存储409和不可移动存储410示出。计算设备400还可包含可允许设备400诸如通过分布式计算环境中的网络（例如，内联网或因特网）来与其他计算设备418进行通信的通信连接416。通信连接416是通信介质的一个示例。

本文所使用的术语计算机可读介质可包括计算机存储介质。计算机存储介质可包括以用于存储诸如计算机可读指令、数据结构、程序模块、或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。系统存储器404、可移动存储409和不可移动存储410都是计算机存储介质（即，存储器存储）的示例。计算机存储介质可包括，但不限于，RAM、ROM、电可擦除只读存储器（EEPROM）、闪存或其他存储器技术、CD-ROM、数字多功能盘（DVD）或其他光存储、磁带盒、磁带、磁盘存储或其他磁性存储设备、或者可用于存储信息且可由计算设备400访问的任何其他介质。任何这样的计算机存储介质都可以是设备400的一部分。计算设备400还可以具有输入设备412，如键盘、鼠标、笔、声音输入设备、触摸输入设备等。还可包括诸如显示器、扬声器、打印机等输出设备414。上述设备是示例，并且可使用其他设备。

本文所使用的术语计算机可读介质还可包括通信介质。通信媒介可由诸如载波或其他传输机制的已调制数据信号中的计算机可读指令、数据结构、程序模块、或其他数据来体现，并且包括任何信息传递介质。术语“已调制数据信号”可以描述以对该信号中的信息进行编码的方式设定或者改变其一个或多个特征的信号。作为示例而非限制，通信介质包括诸如有线网络或直接线连接等有线介质，以及诸如声学、射频（RF）、红外线和其他无线介质等无线介质。

如上所述，可在系统存储器404中存储包括操作系统405在内的多个程序模块和数据文件。当在处理单元402上执行时，编程模块406（例如，声纹生成器407）可执行各过程，包括例如，如上所述的方法300的各阶段中的一个或多个。上述过程是一个示例，且处理单元402可执行其他过程。根据本发明的实施例可使用的其他编程模块可包括电子邮件和联系人应用、文字处理应用、电子表格应用、数据库应用、幻灯片演示应用、绘图或计算机辅助应用程序等。

一般而言，根据本发明的实施例，程序模块可包括可执行特定任务或可实现特定抽象数据类型的例程、程序、组件、数据结构和其他类型的结构。此外，本发明的实施例可用其他计算机系统配置来实践，包括手持式设备、多处理器系统、基于微处理器的系统或可编程消费电子产品、小型机、大型计算机等。本发明的实施例还可在其中任务由通过通信网络链接的远程处理设备执行的分布式计算环境中实践。在分布式计算环境中，程序模块可位于本地和远程存储器存储设备两者中。

此外，本发明的实施例可在包括分立电子元件的电路、包含逻辑门的封装或集成电子芯片、利用微处理器的电路、或在包含电子元件或微处理器的单个芯片上实践。本发明的实施例还可使用能够执行诸如例如，AND（与）、OR（或）和NOT（非）的逻辑运算的其他技术来实践，包括但不限于，机械、光学、流体和量子技术。另外，本发明的实施例可在通用计算机或任何其他电路或系统中实践。

例如，本发明的实施例可被实现为计算机过程（方法）、计算系统、或诸如计算机程序产品或计算机可读介质之类的制品。计算机程序产品可以是计算机系统可读并对用于执行计算机过程的指令的计算机程序编码的计算机存储介质。计算机程序产品还可以是计算系统可读并对用于执行计算机过程的指令的计算机程序编码的载体上的传播信号。因此，本发明可以硬件和/或软件（包括固件、常驻软件、微码等）来体现。换言之，本发明的实施例可采用其上包含有供指令执行系统使用或结合其使用的计算机可使用或计算机可读程序代码的计算机可使用或计算机可读存储介质上的计算机程序产品的形式。计算机可使用或计算机可读介质可以是可包含、存储、通信、传播、或传输程序以供指令执行系统、装置或设备使用或结合其使用的任何介质。

计算机可使用或计算机可读介质例如可以是、但不限于电、磁、光、电磁、红外、或半导体系统、装置、设备或传播介质。更具体的计算机可读介质示例（非穷尽列表），计算机可读介质可包括以下:具有一条或多条导线的电连接、便携式计算机盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或闪存）、光纤、以及便携式压缩盘只读存储器（CD-ROM）。注意，计算机可使用或计算机可读介质甚至可以是其上打印有程序的纸张或另一合适的介质，因为程序可经由例如对纸张或其他介质的光学扫描而电子地捕获，随后如有必要被编译、解释、或以其他合适的方式处理，并且随后存储在计算机存储器中。

以上参考例如根据本发明的实施例的方法、系统和计算机程序产品的框图和/或操作示图描述了本发明的实施例。框中所注明的各功能/动作可按不同于任何流程图所示的次序出现。例如，取决于所涉及的功能/动作，连续示出的两个框实际上可基本同时执行，或者这些框有时可按相反的次序执行。

尽管已描述了本发明的特定实施例，但也可能存在其他实施例。此外，虽然本发明的实施例被描述为与存储在存储器和其他存储介质中的数据相关联，但是数据还可被存储在其他类型的计算机可读介质上或从其读取，诸如辅助存储设备（像硬盘、软盘、或CD-ROM）、来自因特网的载波、或其他形式的RAM或ROM。此外，所公开的方法的各步骤可以任何方式修改，包括通过对各步骤重新排序和/或插入或删除步骤，而不背离本发明。

包括此处所包括的代码中的版权在内的所有权利都归属于申请人并且是本申请人的财产。本申请人保持并保留此处所包括的代码中的所有权利，并且授予仅关于所授权专利的再现且未出于其他目的再现该材料的许可。

尽管本说明书包括示例，但本发明的范围由所附权利要求书来指示。此外，尽管用对结构特征和/或方法动作专用的语言描述了本说明书，但权利要求书并不限于以上所描述的特征或动作。相反，以上所描述的特定特征和动作是作为本发明的实施例的示例来公开的。

Claims

1.一种用于提供声纹标识的方法，所述方法包括：

记录事件中的多个讲话者；

将所记录的多个讲话者中的每一个与至少一个身份指示符相关联；

生成多个声纹，每个都与所记录的多个讲话者中的至少一个相关联；

根据至少一个身份指示符，确定所述多个声纹中的至少一个是否对应于用户，包括：将多个讲话者数据库条目、多个事件数据库条目和多个标识符数据库条目相关，并根据所述相关的多个讲话者数据库条目、多个事件数据库条目和多个标识符数据库条目确定所述多个声纹中的所述至少一个是否与唯一用户相关联，并：

响应于确定所述多个声纹中的所述至少一个对应于所述用户：创建包括相对应的所述多个声纹中的至少一个的、与所述用户相关联的数据库条目，以及显示与所述用户相关联的至少一个信息元素；以及

响应于确定所述多个声纹中的任何一个不对应于所述用户：为所述多个讲话者中的每一个创建事件在场数据库条目，其中每个数据库条目包括与所述多个讲话者中的每一个相关联的声纹和与所述事件相关联的事件标识符；创建包括与所述事件相关联的所述事件标识符和所述事件中的用户列表的事件出席者数据库条目；创建包括所述事件标识符和与所记录的多个讲话者中的每一个相关联的所述至少一个身份指示符的身份指示符数据库条目；确定所述多个声纹中的所述至少一个是否与少于阀值数量的可能用户相关联，并响应于确定所述多个声纹中的所述至少一个与多个可能用户中的少于阀值数量个用户相关联：向主用户显示请求以将所述多个声纹中的所述至少一个与来自所述多个可能用户中的所述唯一用户相关联。

2.如权利要求1所述的方法，其特征在于，所述至少一个身份指示符包括以下中的至少一个：所述记录的位置、所述记录的时间、呼叫者ID、设备、标识符、主用户、与所述事件相关联的日历条目、所记录的图像和语音转文本段。

3.如权利要求1所述的方法，其特征在于，所述至少一个信息元素包括以下中的至少一个：与相对应的用户之前的会议的列表、与所述相对应的用户相关联的联系信息、与所述相对应的用户相关联的电子邮件、与所述相对应的用户相关联的文档以及与所述相对应的用户相关联的社交网络信息。

4.一种用于提供声纹标识的方法，所述方法包括：

从事件记录生成多个声纹，其中所述多个声纹中的每一个与所述事件中的出席者相关联；

为所述多个声纹中的至少一个创建新事件在场数据库条目，其中所述新事件在场数据库条目包括所述多个声纹中的所述至少一个、与所述事件相关联的事件标识符以及与所述事件相关联的身份指示符；

确定所述多个声纹中的所述至少一个是否与至少一个之前的事件在场数据库条目相关联；以及

响应于确定所述多个声纹中的所述至少一个与所述至少一个之前的事件在场数据库条目相关联：

将与所述至少一个之前的事件在场数据库条目相关联的所述身份指示符与同所述新事件在场数据库条目相关联的所述身份指示符相关，

确定所述相关的身份指示符是否唯一地标识与所述多个声纹中的所述至少一个相关联的用户，以及

响应于确定所述相关的身份指示符是否唯一地标识与所述多个声纹中的所述至少一个相关联的所述用户，显示与所唯一地标识的用户相关联的至少一个信息元素；

为所述唯一地标识的用户分配置信度值；

确定与当前讲话者相关联的声纹和与所述当前讲话者相关联的身份指示符是否匹配与所述唯一地标识的用户相关联的所述声纹和所述身份指示符，以及

响应于确定与所述当前讲话者相关联的所述声纹和与所述当前讲话者相关联的所述身份指示符匹配与所述唯一地标识的用户相关联的所述声纹和所述身份指示符，增加与所述标识的用户相关联的所述置信度值。

5.如权利要求4所述的方法，其特征在于，所述新事件在场数据库条目和所述至少一个之前的事件在场数据库条目各自与以下中的至少一个相关联：单个主用户和不同的主用户，其中所述身份指示符包括以下中的至少一个：所述记录的位置、所述记录的时间、呼叫者ID、设备、标识符、主用户、与所述事件相关联的日历条目、所记录的图像和语音转文本段。

6.一种用于提供声纹标识的系统，所述系统包括：

存储器存储；以及

耦合到所述存储器存储的处理单元，其中所述处理单元用于：

通过耦合到所述系统的话筒记录与事件相关联的语音流,

隔离与所述语音流相关联的多个讲话者,

生成多个声纹，每个都与同所述语音流相关联的所述多个讲话者中的一个相关联,

确定至少一个声纹是否与已知用户相关联，其中用于确定所述至少一个声纹是否与所述已知用户相关联包括：用于确定包括与组织相关联的多个用户的已知用户数据库中的已知用户条目是否包括所述至少一个声纹,

响应于确定所述至少一个声纹与已知用户相关联，显示与所述已知用户相关联的至少一个信息元素，其中所述至少一个信息元素包括以下中的至少一个：与所述已知用户相关联的电子邮件、与至少一个与所述已知用户之前的会议相关联的文档、所述已知用户的讲话者标识和与所述已知用户相关联的联系数据,

响应于确定所述至少一个声纹不与已知用户相关联：

创建在场数据库中的在场条目，包括所述至少一个声纹、与所记录的语音流相关联的位置、与所记录的语音流相关联的时间、设备、与所述系统相关联的标识符、与所述系统相关联的主用户标识符和与所记录的语音流相关联的至少一个环境指示符，以及

创建出席者数据库中的出席者条目，包括与所述系统相关联的所述主用户标识符、与同所述事件相关联的日历条目相关联的事件标识符、与所述事件相关联的开始时间、与所述事件相关联的结束事件和与所述事件相关联的至少一个预期用户,

周期性地将所述在场数据库中的多个在场条目与所述出席者数据库中的多个出席者条目相关，其中所述多个在场条目和所述多个出席者条目与同所述组织相关联的所述多个用户相关联，以及

根据对所述多个在场条目和所述多个出席者条目的所述周期性相关，创建包括所述至少一个声纹的、所述已知用户数据库中的新已知用户条目。