CN102985965B - 声纹标识 - Google Patents
声纹标识 Download PDFInfo
- Publication number
- CN102985965B CN102985965B CN201180025755.1A CN201180025755A CN102985965B CN 102985965 B CN102985965 B CN 102985965B CN 201180025755 A CN201180025755 A CN 201180025755A CN 102985965 B CN102985965 B CN 102985965B
- Authority
- CN
- China
- Prior art keywords
- vocal print
- user
- event
- entry
- attendant
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000001755 vocal effect Effects 0.000 claims description 140
- 238000000034 method Methods 0.000 claims description 45
- 230000007613 environmental effect Effects 0.000 claims description 8
- 238000003860 storage Methods 0.000 description 30
- 238000010586 diagram Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 10
- 230000009471 action Effects 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000002596 correlated effect Effects 0.000 description 6
- 230000000875 corresponding effect Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 230000005291 magnetic effect Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000013011 mating Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000008521 reorganization Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/109—Time management, e.g. calendars, reminders, meetings or time accounting
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/02—Details
- H04L12/16—Arrangements for providing special services to substations
- H04L12/18—Arrangements for providing special services to substations for broadcast or conference, e.g. multicast
- H04L12/1813—Arrangements for providing special services to substations for broadcast or conference, e.g. multicast for computer conferences, e.g. chat rooms
- H04L12/1831—Tracking arrangements for later retrieval, e.g. recording contents, participants activities or behavior, network status
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06311—Scheduling, planning or task assignment for a person or group
- G06Q10/063114—Status monitoring or status determination for a person or group
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/10—Multimodal systems, i.e. based on the integration of multiple recognition engines or fusion of expert systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Business, Economics & Management (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Economics (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Facsimiles In General (AREA)
- Accessory Devices And Overall Control Thereof (AREA)
Abstract
可提供声纹标识。可记录多个讲话者并将其与身份指示符相关联。可为每个讲话者创建声纹。如果根据身份指示符至少一个讲话者的声纹相对应于已知用户,可创建将用户与该声纹相关联的数据库条目。还可显示与用户相关联的附加信息。
Description
背景
声纹标识是用于创建声纹并根据各种指示符标识讲话者的过程。在一些情况中,这对于业务逻辑过程能够标识讲话者可能很有价值。例如,用户可进入与不熟悉的人的会议或在诸如有话筒的计算机等记录设备的范围内进行对话。在较晚的对关联于会议或对话的笔记的审阅中,知道在记下某些笔记时是谁在讲话或者能够看到示出什么人在什么时候讲话的以颜色编码的语音记录流可能很有价值。这些依赖于能够通过语音或其它手段标识人的系统,但常规系统要求人以某种方式注册他们的声纹。因为用户很忙并且不情愿参与,这些系统面临采用的障碍。
概要
提供声纹学习。提供本发明内容以便以简化的形式介绍将在以下详细描述中进一步描述的一些概念。此发明内容不旨在标识所要求保护的主题的关键特征或必要特征。本发明内容也不旨在用于限制所要求保护的主题的范围。
可提供声纹标识。可记录多个讲话者并将之与身份指示符相关联。可为每个讲话者创建声纹。如果根据身份指示符至少一个讲话者的声纹相对应于已知用户,则可创建将用户与该声纹相关联的数据库条目。还可显示与用户相关联的附加信息。
以上概括描述和以下详细描述两者都提供了示例,并且只是说明性的。因此,以上概括描述和以下详细描述不应当被认为是限制性的。此外,除了本文中所阐述的那些特征或变体以外,还可以提供其他特征或变体。例如,实施例可涉及具体实施方式中所描述的各种特征组合和子组合。
附图简述
合并在本公开中并构成其一部分的附图示出本发明的实施例。在附图中:
图1是操作环境的框图;
图2A-2C是在提供声纹标识中使用的示例表;
图3是用于提供声纹标识的方法的流程图;以及
图4是包括计算设备的系统的框图。
具体实施方式
以下详细描述参考各个附图。只要可能,就在附图和以下描述中使用相同的附图标记来指示相同或相似的元件。尽管可能描述了本发明的实施例,但修改、改编、以及其他实现是可能的。例如,可对附图中所示的元素进行置换、添加、或修改,并且可通过对所公开的方法置换、重新排序、或添加阶段来修改本文中所描述的方法。因此,以下详细描述并不限制本发明。相反,本发明的正确范围由所附权利要求书定义。
可提供声纹标识。根据发明的各实施例,讲话者可被记录并与各种环境指示符相关联。例如,用户可出席会议或在话筒的范围内进行电话呼叫。可为讲话者中的每一个生成声纹并将其与已知声纹的数据库相比较。基于已标识的讲话者,各种业务逻辑模块可提供附加功能,诸如显示来自之前会议的笔记和/或电子邮件、提供出席者的列表、和/或对会议转录本做注释以标识什么用户在什么时间讲话。环境指示符可从环境因素提取,诸如会议位置或设备标识符的在场。例如,用户的蜂窝电话可广播可与所记录的语音相关联并被用于将声纹与用户关联起来的蓝牙标识符。这些指示符和生成的声纹可由各个用户私密地存储和/或在诸如公司员工的多个用户中共享。一般而言,收集和/或共享的指示符越多,声纹和标识的用户之间的相关可变得越快和越准确。
例如,主用户可出席与该用户以前没有见过的九个其他用户的会议。主用户的声纹数据库可能不包含与为主用户和/或其他九个用户而生成的声纹相匹配的任何条目。新生成的声纹可被存储并可关联于环境指示符,诸如无线网络标识符、蓝牙标识符、会议位置和/或日历约会。
日历约会能够提供会议中的出席者的列表,使得每个声纹可与可能用户的列表相关联。其它指示符可包括主用户相关联于会议而创建的笔记和/或电子邮件。例如,主用户可发送包括来自会议的动作项的电子邮件给出席者中的三位;动作项电子邮件可与这三个出席者中的每一个相关联。随着用户与这其他九个用户的一些和/或全部这些人或这些人的子集有越来越多的会议,那么相关可允许对单个用户的隔离。
例如,三个用户中的一个可与主用户进行电话呼叫以讨论动作项电子邮件。可为该其他用户生成声纹且环境指示符(例如,呼叫者ID号)可与声纹相关联。声纹可与在较早的会议期间生成的声纹做比较且可作出进行呼叫的用户之间的相关。可将呼叫者ID号增加到关联于声纹的相关联的环境指示符的列表中。此外,呼叫者ID号可在公司目录中获得并与会议中的已知出席者中的一个相关联。这可允许对与该声纹相关联的用户的肯定标识。初始置信水平可与已标识用户的声纹相关联,该水平可随着附加指示符的收集增加。
如果声纹和它们所关联的指示符数据跨一组个体共享,则标识过程可更快地发生。例如,由于任何用户数据都产生肯定标识,组织可将声纹与每个个体相关联。可不要求用户显式地记录他们的语音,但一旦系统将一声纹标识为属于特定个体,可使得所标识的声纹对其他用户可用。然后可用所标识的声纹来帮助标识其它声纹,诸如通过将出席者的列表缩小。如果会议有三个已知出席者,其中两个有已标识的声纹,那么可将第三个用户标识为与该会议期间记录的一个未知声纹相关联。
讲话者标识系统可使用语音生物统计来标识和/或验证给定讲话者是他们说他们是的那个人。可通过将一个人的话音档案数字化从而产生存储的模型声纹或模板来使用语音生物统计。生物统计技术可将每个讲出来的词降为由数个称为共振峰的主导频率组成的段。每个段可包括数个可按照数字格式捕捉的音调。这些音调可共同地标识讲话者的独特的声纹。可以类似于存储指纹或其他生物统计数据的方式将声纹存储在数据库中。可使用各种技术来处理和存储声纹,诸如频率估计、隐马尔可夫(Markov)模型、高斯(Gaussian)混合模型、模式匹配算法、神经网络(neural network)、矩阵表示(matrix representation)、矢量量化(Vector Quantization)和/或决策树(decision tree)。有些系统还可使用反讲话者技术,诸如竞争者模型(cohort model)和世界模型。
图1是用于提供声纹标识的操作环境100的框图。操作环境100可包括事件位置105,该事件位置包括主用户设备110和多个出席者用户设备120(A)-(C)的。主用户设备110可包括以下参考图4将更详细讨论的计算设备400,并可包括记录设备,诸如话筒和/或用于记录事件中的出席者的语音和/或图像的摄像头。例如,数个同事可在诸如会议室的事件位置105出席会议。主用户设备110可记录会议并可捕捉与出席者相关联的身份指示符,诸如与出席者用户设备120(A)-(C)相关联的设备ID(例如,蓝牙和/或无线网络MAC地址)。
主用户设备110可用于将记录发送给用于为会议期间记录的每个语音生成声纹的另一个设备,诸如识别服务器140。主用户设备110还可用于自己生成声纹并将它们发送给识别服务器140。识别服务器140可用于创建和/或管理事件在场数据库150、事件出席者数据库155和/或身份指示符数据库160。可将与声纹和/或事件相关联的数据存储在这些数据库中并可周期性地将其与标识与声纹中的每一个相关联的用户相关。根据本发明的实施例,可将数据存储在单个数据库中和/或分散在多个数据库和表之上。
图2A示出示例事件在场表200。事件在场表200可包括多个行,每行包括与声纹列205、事件列210、主列215和位置列220相关联的数据。声纹列205中的数据可对应于由主用户设备110生成的声纹。事件列210中的数据可与相关联于主用户设备110的主用户所创建的日历事件标识符相关联。主列215中的数据可包括与主用户相关联的用户标识符,且位置列220中的数据可包括与事件位置105相关联的位置标识符。
图2B示出示例事件出席者表230。事件出席者表230可包括多个行,每行包括与出席者列235、时间列240和出席者声纹列245相关联的数据。事件出席者表230还可包括事件列210和主列215以作为包括与在事件在场表200中的这些列中所找到的相同的数据的索引列。出席者列235中的数据可对应于与根据日历条目与事件相关联的和/或由诸如主用户的用户手工输入的出席者的列表。时间列240中的数据可从日历事件获取和/或根据记录发生时的时间输入。出席者声纹列245中的数据可包括与出席者列235中所标识的出席者相关联的已知声纹。例如,主用户可有用户标识符“jsmith”并可有已知声纹,如第一事件出席者表行247所示。根据日历条目,已知出席者用户“cfrank”参加了事件,但还没有已标识的声纹,如第二事件出席者表行248所示。另一事件(例如,有事件标识符38405的事件)可没有相关联的日历事件,但可有三个声纹为出席者生成。声纹之一可与主用户jsmith相关联,而为其它两个声纹创建未知出席者行,如第三事件出席者表行249所示。
图2C示出示例身份指示符表250。身份指示符表250可包括多个行,每行包括与已知用户列255和指示符列260相关联的数据。身份指示符表250还可包括事件列210以作为包括与在事件在场表200的事件列210以及事件出席者列230中所找到的相同的数据的索引列。身份指示符表250可用来存储与所记录的事件相关联的、可用来标识事件中的用户和将用户匹配至声纹的环境指示符。例如,在具有事件标识符“37125”的事件期间,位置指示符、蓝牙设备ID、主用户和三个MAC地址被记录并存储在身份指示符表250中、。类似地,在具有事件标识符“38405”的事件期间,主用户、位置、MAC地址和蓝牙设备ID可被记录。
根据本发明的各实施例,可周期性地执行事件在场表200、事件出席者表230和身份指示符表250之间的相关。此相关可试图创建用户和声纹之间的唯一链接。例如,如第一指示符表行262和第二指示符表行264所示,已知MAC地址“04:33:28:29:AF:C3”与用户“cfrank”相关联并在事件“37215”和“38405”中在场。用户“cfrank”在事件“37215”中的出席可与第二事件出席者表行248相关。这可导致cfrank作为事件“38405”中未知用户中的一个的可能匹配被列在出席者列235中,诸如在事件出席者表第三行249中。根据事件在场表200,三个声纹与事件“37125”中的出席者相关联,其中的两个出席者还在事件“38405”期间在场。已知两个公共声纹中的一个属于主用户“jsmith”。因此,相关可确定另一个共同的声纹应与用户“cfrank”相关联。此外,此相关可允许事件“37215”中的第三个声纹的标识与该会议中的唯一一个其他出席者用户“bjones”相关联。此数据可在事件出席者表230中更新而且涉及用户“cfrank”和/或“bjones”的声纹的将来的记录可立即与这些用户相关联。本发明的其它实施例可使用不同的表结构来完成类似的相关。
图3是阐明根据本发明用于提供声纹标识的实施例的方法300中涉及的各一般阶段的流程图。方法300可使用计算设备400来实现,这将在下面参考图4予以更详细描述。在下文中将更详细地描述实现方法300的各阶段的方式。方法300可开始于起始框305并继续至阶段310,在那里计算设备400可记录语音流。例如,主用户设备110可包括用于在会议期间记录语音和/或图像的话筒和/或摄像头。主用户设备110还可用于收集环境身份指示符,诸如与诸如出席者用户设备120(A)-(C)的无线设备相关联的蓝牙设备ID和/或MAC地址。
方法300可从阶段310前进至阶段315,在那里计算设备400可为所记录的语音中的每一个生成声纹。例如,主用户设备110可使用语音生物统计来将用户的话音档案数字化以生成存储的模型声纹。
在计算设备400在阶段315生成声纹以后,方法300可继续至阶段320,在那里计算设备400可确定声纹中的任何一个是否与已知用户匹配。例如,主用户设备110可在已知用户数据库中查找声纹以确定该声纹是否与主用户的组织中的另一个用户相关联。
如果在阶段320确定了声纹与已知用户匹配,方法300可前进至阶段325,在那里计算设备400可显示与已知用户相关联的信息元素。例如,主用户可在与第二用户的电话呼叫中。第二用户的声纹可与主用户的工作团队同事相匹配并且主用户设备110可显示从第二用户处接收的近期电子邮件的列表。然后方法300可为其他用户重复或在阶段330结束。
如果在阶段320声纹未与已知用户匹配,则方法300可前进至阶段335,在那里计算设备400可创建在场表中的条目。例如,主用户设备110可创建事件出席表200中的条目,包括声纹、事件标识符、主标识符(例如,与主用户设备110相关联的用户)和/或记录发生的位置。
方法300可以从阶段335前进到阶段340,在那里计算设备400可创建出席者表中的条目。例如,主用户设备110可创建事件出席者表230中的条目,包括事件标识符、主标识符、至少一个预期的出席者、记录发生的时间和/或至少一个预期出席者的已知声纹。已知声纹可从包括用户标识符和已验证的声纹(例如,包括唯一用户的标识中的足够置信度的声纹)之间的关联的已知用户数据库中提取。
方法300可从阶段340前进至阶段345,在那里计算设备400可将在场和出席者表中的条目相关。例如,主用户设备110可确定给定声纹是否在不同会议中出现并将该声纹与不同会议之间的共同出席者匹配。在一个场景中,第一个会议可由用户1、用户2、用户3和用户4出席,产生四个声纹,称为A、B、C和D。第二个会议可由用户1、用户3和用户5出席,产生三个声纹,称为A、C和E。计算设备400可由此将声纹A和C与用户1和用户3相关,尽管还需要更多数据来唯一地标识声纹A和C中的哪一个匹配用户1和用户3中的哪一个。
类似地,技术设备400可将声纹、身份指示符和预期出席者相关起来。在以上的场景中,可标识四个诸如蓝牙设备标识符和/或无线设备MAC地址的身份指示符并将其与第一个会议的四个声纹(A、B、C和D)中的每一个相关联。在第二个会议中,可标识三个身份指示符并将其与在场的三个声纹(A、C和E)相关联。如果来自第一个会议的四个身份指示符中的任何一个也在第二个会议的三个身份指示符中出现,则共同身份指示符可只与共同声纹(A和C)相关联,同时不同的指示符可与不同的声纹(第一个会议中的B和D以及第二个会议中的E)相关联。
当越来越多的数据可用时可缩小身份指示符的范围,直至计算设备400可唯一地标识与声纹和/或身份指示符相关联的用户。例如,主用户设备110可将蓝牙设备ID与该设备的主用户和/或该主用户的声纹相关联,方式为通过从其中只有该用户的语音出现的记录(例如,只记录电话呼叫的该主用户端)生成用户的声纹。其他身份指示符可通过阶段345的相关与指定用户相关联,诸如已知声纹与在会议中出现的某个指示符相关联,而与会议相关联的日历条目提供会议中出席者用户的列表。出席者用户的列表提供可能用户的初始列表以匹配可通过附加数据的相关而缩小至唯一用户的声纹/设备标识符对。
方法300可以从阶段345前进至阶段350,在那里计算设备400可在已知用户数据库和/或表中创建新的已知用户条目。例如,一旦主用户设备110将特定用户与声纹和/或身份指示符相关,它就可将该数据存储在数据库表和/或其它存储介质中。于是下一次声纹和/或身份指示符被主用户设备110遇到时,该数据可被访问并可用来显示相关信息,如以上参考阶段325所描述的。一旦计算设备400在阶段350中创建了已知用户条目,方法300然后就可在阶段330处结束。
根据本发明的一个实施例可包括用于提供声纹标识的系统。系统可包括存储器存储以及耦合到该存储器存储的处理单元。处理单元可用于记录事件中的多个讲话者、将所记录的多个讲话者中的每一个与至少一个身份指示符相关联、创建多个声纹(每个都与所记录的多个讲话者中的至少一个相关联)、并根据至少一个身份指示符确定多个声纹中是否至少有一个对应于一用户。如果是,处理单元可用于创建与用户相关联的、包括相对应的多个声纹中的至少一个的数据库条目,和/或显示与用户相关联的至少一个信息元素。
所使用的身份指示符可包括,例如,记录的位置、记录的时间、呼叫者ID、设备标识符、主用户、与事件相关联的日历条目、记录的图像和语音转文本段。所显示的信息元素可包括,例如,与相对应的用户之前的会议的列表、与相对应的用户相关联的联系信息、与相对应的用户相关联的电子邮件、与相对应的用户相关联的文档和与相对应的用户相关联的社交网络信息。
处理单元可用于创建、更新、删除和/或修改多个表和/或存储设备中的数据库条目,以跟踪身份指示符并将声纹与用户相关联。例如,处理单元可用于创建包括多个讲话者中的每一个的声纹和事件标识符的事件在场数据库条目、包括与事件相关联的事件标识符和事件中的用户列表的事件出席者数据库条目、和/或包括事件标识符和与所记录的多个讲话者中的每一个相关联的至少一个身份指示符的身份指示符数据库条目。然后处理单元可用于将来自数据库的条目相关,并根据相关的条目确定多个声纹中的一个是否与唯一用户相关联。
处理单元还可用于确定多个声纹中的一个与少于阀值数量的可能用户相关联(例如,缩小可与声纹相关联的可能用户)。阀值数量可在系统和/或逐用户的基础上配置。如果是,处理单元可向主用户显示请求以从可能用户中选择哪个用户应该与该声纹相关联。例如,处理单元可回放与声纹相关联的所记录的语音的样本并显示三个可能用户的列表以供主用户选择。
根据本发明的另一个实施例可包括用于提供声纹标识的系统。系统可包括存储器存储以及耦合到该存储器存储的处理单元。处理单元可用于从事件记录生成多个声纹(每个都与事件中的出席者相关联)、为多个声纹中的至少一个创建新事件在场数据库条目、并确定多个声纹中的至少一个是否与至少一个之前的事件在场数据库条目相关联。如果是,处理单元可用于将与至少一个之前的事件在场数据库条目相关联的身份指示符和与新事件在场数据库条目相关联的身份指示符相关、确定相关的身份指示符是否唯一地标识与多个声纹中的至少一个相关联的用户、并且如果是则显示与所唯一地标识的用户相关联的至少一个信息元素。处理单元可用于为所唯一地标识的用户分配置信度值。置信度值可随着相关的身份指示符的数量增加而增加。事件在场数据库中的条目可全部与相同的主用户相关联和/或与不同的主用户相关联,其中主用户可包括操作用来记录语音的设备的用户。例如,多个主用户可包括单个组织内的不同用户。
处理单元还可用于确定记录的位置是否不与所唯一标识的用户相关联。如果是,并且来自事件的其它声纹之一不是所唯一标识的用户的声纹,则处理单元可确定记录的位置是否与单个用户相关联并且,如果是,则将其它声纹与该单个用户相关联。例如,如果两个人之间的记录发生在用户所分配到的办公室,那么作为对办公室的访问者的那个用户可为所唯一标识的用户。在此情况中,办公室所属于的用户可与另一个声纹相关联。
根据本发明的又一个实施例可包括用于提供声纹标识的系统。系统可包括存储器存储以及耦合到该存储器存储的处理单元。处理单元可用于通过耦合于系统的话筒记录与事件相关联的语音流、隔离与该语音流相关联的多个讲话者、生成多个声纹(每个都与同该语音流相关联的多个讲话者中的一个相关联)、并确定至少一个声纹是否与已知用户相关联。如果是,则处理单元可用于显示与已知用户相关联的至少一个信息元素。否则,处理单元可用于创建在场数据库中的在场条目、创建出席者数据库中的出席者条目、周期性地将在场数据库中的多个在场条目与出席者数据库中的多个出席者条目相关、并根据多个在场条目和多个邻近条目的周期性的相关创建包括至少一个声纹的、已知用户数据库中的新已知用户条目。
图4是包括计算设备400的系统的框图。按照本发明的一实施例,上述存储器存储和处理单元可在诸如图4的计算设备400之类的计算设备中实现。可使用硬件、软件或固件的任何合适的组合来实现存储器存储和处理单元。例如,存储器存储和处理单元可用计算设备400或结合计算设备400的其他计算设备418中的任一个来实现。根据本发明的实施例,上述系统、设备和处理器是示例,而其他系统、设备和处理器可包括上述存储器存储和处理单元。此外,计算设备400可包括如上所述的操作环境100。
参考图4,根据本发明的一实施例的系统可包括诸如计算设备400的计算设备。在基本配置中,计算设备400可包括至少一个处理单元402和系统存储器404。取决于计算设备的配置和类型,系统存储器404可包括,但不限于,易失性存储器(例如,随机存取存储器(RAM))、非易失性存储器(例如,只读存储器(ROM))、闪存、或任何组合。系统存储器404可包括操作系统405、一个或多个编程模块406,并可包括声纹生成器407。例如,操作系统405可适用于控制计算设备400的操作。在一个实施例中,编程模块406可包括可用于分析记录的语音并创建声纹签名的声纹生成器407.此外,本发明的实施例可结合图形库、其他操作系统、或任何其他应用程序来实践,并且不限于任何特定应用或系统。该基本配置在图4中由虚线408内的那些组件示出。
计算设备400可具有附加特征或功能。例如,计算设备400还可包括附加数据存储设备(可移动和/或不可移动),诸如例如,磁盘、光盘、或磁带。这些附加存储在图4中由可移动存储409和不可移动存储410示出。计算设备400还可包含可允许设备400诸如通过分布式计算环境中的网络(例如,内联网或因特网)来与其他计算设备418进行通信的通信连接416。通信连接416是通信介质的一个示例。
本文所使用的术语计算机可读介质可包括计算机存储介质。计算机存储介质可包括以用于存储诸如计算机可读指令、数据结构、程序模块、或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。系统存储器404、可移动存储409和不可移动存储410都是计算机存储介质(即,存储器存储)的示例。计算机存储介质可包括,但不限于,RAM、ROM、电可擦除只读存储器(EEPROM)、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光存储、磁带盒、磁带、磁盘存储或其他磁性存储设备、或者可用于存储信息且可由计算设备400访问的任何其他介质。任何这样的计算机存储介质都可以是设备400的一部分。计算设备400还可以具有输入设备412,如键盘、鼠标、笔、声音输入设备、触摸输入设备等。还可包括诸如显示器、扬声器、打印机等输出设备414。上述设备是示例,并且可使用其他设备。
本文所使用的术语计算机可读介质还可包括通信介质。通信媒介可由诸如载波或其他传输机制的已调制数据信号中的计算机可读指令、数据结构、程序模块、或其他数据来体现,并且包括任何信息传递介质。术语“已调制数据信号”可以描述以对该信号中的信息进行编码的方式设定或者改变其一个或多个特征的信号。作为示例而非限制,通信介质包括诸如有线网络或直接线连接等有线介质,以及诸如声学、射频(RF)、红外线和其他无线介质等无线介质。
如上所述,可在系统存储器404中存储包括操作系统405在内的多个程序模块和数据文件。当在处理单元402上执行时,编程模块406(例如,声纹生成器407)可执行各过程,包括例如,如上所述的方法300的各阶段中的一个或多个。上述过程是一个示例,且处理单元402可执行其他过程。根据本发明的实施例可使用的其他编程模块可包括电子邮件和联系人应用、文字处理应用、电子表格应用、数据库应用、幻灯片演示应用、绘图或计算机辅助应用程序等。
一般而言,根据本发明的实施例,程序模块可包括可执行特定任务或可实现特定抽象数据类型的例程、程序、组件、数据结构和其他类型的结构。此外,本发明的实施例可用其他计算机系统配置来实践,包括手持式设备、多处理器系统、基于微处理器的系统或可编程消费电子产品、小型机、大型计算机等。本发明的实施例还可在其中任务由通过通信网络链接的远程处理设备执行的分布式计算环境中实践。在分布式计算环境中,程序模块可位于本地和远程存储器存储设备两者中。
此外,本发明的实施例可在包括分立电子元件的电路、包含逻辑门的封装或集成电子芯片、利用微处理器的电路、或在包含电子元件或微处理器的单个芯片上实践。本发明的实施例还可使用能够执行诸如例如,AND(与)、OR(或)和NOT(非)的逻辑运算的其他技术来实践,包括但不限于,机械、光学、流体和量子技术。另外,本发明的实施例可在通用计算机或任何其他电路或系统中实践。
例如,本发明的实施例可被实现为计算机过程(方法)、计算系统、或诸如计算机程序产品或计算机可读介质之类的制品。计算机程序产品可以是计算机系统可读并对用于执行计算机过程的指令的计算机程序编码的计算机存储介质。计算机程序产品还可以是计算系统可读并对用于执行计算机过程的指令的计算机程序编码的载体上的传播信号。因此,本发明可以硬件和/或软件(包括固件、常驻软件、微码等)来体现。换言之,本发明的实施例可采用其上包含有供指令执行系统使用或结合其使用的计算机可使用或计算机可读程序代码的计算机可使用或计算机可读存储介质上的计算机程序产品的形式。计算机可使用或计算机可读介质可以是可包含、存储、通信、传播、或传输程序以供指令执行系统、装置或设备使用或结合其使用的任何介质。
计算机可使用或计算机可读介质例如可以是、但不限于电、磁、光、电磁、红外、或半导体系统、装置、设备或传播介质。更具体的计算机可读介质示例(非穷尽列表),计算机可读介质可包括以下:具有一条或多条导线的电连接、便携式计算机盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光纤、以及便携式压缩盘只读存储器(CD-ROM)。注意,计算机可使用或计算机可读介质甚至可以是其上打印有程序的纸张或另一合适的介质,因为程序可经由例如对纸张或其他介质的光学扫描而电子地捕获,随后如有必要被编译、解释、或以其他合适的方式处理,并且随后存储在计算机存储器中。
以上参考例如根据本发明的实施例的方法、系统和计算机程序产品的框图和/或操作示图描述了本发明的实施例。框中所注明的各功能/动作可按不同于任何流程图所示的次序出现。例如,取决于所涉及的功能/动作,连续示出的两个框实际上可基本同时执行,或者这些框有时可按相反的次序执行。
尽管已描述了本发明的特定实施例,但也可能存在其他实施例。此外,虽然本发明的实施例被描述为与存储在存储器和其他存储介质中的数据相关联,但是数据还可被存储在其他类型的计算机可读介质上或从其读取,诸如辅助存储设备(像硬盘、软盘、或CD-ROM)、来自因特网的载波、或其他形式的RAM或ROM。此外,所公开的方法的各步骤可以任何方式修改,包括通过对各步骤重新排序和/或插入或删除步骤,而不背离本发明。
包括此处所包括的代码中的版权在内的所有权利都归属于申请人并且是本申请人的财产。本申请人保持并保留此处所包括的代码中的所有权利,并且授予仅关于所授权专利的再现且未出于其他目的再现该材料的许可。
尽管本说明书包括示例,但本发明的范围由所附权利要求书来指示。此外,尽管用对结构特征和/或方法动作专用的语言描述了本说明书,但权利要求书并不限于以上所描述的特征或动作。相反,以上所描述的特定特征和动作是作为本发明的实施例的示例来公开的。
Claims (6)
1.一种用于提供声纹标识的方法,所述方法包括:
记录事件中的多个讲话者;
将所记录的多个讲话者中的每一个与至少一个身份指示符相关联;
生成多个声纹,每个都与所记录的多个讲话者中的至少一个相关联;
根据至少一个身份指示符,确定所述多个声纹中的至少一个是否对应于用户,包括:将多个讲话者数据库条目、多个事件数据库条目和多个标识符数据库条目相关,并根据所述相关的多个讲话者数据库条目、多个事件数据库条目和多个标识符数据库条目确定所述多个声纹中的所述至少一个是否与唯一用户相关联,并:
响应于确定所述多个声纹中的所述至少一个对应于所述用户:创建包括相对应的所述多个声纹中的至少一个的、与所述用户相关联的数据库条目,以及显示与所述用户相关联的至少一个信息元素;以及
响应于确定所述多个声纹中的任何一个不对应于所述用户:为所述多个讲话者中的每一个创建事件在场数据库条目,其中每个数据库条目包括与所述多个讲话者中的每一个相关联的声纹和与所述事件相关联的事件标识符;创建包括与所述事件相关联的所述事件标识符和所述事件中的用户列表的事件出席者数据库条目;创建包括所述事件标识符和与所记录的多个讲话者中的每一个相关联的所述至少一个身份指示符的身份指示符数据库条目;确定所述多个声纹中的所述至少一个是否与少于阀值数量的可能用户相关联,并响应于确定所述多个声纹中的所述至少一个与多个可能用户中的少于阀值数量个用户相关联:向主用户显示请求以将所述多个声纹中的所述至少一个与来自所述多个可能用户中的所述唯一用户相关联。
2.如权利要求1所述的方法,其特征在于,所述至少一个身份指示符包括以下中的至少一个:所述记录的位置、所述记录的时间、呼叫者ID、设备、标识符、主用户、与所述事件相关联的日历条目、所记录的图像和语音转文本段。
3.如权利要求1所述的方法,其特征在于,所述至少一个信息元素包括以下中的至少一个:与相对应的用户之前的会议的列表、与所述相对应的用户相关联的联系信息、与所述相对应的用户相关联的电子邮件、与所述相对应的用户相关联的文档以及与所述相对应的用户相关联的社交网络信息。
4.一种用于提供声纹标识的方法,所述方法包括:
从事件记录生成多个声纹,其中所述多个声纹中的每一个与所述事件中的出席者相关联;
为所述多个声纹中的至少一个创建新事件在场数据库条目,其中所述新事件在场数据库条目包括所述多个声纹中的所述至少一个、与所述事件相关联的事件标识符以及与所述事件相关联的身份指示符;
确定所述多个声纹中的所述至少一个是否与至少一个之前的事件在场数据库条目相关联;以及
响应于确定所述多个声纹中的所述至少一个与所述至少一个之前的事件在场数据库条目相关联:
将与所述至少一个之前的事件在场数据库条目相关联的所述身份指示符与同所述新事件在场数据库条目相关联的所述身份指示符相关,
确定所述相关的身份指示符是否唯一地标识与所述多个声纹中的所述至少一个相关联的用户,以及
响应于确定所述相关的身份指示符是否唯一地标识与所述多个声纹中的所述至少一个相关联的所述用户,显示与所唯一地标识的用户相关联的至少一个信息元素;
为所述唯一地标识的用户分配置信度值;
确定与当前讲话者相关联的声纹和与所述当前讲话者相关联的身份指示符是否匹配与所述唯一地标识的用户相关联的所述声纹和所述身份指示符,以及
响应于确定与所述当前讲话者相关联的所述声纹和与所述当前讲话者相关联的所述身份指示符匹配与所述唯一地标识的用户相关联的所述声纹和所述身份指示符,增加与所述标识的用户相关联的所述置信度值。
5.如权利要求4所述的方法,其特征在于,所述新事件在场数据库条目和所述至少一个之前的事件在场数据库条目各自与以下中的至少一个相关联:单个主用户和不同的主用户,其中所述身份指示符包括以下中的至少一个:所述记录的位置、所述记录的时间、呼叫者ID、设备、标识符、主用户、与所述事件相关联的日历条目、所记录的图像和语音转文本段。
6.一种用于提供声纹标识的系统,所述系统包括:
存储器存储;以及
耦合到所述存储器存储的处理单元,其中所述处理单元用于:
通过耦合到所述系统的话筒记录与事件相关联的语音流,
隔离与所述语音流相关联的多个讲话者,
生成多个声纹,每个都与同所述语音流相关联的所述多个讲话者中的一个相关联,
确定至少一个声纹是否与已知用户相关联,其中用于确定所述至少一个声纹是否与所述已知用户相关联包括:用于确定包括与组织相关联的多个用户的已知用户数据库中的已知用户条目是否包括所述至少一个声纹,
响应于确定所述至少一个声纹与已知用户相关联,显示与所述已知用户相关联的至少一个信息元素,其中所述至少一个信息元素包括以下中的至少一个:与所述已知用户相关联的电子邮件、与至少一个与所述已知用户之前的会议相关联的文档、所述已知用户的讲话者标识和与所述已知用户相关联的联系数据,
响应于确定所述至少一个声纹不与已知用户相关联:
创建在场数据库中的在场条目,包括所述至少一个声纹、与所记录的语音流相关联的位置、与所记录的语音流相关联的时间、设备、与所述系统相关联的标识符、与所述系统相关联的主用户标识符和与所记录的语音流相关联的至少一个环境指示符,以及
创建出席者数据库中的出席者条目,包括与所述系统相关联的所述主用户标识符、与同所述事件相关联的日历条目相关联的事件标识符、与所述事件相关联的开始时间、与所述事件相关联的结束事件和与所述事件相关联的至少一个预期用户,
周期性地将所述在场数据库中的多个在场条目与所述出席者数据库中的多个出席者条目相关,其中所述多个在场条目和所述多个出席者条目与同所述组织相关联的所述多个用户相关联,以及
根据对所述多个在场条目和所述多个出席者条目的所述周期性相关,创建包括所述至少一个声纹的、所述已知用户数据库中的新已知用户条目。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/786,259 US8606579B2 (en) | 2010-05-24 | 2010-05-24 | Voice print identification for identifying speakers |
US12/786,259 | 2010-05-24 | ||
PCT/US2011/035799 WO2011149647A2 (en) | 2010-05-24 | 2011-05-09 | Voice print identification |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102985965A CN102985965A (zh) | 2013-03-20 |
CN102985965B true CN102985965B (zh) | 2015-04-01 |
Family
ID=44973214
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201180025755.1A Active CN102985965B (zh) | 2010-05-24 | 2011-05-09 | 声纹标识 |
Country Status (5)
Country | Link |
---|---|
US (2) | US8606579B2 (zh) |
EP (1) | EP2577655B1 (zh) |
CN (1) | CN102985965B (zh) |
TW (1) | TWI536365B (zh) |
WO (1) | WO2011149647A2 (zh) |
Families Citing this family (193)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
CN101673544B (zh) * | 2009-10-10 | 2012-07-04 | 上海电虹软件有限公司 | 一种基于声纹识别和定位跟踪的交叉监控方法和系统 |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8606579B2 (en) * | 2010-05-24 | 2013-12-10 | Microsoft Corporation | Voice print identification for identifying speakers |
US20110320201A1 (en) * | 2010-06-24 | 2011-12-29 | Kaufman John D | Sound verification system using templates |
EP2405365B1 (en) * | 2010-07-09 | 2013-06-19 | Sony Ericsson Mobile Communications AB | Method and device for mnemonic contact image association |
US9800721B2 (en) | 2010-09-07 | 2017-10-24 | Securus Technologies, Inc. | Multi-party conversation analyzer and logger |
CN102023894A (zh) * | 2010-11-18 | 2011-04-20 | 华为终端有限公司 | 一种用户操作界面的变换方法及终端 |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US9225701B2 (en) | 2011-04-18 | 2015-12-29 | Intelmate Llc | Secure communication systems and methods |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US9031842B2 (en) * | 2011-07-28 | 2015-05-12 | Blackberry Limited | Methods and devices for facilitating communications |
US9401058B2 (en) * | 2012-01-30 | 2016-07-26 | International Business Machines Corporation | Zone based presence determination via voiceprint location awareness |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
TWI502411B (zh) * | 2012-04-26 | 2015-10-01 | Acer Inc | 觸控偵測方法與觸控偵測裝置 |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9996628B2 (en) * | 2012-06-29 | 2018-06-12 | Verisign, Inc. | Providing audio-activated resource access for user devices based on speaker voiceprint |
US8744995B1 (en) | 2012-07-30 | 2014-06-03 | Google Inc. | Alias disambiguation |
US8571865B1 (en) * | 2012-08-10 | 2013-10-29 | Google Inc. | Inference-aided speaker recognition |
US8583750B1 (en) | 2012-08-10 | 2013-11-12 | Google Inc. | Inferring identity of intended communication recipient |
US8520807B1 (en) | 2012-08-10 | 2013-08-27 | Google Inc. | Phonetically unique communication identifiers |
US9946699B1 (en) * | 2012-08-29 | 2018-04-17 | Intuit Inc. | Location-based speech recognition for preparation of electronic tax return |
US9147399B1 (en) * | 2012-08-31 | 2015-09-29 | Amazon Technologies, Inc. | Identification using audio signatures and additional characteristics |
US8965759B2 (en) * | 2012-09-01 | 2015-02-24 | Sarah Hershenhorn | Digital voice memo transfer and processing |
US9058806B2 (en) * | 2012-09-10 | 2015-06-16 | Cisco Technology, Inc. | Speaker segmentation and recognition based on list of speakers |
US20140081637A1 (en) * | 2012-09-14 | 2014-03-20 | Google Inc. | Turn-Taking Patterns for Conversation Identification |
US9837078B2 (en) * | 2012-11-09 | 2017-12-05 | Mattersight Corporation | Methods and apparatus for identifying fraudulent callers |
CN107274916B (zh) * | 2012-12-05 | 2021-08-20 | 北京三星通信技术研究有限公司 | 基于声纹信息对音频/视频文件进行操作的方法及装置 |
CN113470641B (zh) | 2013-02-07 | 2023-12-15 | 苹果公司 | 数字助理的语音触发器 |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US9123330B1 (en) * | 2013-05-01 | 2015-09-01 | Google Inc. | Large-scale speaker identification |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
DE112014002747T5 (de) | 2013-06-09 | 2016-03-03 | Apple Inc. | Vorrichtung, Verfahren und grafische Benutzerschnittstelle zum Ermöglichen einer Konversationspersistenz über zwei oder mehr Instanzen eines digitalen Assistenten |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
US9294616B2 (en) | 2013-06-30 | 2016-03-22 | International Business Machines Corporation | Identifying a contact based on a voice communication session |
TWI508057B (zh) * | 2013-07-15 | 2015-11-11 | Chunghwa Picture Tubes Ltd | 語音辨識系統以及方法 |
US20150025888A1 (en) * | 2013-07-22 | 2015-01-22 | Nuance Communications, Inc. | Speaker recognition and voice tagging for improved service |
CN105453026A (zh) | 2013-08-06 | 2016-03-30 | 苹果公司 | 基于来自远程设备的活动自动激活智能响应 |
WO2015026329A1 (en) * | 2013-08-20 | 2015-02-26 | Intel Corporation | Collaborative audio conversation attestation |
US9053711B1 (en) * | 2013-09-10 | 2015-06-09 | Ampersand, Inc. | Method of matching a digitized stream of audio signals to a known audio recording |
US10014006B1 (en) | 2013-09-10 | 2018-07-03 | Ampersand, Inc. | Method of determining whether a phone call is answered by a human or by an automated device |
TW201513095A (zh) * | 2013-09-23 | 2015-04-01 | Hon Hai Prec Ind Co Ltd | 語音處理系統、裝置及方法 |
CN104575575A (zh) * | 2013-10-10 | 2015-04-29 | 王景弘 | 语音管理装置及其操作方法 |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US20150278737A1 (en) * | 2013-12-30 | 2015-10-01 | Google Inc. | Automatic Calendar Event Generation with Structured Data from Free-Form Speech |
US20160260435A1 (en) * | 2014-04-01 | 2016-09-08 | Sony Corporation | Assigning voice characteristics to a contact information record of a person |
US9786297B2 (en) | 2014-04-09 | 2017-10-10 | Empire Technology Development Llc | Identification by sound data |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
TWI566107B (zh) | 2014-05-30 | 2017-01-11 | 蘋果公司 | 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置 |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10127911B2 (en) * | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10057699B2 (en) * | 2014-10-01 | 2018-08-21 | Sartorius Stedim Biotech Gmbh | Audio identification device, audio identification method and audio identification system |
US9563992B2 (en) | 2014-12-01 | 2017-02-07 | Honeywell International Inc. | System and method of associating, assigning, and authenticating users with personal protective equipment using biometrics |
US9922048B1 (en) | 2014-12-01 | 2018-03-20 | Securus Technologies, Inc. | Automated background check via facial recognition |
US9484033B2 (en) * | 2014-12-11 | 2016-11-01 | International Business Machines Corporation | Processing and cross reference of realtime natural language dialog for live annotations |
CN105788609B (zh) * | 2014-12-25 | 2019-08-09 | 福建凯米网络科技有限公司 | 多路音源的关联方法和装置及评定方法和系统 |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9704488B2 (en) * | 2015-03-20 | 2017-07-11 | Microsoft Technology Licensing, Llc | Communicating metadata that identifies a current speaker |
US9672829B2 (en) * | 2015-03-23 | 2017-06-06 | International Business Machines Corporation | Extracting and displaying key points of a video conference |
CN104766604B (zh) * | 2015-04-02 | 2019-01-08 | 努比亚技术有限公司 | 语音数据的标记方法及装置 |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
CN105096937A (zh) * | 2015-05-26 | 2015-11-25 | 努比亚技术有限公司 | 语音数据处理方法及终端 |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10048936B2 (en) * | 2015-08-31 | 2018-08-14 | Roku, Inc. | Audio command interface for a multimedia device |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
CN106548793A (zh) * | 2015-09-16 | 2017-03-29 | 中兴通讯股份有限公司 | 存储和播放音频文件的方法和装置 |
KR20170044386A (ko) * | 2015-10-15 | 2017-04-25 | 삼성전자주식회사 | 전자기기 및 전자기기의 제어방법 |
CN105427857B (zh) * | 2015-10-30 | 2019-11-08 | 华勤通讯技术有限公司 | 生成文字记录的方法及系统 |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
CN105895102A (zh) * | 2015-11-15 | 2016-08-24 | 乐视移动智能信息技术(北京)有限公司 | 录音编辑方法及录音装置 |
CN105895077A (zh) * | 2015-11-15 | 2016-08-24 | 乐视移动智能信息技术(北京)有限公司 | 录音标记方法及录音装置 |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
TWI612516B (zh) * | 2016-08-25 | 2018-01-21 | 財團法人資訊工業策進會 | 聲紋辨識裝置、聲紋辨識方法及其電腦程式產品 |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
EP3542360A4 (en) | 2016-11-21 | 2020-04-29 | Microsoft Technology Licensing, LLC | METHOD AND DEVICE FOR AUTOMATIC SYNCHRONIZATION |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
CN106782551B (zh) * | 2016-12-06 | 2020-07-24 | 北京华夏电通科技有限公司 | 一种语音识别系统及方法 |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US10276169B2 (en) * | 2017-01-03 | 2019-04-30 | Lenovo (Singapore) Pte. Ltd. | Speaker recognition optimization |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
KR102444165B1 (ko) | 2017-01-20 | 2022-09-16 | 삼성전자주식회사 | 적응적으로 회의를 제공하기 위한 장치 및 방법 |
CN107181851A (zh) * | 2017-04-25 | 2017-09-19 | 上海与德科技有限公司 | 通话控制方法及装置 |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770427A1 (en) | 2017-05-12 | 2018-12-20 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US10650813B2 (en) * | 2017-05-25 | 2020-05-12 | International Business Machines Corporation | Analysis of content written on a board |
CN110741737A (zh) | 2017-05-31 | 2020-01-31 | 克里奥瓦克有限公司 | 电子装置、用于制造电子装置的方法和设备及其组合物 |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
CN109147770B (zh) * | 2017-06-16 | 2023-07-28 | 阿里巴巴集团控股有限公司 | 声音识别特征的优化、动态注册方法、客户端和服务器 |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
CN107689225B (zh) * | 2017-09-29 | 2019-11-19 | 福建实达电脑设备有限公司 | 一种自动生成会议记录的方法 |
CN108305615B (zh) | 2017-10-23 | 2020-06-16 | 腾讯科技(深圳)有限公司 | 一种对象识别方法及其设备、存储介质、终端 |
CN107945806B (zh) * | 2017-11-10 | 2022-03-08 | 北京小米移动软件有限公司 | 基于声音特征的用户识别方法及装置 |
CN107845386B (zh) * | 2017-11-14 | 2020-04-21 | 维沃移动通信有限公司 | 声音信号处理方法、移动终端和服务器 |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10535346B2 (en) * | 2017-12-07 | 2020-01-14 | Ca, Inc. | Speech processing computer system forming collaborative dialog data structures |
CN107993665B (zh) * | 2017-12-14 | 2021-04-30 | 科大讯飞股份有限公司 | 多人会话场景中发言人角色确定方法、智能会议方法及系统 |
EP3503092A1 (en) * | 2017-12-21 | 2019-06-26 | Thomson Licensing | Method for establishing a link between a device and a speaker in a gateway, corresponding computer program computer and apparatus |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
EP3751562A4 (en) * | 2018-02-06 | 2020-12-16 | Nissan Motor Co., Ltd. | INFORMATION PROCESSING METHOD AND INFORMATION PROCESSING DEVICE |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
US11076039B2 (en) | 2018-06-03 | 2021-07-27 | Apple Inc. | Accelerated task performance |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11108912B2 (en) | 2018-11-06 | 2021-08-31 | International Business Machines Corporation | Automated written indicator for speakers on a teleconference |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
DK201970511A1 (en) | 2019-05-31 | 2021-02-15 | Apple Inc | Voice identification in digital assistant systems |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11302335B2 (en) * | 2019-08-01 | 2022-04-12 | Nuance Communications, Inc. | System and method for managing an automated voicemail |
WO2021056255A1 (en) | 2019-09-25 | 2021-04-01 | Apple Inc. | Text detection using global geometry estimators |
US11076043B2 (en) | 2019-10-04 | 2021-07-27 | Red Box Recorders Limited | Systems and methods of voiceprint generation and use in enforcing compliance policies |
CN111243605A (zh) * | 2020-01-13 | 2020-06-05 | 北京三快在线科技有限公司 | 业务处理方法、装置、设备及存储介质 |
CN111340555B (zh) * | 2020-02-29 | 2023-07-18 | 重庆百事得大牛机器人有限公司 | 基于法律领域用户画像模型的建议决策系统及方法 |
CN111339257B (zh) * | 2020-02-29 | 2023-05-23 | 重庆百事得大牛机器人有限公司 | 法律咨询用户的个性化用户画像识别方法 |
CN113571086B (zh) * | 2020-04-28 | 2022-07-08 | 阿里巴巴集团控股有限公司 | 声音信号处理方法、装置、电子设备及可读存储介质 |
US11038934B1 (en) | 2020-05-11 | 2021-06-15 | Apple Inc. | Digital assistant hardware abstraction |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
EP4017021A1 (en) | 2020-12-21 | 2022-06-22 | Sonova AG | Wireless personal communication via a hearing device |
Family Cites Families (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5806040A (en) * | 1994-01-04 | 1998-09-08 | Itt Corporation | Speed controlled telephone credit card verification system |
US6457043B1 (en) | 1998-10-23 | 2002-09-24 | Verizon Laboratories Inc. | Speaker identifier for multi-party conference |
WO2001016940A1 (en) | 1999-08-31 | 2001-03-08 | Accenture, Llp | System, method, and article of manufacture for a voice recognition system for identity authentication in order to gain access to data on the internet |
US6782413B1 (en) * | 2000-02-11 | 2004-08-24 | Microsoft Corporation | Distributed conference bridge |
US6748356B1 (en) | 2000-06-07 | 2004-06-08 | International Business Machines Corporation | Methods and apparatus for identifying unknown speakers using a hierarchical tree structure |
US7047192B2 (en) | 2000-06-28 | 2006-05-16 | Poirier Darrell A | Simultaneous multi-user real-time speech recognition system |
US7487112B2 (en) * | 2000-06-29 | 2009-02-03 | Barnes Jr Melvin L | System, method, and computer program product for providing location based services and mobile e-commerce |
US6795808B1 (en) * | 2000-10-30 | 2004-09-21 | Koninklijke Philips Electronics N.V. | User interface/entertainment device that simulates personal interaction and charges external database with relevant data |
US6731307B1 (en) * | 2000-10-30 | 2004-05-04 | Koninklije Philips Electronics N.V. | User interface/entertainment device that simulates personal interaction and responds to user's mental state and/or personality |
US6728679B1 (en) * | 2000-10-30 | 2004-04-27 | Koninklijke Philips Electronics N.V. | Self-updating user interface/entertainment device that simulates personal interaction |
US7130883B2 (en) * | 2000-12-29 | 2006-10-31 | Webex Communications, Inc. | Distributed network system architecture for collaborative computing |
WO2002090915A1 (en) * | 2001-05-10 | 2002-11-14 | Koninklijke Philips Electronics N.V. | Background learning of speaker voices |
US20040029567A1 (en) * | 2001-05-25 | 2004-02-12 | Timmins Timothy A. | Technique for effectively providing personalized communications and information assistance services |
US7139722B2 (en) | 2001-06-27 | 2006-11-21 | Bellsouth Intellectual Property Corporation | Location and time sensitive wireless calendaring |
US7333798B2 (en) * | 2002-08-08 | 2008-02-19 | Value Added Communications, Inc. | Telecommunication call management and monitoring system |
US7251786B2 (en) | 2003-02-26 | 2007-07-31 | Microsoft Corporation | Meeting information |
US7702730B2 (en) * | 2004-09-03 | 2010-04-20 | Open Text Corporation | Systems and methods for collaboration |
US8639629B1 (en) * | 2005-02-02 | 2014-01-28 | Nexus Payments, LLC | System and method for accessing an online user account registry via a thin-client unique user code |
US20070055439A1 (en) * | 2005-04-27 | 2007-03-08 | Dennis Denker | Methods and systems for selectively providing a networked service |
US7679518B1 (en) | 2005-06-28 | 2010-03-16 | Sun Microsystems, Inc. | Meeting facilitation tool |
US7864987B2 (en) * | 2006-04-18 | 2011-01-04 | Infosys Technologies Ltd. | Methods and systems for secured access to devices and systems |
JP4850690B2 (ja) | 2006-12-26 | 2012-01-11 | 株式会社日立製作所 | 通信会議装置 |
CN101221761A (zh) | 2007-01-12 | 2008-07-16 | 台达电子工业股份有限公司 | 具有智慧型鉴别调适功能的语音辨识方法及系统 |
US9552571B2 (en) | 2007-02-02 | 2017-01-24 | Blackberry Limited | Electronic device and method of meeting notification |
JP5261983B2 (ja) | 2007-05-23 | 2013-08-14 | ヤマハ株式会社 | 音声通信システム |
US20090177476A1 (en) | 2007-12-21 | 2009-07-09 | May Darrell | Method, system and mobile device for registering voice data with calendar events |
US8140340B2 (en) * | 2008-01-18 | 2012-03-20 | International Business Machines Corporation | Using voice biometrics across virtual environments in association with an avatar's movements |
US20090204414A1 (en) | 2008-02-07 | 2009-08-13 | Bharat Punjalal Shah | Method and system to enable in-context pre-meeting dialogue and collaboration among invitees |
US20090204904A1 (en) | 2008-02-08 | 2009-08-13 | Research In Motion Limited | Electronic device and method for determining time periods for a meeting |
JP2010060850A (ja) | 2008-09-04 | 2010-03-18 | Nec Corp | 議事録作成支援装置、議事録作成支援方法、議事録作成支援用プログラム及び議事録作成支援システム |
US8866607B2 (en) * | 2009-12-23 | 2014-10-21 | Verizon Patent And Licensing Inc. | Method and system of providing location-based alerts for tracking personal items |
US8428227B2 (en) * | 2010-05-18 | 2013-04-23 | Certicall, Llc | Certified communications system and method |
US8606579B2 (en) * | 2010-05-24 | 2013-12-10 | Microsoft Corporation | Voice print identification for identifying speakers |
-
2010
- 2010-05-24 US US12/786,259 patent/US8606579B2/en active Active
-
2011
- 2011-03-29 TW TW100110812A patent/TWI536365B/zh not_active IP Right Cessation
- 2011-05-09 CN CN201180025755.1A patent/CN102985965B/zh active Active
- 2011-05-09 EP EP11787094.9A patent/EP2577655B1/en active Active
- 2011-05-09 WO PCT/US2011/035799 patent/WO2011149647A2/en active Application Filing
-
2013
- 2013-12-10 US US14/102,182 patent/US9691393B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
CN102985965A (zh) | 2013-03-20 |
US9691393B2 (en) | 2017-06-27 |
EP2577655A4 (en) | 2015-05-20 |
WO2011149647A3 (en) | 2012-02-23 |
TWI536365B (zh) | 2016-06-01 |
US8606579B2 (en) | 2013-12-10 |
EP2577655A2 (en) | 2013-04-10 |
TW201142823A (en) | 2011-12-01 |
EP2577655B1 (en) | 2016-11-23 |
US20110288866A1 (en) | 2011-11-24 |
WO2011149647A2 (en) | 2011-12-01 |
US20140100849A1 (en) | 2014-04-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102985965B (zh) | 声纹标识 | |
US11018885B2 (en) | Summarization system | |
US11412325B2 (en) | Recording meeting audio via multiple individual smartphones | |
US9037461B2 (en) | Methods and systems for dictation and transcription | |
US10204158B2 (en) | Audio summarization of meetings driven by user participation | |
US9245254B2 (en) | Enhanced voice conferencing with history, language translation and identification | |
US20190378076A1 (en) | Meeting Management | |
US8731919B2 (en) | Methods and system for capturing voice files and rendering them searchable by keyword or phrase | |
US9256860B2 (en) | Tracking participation in a shared media session | |
US20140244252A1 (en) | Method for preparing a transcript of a conversion | |
US11909784B2 (en) | Automated actions in a conferencing service | |
US20110173705A1 (en) | Method and system of processing annotated multimedia documents using granular and hierarchical permissions | |
CN106340308A (zh) | 语音答复方法及装置 | |
CN103514165A (zh) | 用于识别对话中所提及的人的方法和装置 | |
US7949118B1 (en) | Methods and apparatus for processing a session | |
US20220093103A1 (en) | Method, system, and computer-readable recording medium for managing text transcript and memo for audio file | |
US20240176960A1 (en) | Generating summary data from audio data or video data in a group-based communication system | |
CN110265024A (zh) | 需求文档生成方法及相关设备 | |
CN117292712A (zh) | 用户反馈信息的异常识别方法、装置和计算机设备 | |
KR102065994B1 (ko) | 오디오 콘텐츠에 포함된 음성 트리거를 인식하여 다른 오디오 콘텐츠를 매칭하는 방법 | |
CN110417926A (zh) | 联系建立方法、系统和计算机可读存储介质 | |
US20240223726A1 (en) | Meeting information sharing privacy tool | |
Leschanowsky et al. | A Data Perspective on Ethical Challenges in Voice Biometrics Research | |
KR20230058953A (ko) | 회의록 작성 시스템 | |
JP2015038685A (ja) | 議事録作成装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
ASS | Succession or assignment of patent right |
Owner name: MICROSOFT TECHNOLOGY LICENSING LLC Free format text: FORMER OWNER: MICROSOFT CORP. Effective date: 20150728 |
|
C41 | Transfer of patent application or patent right or utility model | ||
TR01 | Transfer of patent right |
Effective date of registration: 20150728 Address after: Washington State Patentee after: Micro soft technique license Co., Ltd Address before: Washington State Patentee before: Microsoft Corp. |