CN102985965A - 声纹标识 - Google Patents

声纹标识 Download PDF

Info

Publication number
CN102985965A
CN102985965A CN2011800257551A CN201180025755A CN102985965A CN 102985965 A CN102985965 A CN 102985965A CN 2011800257551 A CN2011800257551 A CN 2011800257551A CN 201180025755 A CN201180025755 A CN 201180025755A CN 102985965 A CN102985965 A CN 102985965A
Authority
CN
China
Prior art keywords
user
event
vocal print
subclauses
clauses
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011800257551A
Other languages
English (en)
Other versions
CN102985965B (zh
Inventor
D·J·拉斯姆森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN102985965A publication Critical patent/CN102985965A/zh
Application granted granted Critical
Publication of CN102985965B publication Critical patent/CN102985965B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/109Time management, e.g. calendars, reminders, meetings or time accounting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/02Details
    • H04L12/16Arrangements for providing special services to substations
    • H04L12/18Arrangements for providing special services to substations for broadcast or conference, e.g. multicast
    • H04L12/1813Arrangements for providing special services to substations for broadcast or conference, e.g. multicast for computer conferences, e.g. chat rooms
    • H04L12/1831Tracking arrangements for later retrieval, e.g. recording contents, participants activities or behavior, network status
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06311Scheduling, planning or task assignment for a person or group
    • G06Q10/063114Status monitoring or status determination for a person or group
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/10Multimodal systems, i.e. based on the integration of multiple recognition engines or fusion of expert systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Signal Processing (AREA)
  • Tourism & Hospitality (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Facsimiles In General (AREA)
  • Accessory Devices And Overall Control Thereof (AREA)

Abstract

可提供声纹标识。可记录多个讲话者并将其与身份指示符相关联。可为每个讲话者创建声纹。如果根据身份指示符至少一个讲话者的声纹相对应于已知用户,可创建将用户与该声纹相关联的数据库条目。还可显示与用户相关联的附加信息。

Description

声纹标识
背景 
声纹标识是用于创建声纹并根据各种指示符标识讲话者的过程。在一些情况中,这对于业务逻辑过程能够标识讲话者可能很有价值。例如,用户可进入与不熟悉的人的会议或在诸如有话筒的计算机等记录设备的范围内进行对话。在较晚的对关联于会议或对话的笔记的审阅中,知道在记下某些笔记时是谁在讲话或者能够看到示出什么人在什么时候讲话的以颜色编码的语音记录流可能很有价值。这些依赖于能够通过语音或其它手段标识人的系统,但常规系统要求人以某种方式注册他们的声纹。因为用户很忙并且不情愿参与,这些系统面临采用的障碍。 
概要 
提供声纹学习。提供本发明内容以便以简化的形式介绍将在以下详细描述中进一步描述的一些概念。此发明内容不旨在标识所要求保护的主题的关键特征或必要特征。本发明内容也不旨在用于限制所要求保护的主题的范围。 
可提供声纹标识。可记录多个讲话者并将之与身份指示符相关联。可为每个讲话者创建声纹。如果根据身份指示符至少一个讲话者的声纹相对应于已知用户,则可创建将用户与该声纹相关联的数据库条目。还可显示与用户相关联的附加信息。 
以上概括描述和以下详细描述两者都提供了示例,并且只是说明性的。因此,以上概括描述和以下详细描述不应当被认为是限制性的。此外,除了本文中所阐述的那些特征或变体以外,还可以提供其他特征或变体。例如,实施例可涉及具体实施方式中所描述的各种特征组合和子组合。 
附图简述 
合并在本公开中并构成其一部分的附图示出本发明的实施例。在附图中: 
图1是操作环境的框图; 
图2A-2C是在提供声纹标识中使用的示例表; 
图3是用于提供声纹标识的方法的流程图;以及 
图4是包括计算设备的系统的框图。 
具体实施方式
以下详细描述参考各个附图。只要可能,就在附图和以下描述中使用相同的附图标记来指示相同或相似的元件。尽管可能描述了本发明的实施例,但修改、改编、以及其他实现是可能的。例如,可对附图中所示的元素进行置换、添加、或修改,并且可通过对所公开的方法置换、重新排序、或添加阶段来修改本文中所描述的方法。因此,以下详细描述并不限制本发明。相反,本发明的正确范围由所附权利要求书定义。 
可提供声纹标识。根据发明的各实施例,讲话者可被记录并与各种环境指示符相关联。例如,用户可出席会议或在话筒的范围内进行电话呼叫。可为讲话者中的每一个生成声纹并将其与已知声纹的数据库相比较。基于已标识的讲话者,各种业务逻辑模块可提供附加功能,诸如显示来自之前会议的笔记和/或电子邮件、提供出席者的列表、和/或对会议转录本做注释以标识什么用户在什么时间讲话。环境指示符可从环境因素提取,诸如会议位置或设备标识符的在场。例如,用户的蜂窝电话可广播可与所记录的语音相关联并被用于将声纹与用户关联起来的蓝牙标识符。这些指示符和生成的声纹可由各个用户私密地存储和/或在诸如公司员工的多个用户中共享。一般而言,收集和/或共享的指示符越多,声纹和标识的用户之间的相关可变得越快和越准确。 
例如,主用户可出席与该用户以前没有见过的九个其他用户的会议。主用户的声纹数据库可能不包含与为主用户和/或其他九个用户而生成的声纹相匹配的任何条目。新生成的声纹可被存储并可关联于环境指示符,诸如无线网络标识符、蓝牙标识符、会议位置和/或日历约会。 
日历约会能够提供会议中的出席者的列表,使得每个声纹可与可能用户的列表相关联。其它指示符可包括主用户相关联于会议而创建的笔记和/或电子邮件。例如,主用户可发送包括来自会议的动作项的电子邮件给出席者中的三位;动作项电子邮件可与这三个出席者中的每一个相关联。随着用户与这其他九个用户的一些和/或全部这些人或这些人的子集有越来越多的会议,那么相关可允许对单个用户的隔离。 
例如,三个用户中的一个可与主用户进行电话呼叫以讨论动作项电子邮件。可为该其他用户生成声纹且环境指示符(例如,呼叫者ID号)可与声纹相关联。声纹可与在较早的会议期间生成的声纹做比较且可作出进行呼叫的用户之间的相关。可将呼叫者ID号增加到关联于声纹的相关联的环境指示符的列表中。此外,呼叫者ID号可在公司目录中获得并与会议中的已知出席者中的一个相关联。这可允许对与该声纹相关联的用户的肯定标识。初始置信水平可与已标识用户的声纹相关联,该水平可随着附加指示符的收集增加。 
如果声纹和它们所关联的指示符数据跨一组个体共享,则标识过程可更快地发生。例如,由于任何用户数据都产生肯定标识,组织可将声纹与每个个体相关联。可不要求用户显式地记录他们的语音,但一旦系统将一声纹标识为属于特定个体,可使得所标识的声纹对其他用户可用。然后可用所标识的声纹来帮助标识其它声纹,诸如通过将出席者的列表缩小。如果会议有三个已知出席者,其中两个有已标识的声纹,那么可将第三个用户标识为与该会议期间记录的一个未知声纹相关联。 
讲话者标识系统可使用语音生物统计来标识和/或验证给定讲话者是他们说他们是的那个人。可通过将一个人的话音档案数字化从而产生存储的模型声纹或模板来使用语音生物统计。生物统计技术可将每个讲出来的词降为由数个称为共振峰的主导频率组成的段。每个段可包括数个可按照数字格式捕捉的音调。这些音调可共同地标识讲话者的独特的声纹。可以类似于存储指纹或其他生物统计数据的方式将声纹存储在数据库中。可使用各种技术来处理和存储声纹,诸如频率估计、隐马尔可夫(Markov)模型、高斯(Gaussian)混合模型、模式匹配算法、神经网络(neural network)、矩阵表示(matrix representation)、矢量量化(Vector Quantization) 和/或决策树(decision tree)。有些系统还可使用反讲话者技术,诸如竞争者模型(cohort model)和世界模型。 
图1是用于提供声纹标识的操作环境100的框图。操作环境100可包括事件位置105,该事件位置包括主用户设备110和多个出席者用户设备120(A)-(C)的。主用户设备110可包括以下参考图4将更详细讨论的计算设备400,并可包括记录设备,诸如话筒和/或用于记录事件中的出席者的语音和/或图像的摄像头。例如,数个同事可在诸如会议室的事件位置105出席会议。主用户设备110可记录会议并可捕捉与出席者相关联的身份指示符,诸如与出席者用户设备120(A)-(C)相关联的设备ID(例如,蓝牙
Figure DEST_PATH_GDA00002689922000041
和/或无线网络MAC地址)。 
主用户设备110可用于将记录发送给用于为会议期间记录的每个语音生成声纹的另一个设备,诸如识别服务器140。主用户设备110还可用于自己生成声纹并将它们发送给识别服务器140。识别服务器140可用于创建和/或管理事件在场数据库150、事件出席者数据库155和/或身份指示符数据库160。可将与声纹和/或事件相关联的数据存储在这些数据库中并可周期性地将其与标识与声纹中的每一个相关联的用户相关。根据本发明的实施例,可将数据存储在单个数据库中和/或分散在多个数据库和表之上。 
图2A示出示例事件在场表200。事件在场表200可包括多个行,每行包括与声纹列205、事件列210、主列215和位置列220相关联的数据。声纹列205中的数据可对应于由主用户设备110生成的声纹。事件列210中的数据可与相关联于主用户设备110的主用户所创建的日历事件标识符相关联。主列215中的数据可包括与主用户相关联的用户标识符,且位置列220中的数据可包括与事件位置105相关联的位置标识符。 
图2B示出示例事件出席者表230。事件出席者表230可包括多个行,每行包括与出席者列235、时间列240和出席者声纹列245相关联的数据。事件出席者表230还可包括事件列210和主列215以作为包括与在事件在场表200中的这些列中所找到的相同的数据的索引列。出席者列235中的数据可对应于与根据日历条目与事件相关联的和/或由诸如主用户的用户手工输入的出席者的列表。时间列240中的数据可从日历事件获取和/或根据记录发生时的时间输入。出席者声纹列245中的数据可包括与出席者列235中所 标识的出席者相关联的已知声纹。例如,主用户可有用户标识符“jsmith”并可有已知声纹,如第一事件出席者表行247所示。根据日历条目,已知出席者用户“cfrank”参加了事件,但还没有已标识的声纹,如第二事件出席者表行248所示。另一事件(例如,有事件标识符38405的事件)可没有相关联的日历事件,但可有三个声纹为出席者生成。声纹之一可与主用户jsmith相关联,而为其它两个声纹创建未知出席者行,如第三事件出席者表行249所示。 
图2C示出示例身份指示符表250。身份指示符表250可包括多个行,每行包括与已知用户列255和指示符列260相关联的数据。身份指示符表250还可包括事件列210以作为包括与在事件在场表200的事件列210以及事件出席者列230中所找到的相同的数据的索引列。身份指示符表250可用来存储与所记录的事件相关联的、可用来标识事件中的用户和将用户匹配至声纹的环境指示符。例如,在具有事件标识符“37125”的事件期间,位置指示符、蓝牙设备ID、主用户和三个MAC地址被记录并存储在身份指示符表250中、。类似地,在具有事件标识符“38405”的事件期间,主用户、位置、MAC地址和蓝牙
Figure DEST_PATH_GDA00002689922000052
设备ID可被记录。 
根据本发明的各实施例,可周期性地执行事件在场表200、事件出席者表230和身份指示符表250之间的相关。此相关可试图创建用户和声纹之间的唯一链接。例如,如第一指示符表行262和第二指示符表行264所示,已知MAC地址“04:33:28:29:AF:C3”与用户“cfrank”相关联并在事件“37215”和“38405”中在场。用户“cfrank”在事件“37215”中的出席可与第二事件出席者表行248相关。这可导致cfrank作为事件“38405”中未知用户中的一个的可能匹配被列在出席者列235中,诸如在事件出席者表第三行249中。根据事件在场表200,三个声纹与事件“37125”中的出席者相关联,其中的两个出席者还在事件“38405”期间在场。已知两个公共声纹中的一个属于主用户“jsmith”。因此,相关可确定另一个共同的声纹应与用户“cfrank”相关联。此外,此相关可允许事件“37215”中的第三个声纹的标识与该会议中的唯一一个其他出席者用户“bjones”相关联。此数据可在事件出席者表230中更新而且涉及用户“cfrank”和/ 或“bjones”的声纹的将来的记录可立即与这些用户相关联。本发明的其它实施例可使用不同的表结构来完成类似的相关。 
图3是阐明根据本发明用于提供声纹标识的实施例的方法300中涉及的各一般阶段的流程图。方法300可使用计算设备400来实现,这将在下面参考图4予以更详细描述。在下文中将更详细地描述实现方法300的各阶段的方式。方法300可开始于起始框305并继续至阶段310,在那里计算设备400可记录语音流。例如,主用户设备110可包括用于在会议期间记录语音和/或图像的话筒和/或摄像头。主用户设备110还可用于收集环境身份指示符,诸如与诸如出席者用户设备120(A)-(C)的无线设备相关联的蓝牙 
Figure DEST_PATH_GDA00002689922000061
设备ID和/或MAC地址。 
方法300可从阶段310前进至阶段315,在那里计算设备400可为所记录的语音中的每一个生成声纹。例如,主用户设备110可使用语音生物统计来将用户的话音档案数字化以生成存储的模型声纹。 
在计算设备400在阶段315生成声纹以后,方法300可继续至阶段320,在那里计算设备400可确定声纹中的任何一个是否与已知用户匹配。例如,主用户设备110可在已知用户数据库中查找声纹以确定该声纹是否与主用户的组织中的另一个用户相关联。 
如果在阶段320确定了声纹与已知用户匹配,方法300可前进至阶段325,在那里计算设备400可显示与已知用户相关联的信息元素。例如,主用户可在与第二用户的电话呼叫中。第二用户的声纹可与主用户的工作团队同事相匹配并且主用户设备110可显示从第二用户处接收的近期电子邮件的列表。然后方法300可为其他用户重复或在阶段330结束。 
如果在阶段320声纹未与已知用户匹配,则方法300可前进至阶段335,在那里计算设备400可创建在场表中的条目。例如,主用户设备110可创建事件出席表200中的条目,包括声纹、事件标识符、主标识符(例如,与主用户设备110相关联的用户)和/或记录发生的位置。 
方法300可以从阶段335前进到阶段340,在那里计算设备400可创建出席者表中的条目。例如,主用户设备110可创建事件出席者表230中的条目,包括事件标识符、主标识符、至少一个预期的出席者、记录发生的时间和/或至少一个预期出席者的已知声纹。已知声纹可从包括用户标识符和已 验证的声纹(例如,包括唯一用户的标识中的足够置信度的声纹)之间的关联的已知用户数据库中提取。 
方法300可从阶段340前进至阶段345,在那里计算设备400可将在场和出席者表中的条目相关。例如,主用户设备110可确定给定声纹是否在不同会议中出现并将该声纹与不同会议之间的共同出席者匹配。在一个场景中,第一个会议可由用户1、用户2、用户3和用户4出席,产生四个声纹,称为A、B、C和D。第二个会议可由用户1、用户3和用户5出席,产生三个声纹,称为A、C和E。计算设备400可由此将声纹A和C与用户1和用户3相关,尽管还需要更多数据来唯一地标识声纹A和C中的哪一个匹配用户1和用户3中的哪一个。 
类似地,技术设备400可将声纹、身份指示符和预期出席者相关起来。在以上的场景中,可标识四个诸如蓝牙设备标识符和/或无线设备MAC地址的身份指示符并将其与第一个会议的四个声纹(A、B、C和D)中的每一个相关联。在第二个会议中,可标识三个身份指示符并将其与在场的三个声纹(A、C和E)相关联。如果来自第一个会议的四个身份指示符中的任何一个也在第二个会议的三个身份指示符中出现,则共同身份指示符可只与共同声纹(A和C)相关联,同时不同的指示符可与不同的声纹(第一个会议中的B和D以及第二个会议中的E)相关联。 
当越来越多的数据可用时可缩小身份指示符的范围,直至计算设备400可唯一地标识与声纹和/或身份指示符相关联的用户。例如,主用户设备110可将蓝牙
Figure DEST_PATH_GDA00002689922000072
设备ID与该设备的主用户和/或该主用户的声纹相关联,方式为通过从其中只有该用户的语音出现的记录(例如,只记录电话呼叫的该主用户端)生成用户的声纹。其他身份指示符可通过阶段345的相关与指定用户相关联,诸如已知声纹与在会议中出现的某个指示符相关联,而与会议相关联的日历条目提供会议中出席者用户的列表。出席者用户的列表提供可能用户的初始列表以匹配可通过附加数据的相关而缩小至唯一用户的声纹/设备标识符对。 
方法300可以从阶段345前进至阶段350,在那里计算设备400可在已知用户数据库和/或表中创建新的已知用户条目。例如,一旦主用户设备110将特定用户与声纹和/或身份指示符相关,它就可将该数据存储在数据库 表和/或其它存储介质中。于是下一次声纹和/或身份指示符被主用户设备110遇到时,该数据可被访问并可用来显示相关信息,如以上参考阶段325所描述的。一旦计算设备400在阶段350中创建了已知用户条目,方法300然后就可在阶段330处结束。 
根据本发明的一个实施例可包括用于提供声纹标识的系统。系统可包括存储器存储以及耦合到该存储器存储的处理单元。处理单元可用于记录事件中的多个讲话者、将所记录的多个讲话者中的每一个与至少一个身份指示符相关联、创建多个声纹(每个都与所记录的多个讲话者中的至少一个相关联)、并根据至少一个身份指示符确定多个声纹中是否至少有一个对应于一用户。如果是,处理单元可用于创建与用户相关联的、包括相对应的多个声纹中的至少一个的数据库条目,和/或显示与用户相关联的至少一个信息元素。 
所使用的身份指示符可包括,例如,记录的位置、记录的时间、呼叫者ID、设备标识符、主用户、与事件相关联的日历条目、记录的图像和语音转文本段。所显示的信息元素可包括,例如,与相对应的用户之前的会议的列表、与相对应的用户相关联的联系信息、与相对应的用户相关联的电子邮件、与相对应的用户相关联的文档和与相对应的用户相关联的社交网络信息。 
处理单元可用于创建、更新、删除和/或修改多个表和/或存储设备中的数据库条目,以跟踪身份指示符并将声纹与用户相关联。例如,处理单元可用于创建包括多个讲话者中的每一个的声纹和事件标识符的事件在场数据库条目、包括与事件相关联的事件标识符和事件中的用户列表的事件出席者数据库条目、和/或包括事件标识符和与所记录的多个讲话者中的每一个相关联的至少一个身份指示符的身份指示符数据库条目。然后处理单元可用于将来自数据库的条目相关,并根据相关的条目确定多个声纹中的一个是否与唯一用户相关联。 
处理单元还可用于确定多个声纹中的一个与少于阀值数量的可能用户相关联(例如,缩小可与声纹相关联的可能用户)。阀值数量可在系统和/或逐用户的基础上配置。如果是,处理单元可向主用户显示请求以从可能用户中选择哪个用户应该与该声纹相关联。例如,处理单元可回放与 声纹相关联的所记录的语音的样本并显示三个可能用户的列表以供主用户选择。 
根据本发明的另一个实施例可包括用于提供声纹标识的系统。系统可包括存储器存储以及耦合到该存储器存储的处理单元。处理单元可用于从事件记录生成多个声纹(每个都与事件中的出席者相关联)、为多个声纹中的至少一个创建新事件在场数据库条目、并确定多个声纹中的至少一个是否与至少一个之前的事件在场数据库条目相关联。如果是,处理单元可用于将与至少一个之前的事件在场数据库条目相关联的身份指示符和与新事件在场数据库条目相关联的身份指示符相关、确定相关的身份指示符是否唯一地标识与多个声纹中的至少一个相关联的用户、并且如果是则显示与所唯一地标识的用户相关联的至少一个信息元素。处理单元可用于为所唯一地标识的用户分配置信度值。置信度值可随着相关的身份指示符的数量增加而增加。事件在场数据库中的条目可全部与相同的主用户相关联和/或与不同的主用户相关联,其中主用户可包括操作用来记录语音的设备的用户。例如,多个主用户可包括单个组织内的不同用户。 
处理单元还可用于确定记录的位置是否不与所唯一标识的用户相关联。如果是,并且来自事件的其它声纹之一不是所唯一标识的用户的声纹,则处理单元可确定记录的位置是否与单个用户相关联并且,如果是,则将其它声纹与该单个用户相关联。例如,如果两个人之间的记录发生在用户所分配到的办公室,那么作为对办公室的访问者的那个用户可为所唯一标识的用户。在此情况中,办公室所属于的用户可与另一个声纹相关联。 
根据本发明的又一个实施例可包括用于提供声纹标识的系统。系统可包括存储器存储以及耦合到该存储器存储的处理单元。处理单元可用于通过耦合于系统的话筒记录与事件相关联的语音流、隔离与该语音流相关联的多个讲话者、生成多个声纹(每个都与同该语音流相关联的多个讲话者中的一个相关联)、并确定至少一个声纹是否与已知用户相关联。如果是,则处理单元可用于显示与已知用户相关联的至少一个信息元素。否则,处理单元可用于创建在场数据库中的在场条目、创建出席者数据库中的出席者条目、周期性地将在场数据库中的多个在场条目与出席者数据库中的多 个出席者条目相关、并根据多个在场条目和多个邻近条目的周期性的相关创建包括至少一个声纹的、已知用户数据库中的新已知用户条目。 
图4是包括计算设备400的系统的框图。按照本发明的一实施例,上述存储器存储和处理单元可在诸如图4的计算设备400之类的计算设备中实现。可使用硬件、软件或固件的任何合适的组合来实现存储器存储和处理单元。例如,存储器存储和处理单元可用计算设备400或结合计算设备400的其他计算设备418中的任一个来实现。根据本发明的实施例,上述系统、设备和处理器是示例,而其他系统、设备和处理器可包括上述存储器存储和处理单元。此外,计算设备400可包括如上所述的操作环境100。 
参考图4,根据本发明的一实施例的系统可包括诸如计算设备400的计算设备。在基本配置中,计算设备400可包括至少一个处理单元402和系统存储器404。取决于计算设备的配置和类型,系统存储器404可包括,但不限于,易失性存储器(例如,随机存取存储器(RAM))、非易失性存储器(例如,只读存储器(ROM))、闪存、或任何组合。系统存储器404可包括操作系统405、一个或多个编程模块406,并可包括声纹生成器407。例如,操作系统405可适用于控制计算设备400的操作。在一个实施例中,编程模块406可包括可用于分析记录的语音并创建声纹签名的声纹生成器407.此外,本发明的实施例可结合图形库、其他操作系统、或任何其他应用程序来实践,并且不限于任何特定应用或系统。该基本配置在图4中由虚线408内的那些组件示出。 
计算设备400可具有附加特征或功能。例如,计算设备400还可包括附加数据存储设备(可移动和/或不可移动),诸如例如,磁盘、光盘、或磁带。这些附加存储在图4中由可移动存储409和不可移动存储410示出。计算设备400还可包含可允许设备400诸如通过分布式计算环境中的网络(例如,内联网或因特网)来与其他计算设备418进行通信的通信连接416。通信连接416是通信介质的一个示例。 
本文所使用的术语计算机可读介质可包括计算机存储介质。计算机存储介质可包括以用于存储诸如计算机可读指令、数据结构、程序模块、或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。系统存储器404、可移动存储409和不可移动存储410都是计 算机存储介质(即,存储器存储)的示例。计算机存储介质可包括,但不限于,RAM、ROM、电可擦除只读存储器(EEPROM)、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光存储、磁带盒、磁带、磁盘存储或其他磁性存储设备、或者可用于存储信息且可由计算设备400访问的任何其他介质。任何这样的计算机存储介质都可以是设备400的一部分。计算设备400还可以具有输入设备412,如键盘、鼠标、笔、声音输入设备、触摸输入设备等。还可包括诸如显示器、扬声器、打印机等输出设备414。上述设备是示例,并且可使用其他设备。 
本文所使用的术语计算机可读介质还可包括通信介质。通信媒介可由诸如载波或其他传输机制的已调制数据信号中的计算机可读指令、数据结构、程序模块、或其他数据来体现,并且包括任何信息传递介质。术语“已调制数据信号”可以描述以对该信号中的信息进行编码的方式设定或者改变其一个或多个特征的信号。作为示例而非限制,通信介质包括诸如有线网络或直接线连接等有线介质,以及诸如声学、射频(RF)、红外线和其他无线介质等无线介质。 
如上所述,可在系统存储器404中存储包括操作系统405在内的多个程序模块和数据文件。当在处理单元402上执行时,编程模块406(例如,声纹生成器407)可执行各过程,包括例如,如上所述的方法300的各阶段中的一个或多个。上述过程是一个示例,且处理单元402可执行其他过程。根据本发明的实施例可使用的其他编程模块可包括电子邮件和联系人应用、文字处理应用、电子表格应用、数据库应用、幻灯片演示应用、绘图或计算机辅助应用程序等。 
一般而言,根据本发明的实施例,程序模块可包括可执行特定任务或可实现特定抽象数据类型的例程、程序、组件、数据结构和其他类型的结构。此外,本发明的实施例可用其他计算机系统配置来实践,包括手持式设备、多处理器系统、基于微处理器的系统或可编程消费电子产品、小型机、大型计算机等。本发明的实施例还可在其中任务由通过通信网络链接的远程处理设备执行的分布式计算环境中实践。在分布式计算环境中,程序模块可位于本地和远程存储器存储设备两者中。 
此外,本发明的实施例可在包括分立电子元件的电路、包含逻辑门的封装或集成电子芯片、利用微处理器的电路、或在包含电子元件或微处理器的单个芯片上实践。本发明的实施例还可使用能够执行诸如例如,AND(与)、OR(或)和NOT(非)的逻辑运算的其他技术来实践,包括但不限于,机械、光学、流体和量子技术。另外,本发明的实施例可在通用计算机或任何其他电路或系统中实践。 
例如,本发明的实施例可被实现为计算机过程(方法)、计算系统、或诸如计算机程序产品或计算机可读介质之类的制品。计算机程序产品可以是计算机系统可读并对用于执行计算机过程的指令的计算机程序编码的计算机存储介质。计算机程序产品还可以是计算系统可读并对用于执行计算机过程的指令的计算机程序编码的载体上的传播信号。因此,本发明可以硬件和/或软件(包括固件、常驻软件、微码等)来体现。换言之,本发明的实施例可采用其上包含有供指令执行系统使用或结合其使用的计算机可使用或计算机可读程序代码的计算机可使用或计算机可读存储介质上的计算机程序产品的形式。计算机可使用或计算机可读介质可以是可包含、存储、通信、传播、或传输程序以供指令执行系统、装置或设备使用或结合其使用的任何介质。 
计算机可使用或计算机可读介质例如可以是、但不限于电、磁、光、电磁、红外、或半导体系统、装置、设备或传播介质。更具体的计算机可读介质示例(非穷尽列表),计算机可读介质可包括以下:具有一条或多条导线的电连接、便携式计算机盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光纤、以及便携式压缩盘只读存储器(CD-ROM)。注意,计算机可使用或计算机可读介质甚至可以是其上打印有程序的纸张或另一合适的介质,因为程序可经由例如对纸张或其他介质的光学扫描而电子地捕获,随后如有必要被编译、解释、或以其他合适的方式处理,并且随后存储在计算机存储器中。 
以上参考例如根据本发明的实施例的方法、系统和计算机程序产品的框图和/或操作示图描述了本发明的实施例。框中所注明的各功能/动作可按不同于任何流程图所示的次序出现。例如,取决于所涉及的功能/动作, 连续示出的两个框实际上可基本同时执行,或者这些框有时可按相反的次序执行。 
尽管已描述了本发明的特定实施例,但也可能存在其他实施例。此外,虽然本发明的实施例被描述为与存储在存储器和其他存储介质中的数据相关联,但是数据还可被存储在其他类型的计算机可读介质上或从其读取,诸如辅助存储设备(像硬盘、软盘、或CD-ROM)、来自因特网的载波、或其他形式的RAM或ROM。此外,所公开的方法的各步骤可以任何方式修改,包括通过对各步骤重新排序和/或插入或删除步骤,而不背离本发明。 
包括此处所包括的代码中的版权在内的所有权利都归属于申请人并且是本申请人的财产。本申请人保持并保留此处所包括的代码中的所有权利,并且授予仅关于所授权专利的再现且未出于其他目的再现该材料的许可。 
尽管本说明书包括示例,但本发明的范围由所附权利要求书来指示。此外,尽管用对结构特征和/或方法动作专用的语言描述了本说明书,但权利要求书并不限于以上所描述的特征或动作。相反,以上所描述的特定特征和动作是作为本发明的实施例的示例来公开的。 

Claims (10)

1.一种用于提供声纹标识的方法,所述方法包括:
记录事件中的多个讲话者;
将所记录的多个讲话者中的每一个与至少一个身份指示符相关联;
生成多个声纹,每个都与所记录的多个讲话者中的至少一个相关联;
根据至少一个身份指示符确定所述多个声纹中的至少一个是否对应于用户;以及
响应于确定所述多个声纹中的所述至少一个对应于所述用户:
创建包括相对应的所述多个声纹中的至少一个的、与所述用户相关联的数据库条目,以及
显示与所述用户相关联的至少一个信息元素。
2.如权利要求1所述的方法,其特征在于,所述至少一个身份指示符包括以下中的至少一个:所述记录的位置、所述记录的时间、呼叫者ID、设备、标识符、主用户、与所述事件相关联的日历条目、所记录的图像和语音转文本段。
3.如权利要求1所述的方法,其特征在于,所述至少一个信息元素包括以下中的至少一个:与相对应的用户之前的会议的列表、与所述相对应的用户相关联的联系信息、与所述相对应的用户相关联的电子邮件、与所述相对应的用户相关联的文档以及与所述相对应的用户相关联的社交网络信息。
4.如权利要求1所述的方法,其特征在于,还包括:
为所述多个讲话者中的每一个创建事件在场数据库条目,其中每个数据库条目包括与所述多个讲话者中的每一个相关联的声纹和与所述事件相关联的事件标识符;以及
创建包括与所述事件相关联的所述事件标识符和所述事件中的用户列表的事件出席者数据库条目。
5.如权利要求4所述的方法,其特征在于,还包括:
创建包括所述事件标识符和与所记录的多个讲话者中的每一个相关联的所述至少一个身份指示符的身份指示符数据库条目。
6.如权利要求5所述的方法,其特征在于,根据所述至少一个身份指示符确定所述多个声纹中的至少一个是否对应于用户包括:
将多个讲话者数据库条目、多个事件数据库条目和多个标识符数据库条目相关;以及
根据所述相关的多个讲话者数据库条目、多个事件数据库条目和多个标识符数据库条目确定所述多个声纹中的所述至少一个是否与唯一用户相关联。
7.如权利要求6所述的方法,其特征在于,还包括:
确定所述多个声纹中的所述至少一个是否与少于阀值数量的可能用户相关联;以及
响应于确定所述多个声纹中的所述至少一个与多个可能用户中的少于阀值数量个用户相关联,向主用户显示请求以将所述多个声纹中的所述至少一个与来自所述多个可能用户中的所述唯一用户相关联。
8.一种存储一组指令的计算机可读介质,所述一组指令在被执行时执行一种用于提供声纹标识的方法,由所述一组指令执行的所述方法包括:
从事件记录生成多个声纹,其中所述多个声纹中的每一个与所述会议中的出席者相关联;
为所述多个声纹中的至少一个创建新事件在场数据库条目,其中所述新事件在场数据库条目包括所述多个声纹中的所述至少一个、与所述事件相关联的事件标识符以及与所述事件相关联的身份指示符;
确定所述多个声纹中的所述至少一个是否与至少一个之前的事件在场数据库条目相关联;以及
响应于确定所述多个声纹中的所述至少一个与所述至少一个之前的事件在场数据库条目相关联:
将与所述至少一个之前的事件在场数据库条目相关联的所述身份指示符与同所述新事件在场数据库条目相关联的所述身份指示符相关,
确定所述相关的身份指示符是否唯一地标识与所述多个声纹中的所述至少一个相关联的用户,以及
响应于确定所述相关的身份指示符是否唯一地标识与所述多个声纹中的所述至少一个相关联的所述用户,显示与所唯一地标识的用户相关联的至少一个信息元素;
为所述唯一地标识的用户分配置信度值;
确定与当前讲话者相关联的声纹和与所述当前讲话者相关联的身份指示符是否匹配与所述唯一地标识的用户相关联的所述声纹和所述身份指示符,以及
响应于确定与所述当前讲话者相关联的所述声纹和与所述当前讲话者相关联的所述身份指示符匹配与所述唯一地标识的用户相关联的所述声纹和所述身份指示符,增加与所述标识的用户相关联的所述置信度值。
9.如权利要求9所述的计算机可读介质,其特征在于,所述新事件在场数据库条目和所述至少一个之前的事件在场数据库条目各自与以下中的至少一个相关联:单个主用户和不同的主用户,其中所述身份指示符包括以下中的至少一个:所述记录的位置、所述记录的时间、呼叫者ID、设备、标识符、主用户、与所述事件相关联的日历条目、所记录的图像和语音转文本段。
10.一种用于提供声纹标识的系统,所述系统包括:
存储器存储;以及
耦合到所述存储器存储的处理单元,其中所述处理单元用于:
通过耦合到所述系统的话筒记录与事件相关联的语音流,
隔离与所述语音流相关联的多个讲话者,
生成多个声纹,每个都与同所述语音流相关联的所述多个讲话者中的一个相关联,
确定至少一个声纹是否与已知用户相关联,其中用于确定所述至少一个声纹是否与所述已知用户相关联包括:用于确定包括与组织相关联的多个用户的已知用户数据库中的已知用户条目是否包括所述至少一个声纹,
响应于确定所述至少一个声纹与已知用户相关联,显示与所述已知用户相关联的至少一个信息元素,其中所述至少一个信息元素包括以下中的至少一个:与所述已知用户相关联的电子邮件、与至少一个与所述已知用户之前的会议相关联的文档、所述已知用户的讲话者标识和与所述已知用户相关联的联系数据,
响应于确定所述至少一个声纹不与已知用户相关联:
创建在场数据库中的在场条目,包括所述至少一个声纹、与所记录的语音流相关联的位置、与所记录的语音流相关联的时间、设备、与所述系统相关联的标识符、与所述系统相关联的主用户标识符和与所记录的语音流相关联的至少一个环境指示符,以及
创建出席者数据库中的出席者条目,包括与所述系统相关联的所述主用户标识符、与同所述事件相关联的日历条目相关联的事件标识符、与所述事件相关联的开始时间、与所述事件相关联的结束事件和与所述事件相关联的至少一个预期用户,
周期性地将所述在场数据库中的多个在场条目与所述出席者数据库中的多个出席者条目相关,其中所述多个在场条目和所述多个出席者条目与同所述组织相关联的所述多个用户相关联,以及
根据对所述多个在场条目和所述多个出席者条目的所述周期性相关,创建包括所述至少一个声纹的、所述已知用户数据库中的新已知用户条目。
CN201180025755.1A 2010-05-24 2011-05-09 声纹标识 Active CN102985965B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/786,259 2010-05-24
US12/786,259 US8606579B2 (en) 2010-05-24 2010-05-24 Voice print identification for identifying speakers
PCT/US2011/035799 WO2011149647A2 (en) 2010-05-24 2011-05-09 Voice print identification

Publications (2)

Publication Number Publication Date
CN102985965A true CN102985965A (zh) 2013-03-20
CN102985965B CN102985965B (zh) 2015-04-01

Family

ID=44973214

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201180025755.1A Active CN102985965B (zh) 2010-05-24 2011-05-09 声纹标识

Country Status (5)

Country Link
US (2) US8606579B2 (zh)
EP (1) EP2577655B1 (zh)
CN (1) CN102985965B (zh)
TW (1) TWI536365B (zh)
WO (1) WO2011149647A2 (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104575575A (zh) * 2013-10-10 2015-04-29 王景弘 语音管理装置及其操作方法
CN104766604A (zh) * 2015-04-02 2015-07-08 努比亚技术有限公司 语音数据的标记方法及装置
CN105096937A (zh) * 2015-05-26 2015-11-25 努比亚技术有限公司 语音数据处理方法及终端
CN105427857A (zh) * 2015-10-30 2016-03-23 华勤通讯技术有限公司 生成文字记录的方法及系统
CN105659324A (zh) * 2013-08-20 2016-06-08 英特尔公司 协作音频对话证明
CN105788609A (zh) * 2014-12-25 2016-07-20 福建凯米网络科技有限公司 多路音源的关联方法和装置及评定方法和系统
CN105895077A (zh) * 2015-11-15 2016-08-24 乐视移动智能信息技术(北京)有限公司 录音标记方法及录音装置
CN105895102A (zh) * 2015-11-15 2016-08-24 乐视移动智能信息技术(北京)有限公司 录音编辑方法及录音装置
WO2016165346A1 (zh) * 2015-09-16 2016-10-20 中兴通讯股份有限公司 存储和播放音频文件的方法和装置
CN106782551A (zh) * 2016-12-06 2017-05-31 北京华夏电通科技有限公司 一种语音识别系统及方法
CN107532968A (zh) * 2014-10-01 2018-01-02 赛多利斯史泰迪生物技术有限责任公司 音频识别装置、音频识别方法和音频识别系统
CN107689225A (zh) * 2017-09-29 2018-02-13 福建实达电脑设备有限公司 一种自动生成会议记录的方法
CN107945806A (zh) * 2017-11-10 2018-04-20 北京小米移动软件有限公司 基于声音特征的用户识别方法及装置
CN107993665A (zh) * 2017-12-14 2018-05-04 科大讯飞股份有限公司 多人会话场景中发言人角色确定方法、智能会议方法及系统
CN108140385A (zh) * 2015-10-15 2018-06-08 三星电子株式会社 电子设备和用于控制电子设备的方法
CN111340555A (zh) * 2020-02-29 2020-06-26 重庆百事得大牛机器人有限公司 基于法律领域用户画像模型的建议决策系统及方法
CN111339257A (zh) * 2020-02-29 2020-06-26 重庆百事得大牛机器人有限公司 法律咨询用户的个性化用户画像识别方法

Families Citing this family (176)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
CN101673544B (zh) * 2009-10-10 2012-07-04 上海电虹软件有限公司 一种基于声纹识别和定位跟踪的交叉监控方法和系统
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8606579B2 (en) * 2010-05-24 2013-12-10 Microsoft Corporation Voice print identification for identifying speakers
US20110320201A1 (en) * 2010-06-24 2011-12-29 Kaufman John D Sound verification system using templates
EP2405365B1 (en) * 2010-07-09 2013-06-19 Sony Ericsson Mobile Communications AB Method and device for mnemonic contact image association
US9800721B2 (en) * 2010-09-07 2017-10-24 Securus Technologies, Inc. Multi-party conversation analyzer and logger
CN102023894A (zh) * 2010-11-18 2011-04-20 华为终端有限公司 一种用户操作界面的变换方法及终端
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US9225701B2 (en) 2011-04-18 2015-12-29 Intelmate Llc Secure communication systems and methods
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
EP2737476A4 (en) * 2011-07-28 2014-12-10 Blackberry Ltd METHOD AND DEVICES FOR COMMUNICATION RELIEF
US9401058B2 (en) * 2012-01-30 2016-07-26 International Business Machines Corporation Zone based presence determination via voiceprint location awareness
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
TWI502411B (zh) * 2012-04-26 2015-10-01 Acer Inc 觸控偵測方法與觸控偵測裝置
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9996628B2 (en) * 2012-06-29 2018-06-12 Verisign, Inc. Providing audio-activated resource access for user devices based on speaker voiceprint
US8744995B1 (en) 2012-07-30 2014-06-03 Google Inc. Alias disambiguation
US8571865B1 (en) * 2012-08-10 2013-10-29 Google Inc. Inference-aided speaker recognition
US8583750B1 (en) 2012-08-10 2013-11-12 Google Inc. Inferring identity of intended communication recipient
US8520807B1 (en) 2012-08-10 2013-08-27 Google Inc. Phonetically unique communication identifiers
US9946699B1 (en) * 2012-08-29 2018-04-17 Intuit Inc. Location-based speech recognition for preparation of electronic tax return
US9147399B1 (en) * 2012-08-31 2015-09-29 Amazon Technologies, Inc. Identification using audio signatures and additional characteristics
US8965759B2 (en) * 2012-09-01 2015-02-24 Sarah Hershenhorn Digital voice memo transfer and processing
US9058806B2 (en) * 2012-09-10 2015-06-16 Cisco Technology, Inc. Speaker segmentation and recognition based on list of speakers
US20140081637A1 (en) * 2012-09-14 2014-03-20 Google Inc. Turn-Taking Patterns for Conversation Identification
US9837078B2 (en) 2012-11-09 2017-12-05 Mattersight Corporation Methods and apparatus for identifying fraudulent callers
CN103035247B (zh) * 2012-12-05 2017-07-07 北京三星通信技术研究有限公司 基于声纹信息对音频/视频文件进行操作的方法及装置
KR20150104615A (ko) 2013-02-07 2015-09-15 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US9123330B1 (en) * 2013-05-01 2015-09-01 Google Inc. Large-scale speaker identification
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
CN105264524B (zh) 2013-06-09 2019-08-02 苹果公司 用于实现跨数字助理的两个或更多个实例的会话持续性的设备、方法、和图形用户界面
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US9294616B2 (en) * 2013-06-30 2016-03-22 International Business Machines Corporation Identifying a contact based on a voice communication session
TWI508057B (zh) * 2013-07-15 2015-11-11 Chunghwa Picture Tubes Ltd 語音辨識系統以及方法
US20150025888A1 (en) * 2013-07-22 2015-01-22 Nuance Communications, Inc. Speaker recognition and voice tagging for improved service
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
US10014006B1 (en) 2013-09-10 2018-07-03 Ampersand, Inc. Method of determining whether a phone call is answered by a human or by an automated device
US9053711B1 (en) * 2013-09-10 2015-06-09 Ampersand, Inc. Method of matching a digitized stream of audio signals to a known audio recording
TW201513095A (zh) * 2013-09-23 2015-04-01 Hon Hai Prec Ind Co Ltd 語音處理系統、裝置及方法
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US20150278737A1 (en) * 2013-12-30 2015-10-01 Google Inc. Automatic Calendar Event Generation with Structured Data from Free-Form Speech
WO2015150867A1 (en) * 2014-04-01 2015-10-08 Sony Corporation Assigning voice characteristics to a contact information record of a person
US9786297B2 (en) 2014-04-09 2017-10-10 Empire Technology Development Llc Identification by sound data
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
EP3149728B1 (en) 2014-05-30 2019-01-16 Apple Inc. Multi-command single utterance input method
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9563992B2 (en) 2014-12-01 2017-02-07 Honeywell International Inc. System and method of associating, assigning, and authenticating users with personal protective equipment using biometrics
US9922048B1 (en) 2014-12-01 2018-03-20 Securus Technologies, Inc. Automated background check via facial recognition
US9484033B2 (en) * 2014-12-11 2016-11-01 International Business Machines Corporation Processing and cross reference of realtime natural language dialog for live annotations
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9704488B2 (en) * 2015-03-20 2017-07-11 Microsoft Technology Licensing, Llc Communicating metadata that identifies a current speaker
US9672829B2 (en) * 2015-03-23 2017-06-06 International Business Machines Corporation Extracting and displaying key points of a video conference
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10048936B2 (en) * 2015-08-31 2018-08-14 Roku, Inc. Audio command interface for a multimedia device
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
TWI612516B (zh) * 2016-08-25 2018-01-21 財團法人資訊工業策進會 聲紋辨識裝置、聲紋辨識方法及其電腦程式產品
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
CN108780643B (zh) 2016-11-21 2023-08-25 微软技术许可有限责任公司 自动配音方法和装置
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10276169B2 (en) * 2017-01-03 2019-04-30 Lenovo (Singapore) Pte. Ltd. Speaker recognition optimization
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
KR102444165B1 (ko) 2017-01-20 2022-09-16 삼성전자주식회사 적응적으로 회의를 제공하기 위한 장치 및 방법
CN107181851A (zh) * 2017-04-25 2017-09-19 上海与德科技有限公司 通话控制方法及装置
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10650813B2 (en) * 2017-05-25 2020-05-12 International Business Machines Corporation Analysis of content written on a board
WO2018222877A1 (en) 2017-05-31 2018-12-06 R.R. Donnelley & Sons Company Electronic device, method and apparatus for producing an electronic device, and composition therefor
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
CN109147770B (zh) * 2017-06-16 2023-07-28 阿里巴巴集团控股有限公司 声音识别特征的优化、动态注册方法、客户端和服务器
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
CN108305615B (zh) 2017-10-23 2020-06-16 腾讯科技(深圳)有限公司 一种对象识别方法及其设备、存储介质、终端
CN107845386B (zh) * 2017-11-14 2020-04-21 维沃移动通信有限公司 声音信号处理方法、移动终端和服务器
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10535346B2 (en) * 2017-12-07 2020-01-14 Ca, Inc. Speech processing computer system forming collaborative dialog data structures
EP3503092A1 (en) * 2017-12-21 2019-06-26 Thomson Licensing Method for establishing a link between a device and a speaker in a gateway, corresponding computer program computer and apparatus
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
JP7079419B2 (ja) 2018-02-06 2022-06-02 日産自動車株式会社 情報処理方法及び情報処理装置
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11108912B2 (en) 2018-11-06 2021-08-31 International Business Machines Corporation Automated written indicator for speakers on a teleconference
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11302335B2 (en) * 2019-08-01 2022-04-12 Nuance Communications, Inc. System and method for managing an automated voicemail
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11076043B2 (en) 2019-10-04 2021-07-27 Red Box Recorders Limited Systems and methods of voiceprint generation and use in enforcing compliance policies
CN111243605A (zh) * 2020-01-13 2020-06-05 北京三快在线科技有限公司 业务处理方法、装置、设备及存储介质
CN113571086B (zh) * 2020-04-28 2022-07-08 阿里巴巴集团控股有限公司 声音信号处理方法、装置、电子设备及可读存储介质
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
EP4017021A1 (en) * 2020-12-21 2022-06-22 Sonova AG Wireless personal communication via a hearing device

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003506906A (ja) * 1998-10-23 2003-02-18 ベリゾン ラボラトリーズ インコーポレイテッド 会議通話のための話者識別
JP2008160667A (ja) * 2006-12-26 2008-07-10 Hitachi Communication Technologies Ltd 通信会議装置
JP2008294619A (ja) * 2007-05-23 2008-12-04 Yamaha Corp 音声通信システム
US20090187405A1 (en) * 2008-01-18 2009-07-23 International Business Machines Corporation Arrangements for Using Voice Biometrics in Internet Based Activities
JP2010060850A (ja) * 2008-09-04 2010-03-18 Nec Corp 議事録作成支援装置、議事録作成支援方法、議事録作成支援用プログラム及び議事録作成支援システム

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5806040A (en) * 1994-01-04 1998-09-08 Itt Corporation Speed controlled telephone credit card verification system
AU7115400A (en) 1999-08-31 2001-03-26 Accenture Llp System, method, and article of manufacture for a voice recognition system for identity authentication in order to gain access to data on the internet
US6782413B1 (en) * 2000-02-11 2004-08-24 Microsoft Corporation Distributed conference bridge
US6748356B1 (en) 2000-06-07 2004-06-08 International Business Machines Corporation Methods and apparatus for identifying unknown speakers using a hierarchical tree structure
US7047192B2 (en) 2000-06-28 2006-05-16 Poirier Darrell A Simultaneous multi-user real-time speech recognition system
US7487112B2 (en) * 2000-06-29 2009-02-03 Barnes Jr Melvin L System, method, and computer program product for providing location based services and mobile e-commerce
US6795808B1 (en) * 2000-10-30 2004-09-21 Koninklijke Philips Electronics N.V. User interface/entertainment device that simulates personal interaction and charges external database with relevant data
US6728679B1 (en) * 2000-10-30 2004-04-27 Koninklijke Philips Electronics N.V. Self-updating user interface/entertainment device that simulates personal interaction
US6731307B1 (en) * 2000-10-30 2004-05-04 Koninklije Philips Electronics N.V. User interface/entertainment device that simulates personal interaction and responds to user's mental state and/or personality
US7130883B2 (en) * 2000-12-29 2006-10-31 Webex Communications, Inc. Distributed network system architecture for collaborative computing
ATE335195T1 (de) * 2001-05-10 2006-08-15 Koninkl Philips Electronics Nv Hintergrundlernen von sprecherstimmen
US20040029567A1 (en) * 2001-05-25 2004-02-12 Timmins Timothy A. Technique for effectively providing personalized communications and information assistance services
US7139722B2 (en) 2001-06-27 2006-11-21 Bellsouth Intellectual Property Corporation Location and time sensitive wireless calendaring
US7333798B2 (en) * 2002-08-08 2008-02-19 Value Added Communications, Inc. Telecommunication call management and monitoring system
US7251786B2 (en) 2003-02-26 2007-07-31 Microsoft Corporation Meeting information
US7702730B2 (en) * 2004-09-03 2010-04-20 Open Text Corporation Systems and methods for collaboration
US8639629B1 (en) * 2005-02-02 2014-01-28 Nexus Payments, LLC System and method for accessing an online user account registry via a thin-client unique user code
WO2006116549A2 (en) * 2005-04-27 2006-11-02 Ticketmaster Methods and systems for determining user location
US7679518B1 (en) 2005-06-28 2010-03-16 Sun Microsystems, Inc. Meeting facilitation tool
US7864987B2 (en) * 2006-04-18 2011-01-04 Infosys Technologies Ltd. Methods and systems for secured access to devices and systems
CN101221761A (zh) 2007-01-12 2008-07-16 台达电子工业股份有限公司 具有智慧型鉴别调适功能的语音辨识方法及系统
US9552571B2 (en) 2007-02-02 2017-01-24 Blackberry Limited Electronic device and method of meeting notification
US20090177476A1 (en) 2007-12-21 2009-07-09 May Darrell Method, system and mobile device for registering voice data with calendar events
US20090204414A1 (en) 2008-02-07 2009-08-13 Bharat Punjalal Shah Method and system to enable in-context pre-meeting dialogue and collaboration among invitees
US20090204904A1 (en) 2008-02-08 2009-08-13 Research In Motion Limited Electronic device and method for determining time periods for a meeting
US8866607B2 (en) * 2009-12-23 2014-10-21 Verizon Patent And Licensing Inc. Method and system of providing location-based alerts for tracking personal items
US8428227B2 (en) * 2010-05-18 2013-04-23 Certicall, Llc Certified communications system and method
US8606579B2 (en) * 2010-05-24 2013-12-10 Microsoft Corporation Voice print identification for identifying speakers

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003506906A (ja) * 1998-10-23 2003-02-18 ベリゾン ラボラトリーズ インコーポレイテッド 会議通話のための話者識別
JP2008160667A (ja) * 2006-12-26 2008-07-10 Hitachi Communication Technologies Ltd 通信会議装置
JP2008294619A (ja) * 2007-05-23 2008-12-04 Yamaha Corp 音声通信システム
US20090187405A1 (en) * 2008-01-18 2009-07-23 International Business Machines Corporation Arrangements for Using Voice Biometrics in Internet Based Activities
JP2010060850A (ja) * 2008-09-04 2010-03-18 Nec Corp 議事録作成支援装置、議事録作成支援方法、議事録作成支援用プログラム及び議事録作成支援システム

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105659324A (zh) * 2013-08-20 2016-06-08 英特尔公司 协作音频对话证明
CN105659324B (zh) * 2013-08-20 2019-01-22 英特尔公司 协作音频对话证明
CN104575575A (zh) * 2013-10-10 2015-04-29 王景弘 语音管理装置及其操作方法
CN107532968A (zh) * 2014-10-01 2018-01-02 赛多利斯史泰迪生物技术有限责任公司 音频识别装置、音频识别方法和音频识别系统
CN107532968B (zh) * 2014-10-01 2019-09-13 赛多利斯史泰迪生物技术有限责任公司 音频识别装置、音频识别方法和音频识别系统
CN105788609A (zh) * 2014-12-25 2016-07-20 福建凯米网络科技有限公司 多路音源的关联方法和装置及评定方法和系统
CN104766604A (zh) * 2015-04-02 2015-07-08 努比亚技术有限公司 语音数据的标记方法及装置
CN104766604B (zh) * 2015-04-02 2019-01-08 努比亚技术有限公司 语音数据的标记方法及装置
CN105096937A (zh) * 2015-05-26 2015-11-25 努比亚技术有限公司 语音数据处理方法及终端
WO2016165346A1 (zh) * 2015-09-16 2016-10-20 中兴通讯股份有限公司 存储和播放音频文件的方法和装置
CN108140385A (zh) * 2015-10-15 2018-06-08 三星电子株式会社 电子设备和用于控制电子设备的方法
CN105427857B (zh) * 2015-10-30 2019-11-08 华勤通讯技术有限公司 生成文字记录的方法及系统
CN105427857A (zh) * 2015-10-30 2016-03-23 华勤通讯技术有限公司 生成文字记录的方法及系统
WO2017080239A1 (zh) * 2015-11-15 2017-05-18 乐视控股(北京)有限公司 录音标记方法及录音装置
WO2017080235A1 (zh) * 2015-11-15 2017-05-18 乐视控股(北京)有限公司 录音编辑方法及录音装置
CN105895077A (zh) * 2015-11-15 2016-08-24 乐视移动智能信息技术(北京)有限公司 录音标记方法及录音装置
CN105895102A (zh) * 2015-11-15 2016-08-24 乐视移动智能信息技术(北京)有限公司 录音编辑方法及录音装置
CN106782551A (zh) * 2016-12-06 2017-05-31 北京华夏电通科技有限公司 一种语音识别系统及方法
CN106782551B (zh) * 2016-12-06 2020-07-24 北京华夏电通科技有限公司 一种语音识别系统及方法
CN107689225A (zh) * 2017-09-29 2018-02-13 福建实达电脑设备有限公司 一种自动生成会议记录的方法
CN107945806A (zh) * 2017-11-10 2018-04-20 北京小米移动软件有限公司 基于声音特征的用户识别方法及装置
CN107945806B (zh) * 2017-11-10 2022-03-08 北京小米移动软件有限公司 基于声音特征的用户识别方法及装置
CN107993665A (zh) * 2017-12-14 2018-05-04 科大讯飞股份有限公司 多人会话场景中发言人角色确定方法、智能会议方法及系统
CN107993665B (zh) * 2017-12-14 2021-04-30 科大讯飞股份有限公司 多人会话场景中发言人角色确定方法、智能会议方法及系统
CN111340555A (zh) * 2020-02-29 2020-06-26 重庆百事得大牛机器人有限公司 基于法律领域用户画像模型的建议决策系统及方法
CN111339257A (zh) * 2020-02-29 2020-06-26 重庆百事得大牛机器人有限公司 法律咨询用户的个性化用户画像识别方法
CN111340555B (zh) * 2020-02-29 2023-07-18 重庆百事得大牛机器人有限公司 基于法律领域用户画像模型的建议决策系统及方法

Also Published As

Publication number Publication date
US9691393B2 (en) 2017-06-27
US20110288866A1 (en) 2011-11-24
US8606579B2 (en) 2013-12-10
EP2577655A4 (en) 2015-05-20
CN102985965B (zh) 2015-04-01
EP2577655A2 (en) 2013-04-10
WO2011149647A2 (en) 2011-12-01
WO2011149647A3 (en) 2012-02-23
EP2577655B1 (en) 2016-11-23
TWI536365B (zh) 2016-06-01
US20140100849A1 (en) 2014-04-10
TW201142823A (en) 2011-12-01

Similar Documents

Publication Publication Date Title
CN102985965B (zh) 声纹标识
US11069367B2 (en) Speaker association with a visual representation of spoken content
US20190327103A1 (en) Summarization system
Mostefa et al. The CHIL audiovisual corpus for lecture and meeting analysis inside smart rooms
US9037461B2 (en) Methods and systems for dictation and transcription
US8731919B2 (en) Methods and system for capturing voice files and rendering them searchable by keyword or phrase
US8887303B2 (en) Method and system of processing annotated multimedia documents using granular and hierarchical permissions
US11916913B2 (en) Secure audio transcription
US8731918B2 (en) Method and apparatus for automatic correlation of multi-channel interactions
CN107211027A (zh) 感知质量比会议中原始听到的更高的后会议回放系统
WO2012175556A2 (en) Method for preparing a transcript of a conversation
US11909784B2 (en) Automated actions in a conferencing service
CN103514165A (zh) 用于识别对话中所提及的人的方法和装置
JP5206553B2 (ja) 閲覧システム、方法、およびプログラム
KR20190058066A (ko) 상담데이터 관리 방법 및 장치
US7949118B1 (en) Methods and apparatus for processing a session
Salamin et al. Automatic role recognition in multiparty conversations: An approach based on turn organization, prosody, and conditional random fields
JP2009122839A (ja) 電子会議支援システム
CN110460798B (zh) 视频访谈服务处理方法、装置、终端与存储介质
US9812131B2 (en) Identifying and displaying call participants using voice sample
US20140278404A1 (en) Audio merge tags
Walter-Tscharf Multi-tenant Cloud SaaS Application for a meeting to task transition via deep learning models
US20230005472A1 (en) Automated context-specific speech-to-text transcriptions
KR20220089367A (ko) 회의록 작성 시스템
CN110417926A (zh) 联系建立方法、系统和计算机可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150728

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150728

Address after: Washington State

Patentee after: Micro soft technique license Co., Ltd

Address before: Washington State

Patentee before: Microsoft Corp.