CN107210038B - 多媒体系统中的说话者识别 - Google Patents

多媒体系统中的说话者识别 Download PDF

Info

Publication number
CN107210038B
CN107210038B CN201680007725.0A CN201680007725A CN107210038B CN 107210038 B CN107210038 B CN 107210038B CN 201680007725 A CN201680007725 A CN 201680007725A CN 107210038 B CN107210038 B CN 107210038B
Authority
CN
China
Prior art keywords
vector
user
source
information
vectors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201680007725.0A
Other languages
English (en)
Other versions
CN107210038A (zh
Inventor
斯文·伊万·谢普斯通
索伦·博勒普詹森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bang and Olufsen AS
Original Assignee
Bang and Olufsen AS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bang and Olufsen AS filed Critical Bang and Olufsen AS
Publication of CN107210038A publication Critical patent/CN107210038A/zh
Application granted granted Critical
Publication of CN107210038B publication Critical patent/CN107210038B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies

Abstract

一种用于识别多媒体系统的多个用户中的用户的方法,包括:使用总可变性建模来提取用于语音话语的i向量;将所提取的i向量与i向量集的集合进行比较,以便识别与提取的i向量最相似的目标集;以及根据与所识别的目标集相关联的访问简档授予对多媒体系统的访问权。此外,对于使用特定数据源获取的每个语音话语,源变化通过以下方式被最小化:使与源相关联的信息先验的平均值周围的语音话语的一阶统计量重新定中心;并且当提取用于语音话语的i向量时,使用与源相关联的信息先验的协方差。

Description

多媒体系统中的说话者识别
发明领域
本发明涉及应用于多媒体呈现系统的控制和使用中的说话者识别,特别地用于以更加用户友好的操作模式浏览和选择媒体文件,并且区分由一个或更多个用户给出的口头命令。
本发明还涉及从多个数字数据源获取和提供向个体用户供给的多媒体信息的访问控制。访问控制方法将在多用户和多房间环境中使用。本发明的主要方面是基于i向量提取和验证的说话者识别方法。
发明背景
通常,家用电器(如AV系统和媒体服务器)不会在真正的多用户环境中运行。通常,具有带有音乐、电影、照片和其他数字文件的文件夹的服务器/磁盘可以被所有用户无条件地访问,所有用户都具有相同的优先级和访问权限。每个人都可以访问和处理所有信息,如编辑文件、读取文件、写入/创建文件、删除文件和执行文件。
在US 8,924,468中公开了适用于多用户访问和多媒体信息的分发的系统的现有技术。
在DK PA 201400147中公开了用于i向量检测和分类的方法的现有技术。
到目前为止,挑战是识别可能已经分配个体资源的特定用户。要求用户在从IT系统知道的普通事件中“登录”以识别他们自己是非常不方便的。
经由口头命令和语音识别来识别用户的新方法是可行的应用模式,但现有系统在识别命令并将这些命令转换为相关控制命令时需要在线处理方面的大量资源。
i向量特征提取方法近年来一直是说话者识别中最先进的技术。i向量捕获总可变性,其可包括说话者、频道和源可变性。可变长度语音话语被映射到驻留在所谓的总可变性空间中的固定长度的低维向量中。
虽然可以直接使用原始i向量分布来工作,但是i向量的固定长度已经导致了许多功能强大且众所周知的频道补偿技术,其处理不期望的频道可变性并因此提高了说话者识别性能。
作为一个好的起点,线性判别分析(LDA)是一种非概率方法,其被用于进一步降低i向量的维数,其同时最大化说话者之间的可变性,并最小化说话者内部的可变性。在定中心和白化之后,i向量或多或少均匀分布在超球体周围。
通常进行的重要的进一步的改进是长度归一化,其将i向量分布转换成对模型更直接的(几乎)高斯分布。概率LDA是一种生成模型,其使用因子分析方法来单独对导致说话者之间和讲话者内部变化的因素进行建模。在现有技术中已经提出了在i向量方法的背景下的PLDA的许多变体。
另一种众所周知的方法是类内协方差归一化(WCCN),其使用类内协方差矩阵的逆来对SVM分类器中的线性内核进行归一化。在i向量建模中使用多个级联技术是典型的:例如为了确保PLDA的高斯假设,在PLDA阶段之前进行白化,然后进行长度归一化并不罕见。
由于频道变化和源变化都有助于降低辨别说话者的能力,因此提出的反对频道变化和源变化的方法彼此相似并不奇怪。
当从异构数据集中提取i向量时,它们不仅会捕获说话者和频道可变性,还会捕获源变化。如果未解决此源变化,则会对说话者识别性能产生不利影响。源变化的概念与语音获取方法(例如,电话相对于麦克风频道类型)和录制场景(例如,电话对话相对于面谈风格)有关。风格和频道类型的各种组合(例如,通过麦克风频道记录的面谈语音)形成由相对均匀的子集组成的异构数据集。在此工作中,数据集由电话、麦克风(通过麦克风频道录制的电话对话)和面谈子集或源组成。
存在几个提议来解决在总可变性建模的背景下的源变化问题。异构数据集中常见的现象是以下事实:并不是所有的源都是同样充裕的,且大多数的说话者只出现在源中的仅一个源中。在LDA的背景中,源变化将被强烈地表示并被看作为说话者之间可变性的一部分,并因此将在最终的LDA变换中被最优化。解决这个问题的一个提议是确定合适的说话者间散射矩阵。
对于总可变性矩阵本身的训练,尽管相当粗糙,但是最简单的方法之一是仅仅将所有训练数据汇集到异构集中,而不区分麦克风和电话数据。更加结构化的提议建议在已经训练过的电话数据的总可变性矩阵之上训练用于麦克风子集的辅助矩阵。
然后从通过连结这两个矩阵形成的总可变性矩阵提取i向量。使用这种方法看到的有趣的观察在于,麦克风数据驻留在由矩阵连结所定义的组合空间中,而电话数据仅驻留在电话空间中。
在总可变性建模中,对于说话者、频道和总可变性潜在变量,假定无信息先验,因为在使用信息先验时,通用性没有增益。至少在涉及均匀的数据集时,该断言成立。信息先验编码领域知识的观念不是新的概念,而以前已经被用于机器学习应用。在连续语音识别的背景中,在稀疏数据的情况下也使用了信息先验来改善无限结构SVM模型的普遍化。
本发明的一般公开
本发明公开了一种用于识别多个用户中的个体用户以用于对多媒体呈现系统的控制和使用的改进方法。
一种用于识别多媒体系统的多个用户中的用户的方法,该多媒体系统包括用于从一个或更多个数字信息源提供多媒体内容的一个或更多个设备,以便提供对来自多媒体系统的多媒体内容的单独调整的访问和控制,该方法包括以下步骤:提供i向量集的集合,每个i向量集包括基于多媒体系统的用户所说出的一个或更多个单词并且与该用户的访问简档相关联的i向量;从当前用户获取语音话语,并使用总可变性建模来提取用于语音话语的i向量;将提取的i向量与集合中的每个i向量集进行比较,以便识别与提取的i向量最相似的目标集;根据与识别的目标集相关联的访问简档向当前用户授予对多媒体系统的访问权,其中使用多个源之一来获取语音话语。在总可变性建模中,通过以下操作将源变化最小化:
-对于每个数据源,估计源特定信息先验,其由平均值和协方差定义,以及
-对于使用特定数据源获取的每个语音话语,将语音话语的一阶统计量围绕与源相关联的信息先验的平均值重新定中心,并且当提取用于语音话语的i向量时,使用与源相关联的信息先验的协方差。
根据本发明的方面,特定源的概率分布从语音数据被估计出,并且随后在贝叶斯意义中使用以消除总可变性模型中的源可变性。估计的概率分布被称为“源特定信息先验”。根据本发明的解决方案增强了基于i向量的声音识别的性能。
根据一种方法,已经训练的总可变性矩阵和标准的无信息先验被用于从数据的每个子集提取i向量,并然后使用这些i向量来估计源特定信息先验。源特定信息先验随后被用于后验概率分布的计算(称为“后验”)以计算新的i向量集。(后验的平均值对应于i向量。)根据这种方法,使用源特定先验的i向量可以被用于补偿不需要的源可变性。
根据另一种方法,再次训练总可变性矩阵。在这里,源特定先验的作用被扩展到对于给定训练迭代重新估计“信息”总可变性矩阵所需的每个期望最大化步骤中的后验平均值和协方差的计算。对于每个训练迭代,初步源特定先验被计算并用于更新信息总可变性矩阵。一旦训练完成,信息总可变性矩阵被用于提取i向量,并根据第一种方法估计源特定先验。根据这种方法,可以通过使用先验信息来改善总可变性矩阵的初始对准来提高第一种方法的性能。
根据又一种方法,使用因子分析来估计信息先验。在这种方法中,考虑后验的平均值和协方差(其中再次地,平均值对应于i向量)。
根据本发明的解决方案可能在其中需要识别大量不同的声音的情况下特别有用。这样的情况存在,例如,当用户的声纹(i向量)被存储在云中时(与许多其他一起),或者当识别设备的功能被扩展到包括不是家庭一部分的其他用户时。
根据一个实施例,目标i向量的集和相关联的访问简档被存储在远程数据库中并使其可被多于一个多媒体系统访问。
涉及大量不同用户的一个具体情况是基于i向量声纹的建议的协同过滤。协同过滤意味着用户的先前选择与其他用户的选择相匹配。然后基于匹配用户做出的附加选择,向用户提供内容建议。在协同过滤中,希望的是包括尽可能多的用户,并且然后声音识别的性能变得至关重要。根据一个实施例,存储每个用户的内容消费模式,并且基于与当前用户具有相似选择的其他用户的选择向当前用户提供建议。
根据另一个实施例,该方法包括提供类的集,每个类包括基于来自具有相似特性的用户的语音的i向量的集,并且将所提取的i向量与每个类进行比较,以识别最类似于提取的i向量的类。有用的特性的示例是年龄、性别和情绪(例如,“愤怒”、“悲伤”、“中等”等)。每次用户识别他/她自己时,可以进行对年龄、性别和情绪的识别。
根据本发明,根据用于访问如按照用户定义的资源的预定权限,向多个个体用户提供诸如数据源和目的设备的系统资源的专用访问权。
更具体地,本发明实现了对个体用户能够并可以通过许多设备(诸如,网关、服务器、媒体控制器)来访问哪些信息源的控制以及在诸如AV系统、远程命令器、手机、媒体播放器、例如IPad等的平板电脑和智能手机之类的展示设备上的呈现。
访问媒体信息通常意味着接收、读取和/或发送用于给定目的的信息,诸如体验或传送/移动媒体信息。
访问权限被应用于考虑到正在竞争获得对一个或更多个资源的访问和控制的其他用户的权限,按照用户确定对相同资源的访问和控制的允许。
访问简档可以是描述用户相对于设备的权限的任何类型的信息。这样的权限可能是打开或关闭设备、将音乐声调大/调小、改变频道/流。
访问方法可以包括在多媒体系统中的个体设置和相关功能能力,按照用户这例如是但不限于:
●在房间或房间的一部分(即,域)中的声偏好;偏好是呈现类型(多声道、立体声、全向声空间)、默认音量、默认滤波器设置(低声部、高声部、平衡)。
●媒体源偏好和呈现(频道ID、房间/域名)。
●共享选项(私人、按照房间/域共享、按照用户共享)。
●使用模式记录(个人、全部、按照用户、按照房间/域)。
个体用户对个体流的访问权限可能会影响用户删除/停止/启动/更改流的权利。可以由目的设备、媒体信息的源或任何其他设备来执行该更改/删除等。
在当前背景中,媒体信息可以是要提供给人的任何类型的信息,诸如音频、视频、图像/图片等。
数字信息的源可以是可以从其获得或访问数字信息的任何源:关于WWW、内联网、LAN、WAN、储存器(硬盘、RAM、ROM、PROM、闪光灯、磁带、CD-ROM、DVD等)、相机、麦克风等的或经由其可访问的信息载体/存储/储存器/提供者。
目的设备可以是适于向用户提供媒体信息的任何类型的设备,例如,TV、音频/视频、多媒体系统、媒体播放器、立体声、监视器等。
此外,本发明支持多媒体系统,包括在多房间概念中的音频或音频/视频的分布,其中两个或更多个用户共享源和呈现设备。
因此,当用户正在移动时,与个体用户相关的个体设置可以适应于实际使用场景,在某个房间中或房间的某个部分中。
根据一个实施例,只有当新用户的i向量足够(根据预定阈值)不同于所有先前存档的i向量时才识别和注册该新用户。这确保使用声音识别的可靠的用户识别。阈值可以例如基于最小余弦距离。
根据再一实施例,i向量集包括基于第一用户说出的一个或更多个单词并与第一访问简档相关联的第一i向量和基于由第二用户说出的一个或更多个单词并与第二访问简档相关联的第二i向量,并且方法还包括向第一用户分配第一用户识别,向第二用户分配第二用户识别,将第一用户识别为当前用户,从第一用户接收指示第二用户识别的第一输入,以及根据第二访问简档授予第一用户访问权。使用这种方法,一个用户可以根据另一个用户的(例如,家庭成员的)访问简档访问媒体内容。
在这种情况下,每个访问简档可以定义用户相关的访问权限。例如,通常不允许一个用户修改另一用户的偏好。
每个用户识别可以被分配给设备上的功能键或设备上的图形图标。
识别可以通过由用户激活诸如触摸板、触摸按钮、滚轮等的元件来执行,或者输入可被检测和用作识别的视觉或音频指令。识别可以仅仅是以下信息:当前提供的流被识别或者多个选择可以提供给用户,然后由用户识别其中之一。
在一个实施例中,识别步骤还包括通过用户所说的口述单词来识别用户。通常,这是确定用户权限所必需的。可选地,用户可以由例如用户的个人可检测令牌来间接识别,或者目的设备的指令(或目的设备本身)可以是用户特有的。
在一个实施例中,一个或更多个源设备被连接到连接目的设备的一个或更多个的本地网络。然后,也可以通过该网络提供或传输流。这个网络当然可以是无线的和/或经由电线。
此外,一个或更多个源设备优选地经由适于例如与WWW,WAN等通信的诸如路由器、交换机、调制器、收发器等的网关设备连接到全局网络。以这种方式,可以获得来自本系统外部的信息。
可以识别一个或更多个用户在房间/域中的存在,然后可以将该识别用于对一个或更多个源设备和一个或更多个目的设备的访问。
在一种情况下,用户与输出唯一标识符的预定便携式设备有关,识别步骤包括通过唯一标识符识别用户。可以间歇地或者当输出其他信息或指令时(诸如当指示目的设备时或当识别流时),输出该唯一标识符。
系统可以设置有用于执行第一方面的方法的装置。
在系统的一个实施例中,识别一个或更多个用户在房间/域中的存在,并将该识别用于对一个或更多个源设备和一个或更多个目的设备的访问。
本发明的另一方面涉及一种通过一个或更多个设备来访问和控制来自一个或更多个数字信息源的媒体信息的方法,该一个或更多个设备为多个用户中的个体用户提供内容,该方法包括以下步骤:
应用与第一用户相关的第一i向量,并且基于由第一用户说出的一个或更多个单词生成和存档第一i向量,以及
应用与第二用户相关的第二i向量,并且基于由第二用户说出的一个或更多个单词生成和存档第二i向量,以及
向与第一i向量相关的用户分配第一用户识别,以及
向与第二i向量相关的用户分配第二用户识别,以及
使得第一用户和/或第二用户能够单独访问和控制可用的媒体源和呈现设备。
本发明的另一方面涉及一种用于最小化异构数据(多个源)的总可变性建模中的源变化的方法,借此使用信息先验代替无信息先验来对每个源建模,并且该方法的特征在于:
对于每个数据源,并且在提取I向量之前,估计信息先验,其由其自身的平均值和协方差定义,并且
其中使用信息先验,并且其中源可变性的补偿方法分为两个阶段:
-在提取用于每个语音话语的i向量之前,在高维超向量空间中,一阶统计量围绕源特定平均值重新定中心;
-当提取用于每个语音话语的i向量时,使用信息先验的源特定协方差来代替单位矩阵。
附图简述
参照示出了本发明的当前优选的实施例的附图,将更详细地描述本发明。
图1示出根据本发明的实施例的说话者检测。
优选实施例的详细描述
总体技术涉及多个用户可如何与大量多媒体信息源交互以获得对这些信息源的访问权和控制。
根据按照用户的预定义的访问权限和功能特征及选项以及可选地根据由用户他/她自己按照用户限定的多个偏好,用于访问和控制的可用信息是个体的。
用户可以获取对信息源的访问权,并且必须具有将访问的信息提供到目的设备上的必要权限,例如在专用说话者组(目的)上播放特定音乐文件(源)。
可以由用户经由无线和便携式遥控设备来控制信息源。个体用户在逻辑上与一个专用遥控器相关;这意味着遥控器成为反映并向特定用户提供仅根据用户的相关信息和用户与在用户的控制下的完整系统设备的子集的用户交互的设备。
因此,该系统实现多媒体信息的源被访问并且与呈现在与该用户相关的目的设备上并呈现在与该个体用户相关的远程便携式设备上的信息的相关子集一起被提供给特定一个个体用户,并且其中对设备的访问由个体用户访问简档管理。
参考图1,将讨论本发明的实施例。
使用i向量方法来进行所提出的说话者识别。这由离线注册阶段(定义模式)和在线阶段(运行时模式)组成。
在离线阶段中,使用大量的中性语音数据来训练总可变性矩阵。总可变性矩阵只需被生成一次,并且可以从其中可以提取i向量。生成总可变性矩阵,包括来自多个用户(25)的中性语音数据。将矩阵存档在被称为“用户目标”的i向量数据(10)中。
在注册阶段,注册说话者模型。对于家庭中的每个说话者,需要生成目标模型(i向量)。在现实设置中,提出了注册过程或设置过程。对于每个个体用户,基于诸如“你好”的口述单词生成实际的i向量。更多的语音,可以获得更好的性能。例如,可以使用每个人约一分钟的语音。
将用户存档在被称为“实际用户”的i向量数据(10)中。
生成i向量数据的装置(15、25)可以是智能手机,包括用于检测说话者的麦克风和用于生产和评估i向量(10)的以“应用”形式的软件包。
i向量处理中的一个选项是,可以从用户给出的口述单词中推断人的性别男性/女性或者甚至儿童/成人。这可以通过存储i向量类的集来实现,每个包括基于来自具有相似特性(年龄、性别等)的用户的语音的i向量的集。然后可以将提取的i向量与这些类进行比较,以便识别与提取的i向量最相似的类。因此,可以确定诸如年龄、性别、情绪等特征。请注意,年龄、性别和情绪的类可以在系统投入使用之前进行注册,而用户的身份则在进行时注册。在用户使用他们的语音来访问系统时,年龄、性别、情绪以及ID都会被识别。
在识别个体用户的过程中,第一用户在用户/性别表(20)中被分配用户识别U1。与第一用户不同的下一个用户在用户/性别表(20)中被分配用户识别U2。与任何先前识别的用户不同的随后的新用户被分配下一个可用的用户ID,例如U10。
命令程序(55)被实现以编辑/删除用户表(20)中的条目。此外,命令程序支持将功能按钮分配给功能表(30)中的个体用户识别。例如,用户(55)可以分配用户识别U1以关联名为“黄色”的物理按钮,该按钮是远程终端上的键或触摸屏上的图标。
在运行时模式下,用户说出单词,例如“你好”,且系统确定其目标模型。首先,未知人员的短的语音话语被转换为i向量。然后将该i向量与i向量空间中的所有其他说话者的i向量进行比较,并且将具有最短余弦距离的i向量选为目标说话者。
通过使用阈值,可以相对容易地确定测试i向量与未知人员相关,例如,如果测试i向量与所有目标i向量之间的余弦距离大于定义的阈值Θ。对于未知人员说话时的情况,可以实现具体的程序。一种替代方式是检测默认简档。
一旦确定了目标人员,系统的其余部分(如远程控制)能够以该人员的简档设置。
用户可以激活与他/她的用户识别(20)相关的功能按钮-“红色/绿色/蓝色/黄色”(45),并然后系统将通过启用对于由指定的用户(addressed user)给出的以下命令的进入模式来反应(15)。
在运行期间,杂项数据(90)可按照用户被记录(65)和管理,例如但不限于:
●用户模式播放记录(个人、全部、按照用户、按照房间/域)。
●记录随时间变化的用户行为的模式播放(40),例如哪个媒体处于活动状态、哪里(房间/域)、何时、多长时间。
●在房间或房间的一部分(即,域)中的声偏好(50、60);偏好是呈现类型,例如,多声道、立体声、全向声空间、默认音量、默认滤波器设置(低声部、高声部、平衡)。
●媒体源和呈现(70、80)偏好,例如,在房间/域ID中的频道ID以及在用户所在的房间中被用作默认播放列表。
●共享选项/偏好(60),例如,私人、按照房间/域共享、按照用户共享。
本发明在家用电器中是非常有用的,其中多个用户并行播放并且同时以安全的方式共享全套的系统特征和资源以及其中以可接受的方式重视源材料的权限和目的设备的共享。
一个或更多个便携式设备可能存在于房间中;设备中的每一个单独地并且根据应用所讨论的设备的实际用户来更新。
便携式设备可以经由诸如红外线、超声信号、蓝牙或无线LAN的标准手段向/从目的设备进行通信。
便携式设备的示例是但不限于:远程终端、AV命令器、PDA、IPod、手机、多媒体播放器等。
本发明的应用领域的示例是但不限于:音频/视频系统、TV、PC、笔记本电脑、DVD、HDD、SDA、SSR、媒体播放器和服务器。所提及的处理多种不同类型的源材料的系统设备,其类型可以是但不限于:数字广播数据、数字TV频道、数字音频频道、播客、万维网文件档案、以及音乐文件提供商和视频文件提供商。
在下文中,将更详细地讨论i向量识别的细节,其集中于对根据本发明的预定概率分布(称为信息先验)的使用。
i向量范例
总可变性模型假定话语的说话者和频道相关的GMM超向量m被建模为
mi=m0+Tw (1)
其中,m0是通过连结来自UBM的平均向量而获得的说话者无关的超向量。隐藏变量w对矩阵T的列进行加权,以解释观察到的与m0的偏差。矩阵T被定义为具有低的秩,以便对其中说话者和频道可变性(因此名称为总可变性矩阵)最相关的子空间建模。总可变性矩阵的训练遵循与训练特征声音矩阵相同的过程。主要的区别在于,来自相同说话者的话语单独地被视为不相关的会话。
令{o1,o2,...oT}表示给定话语O的特征序列。假定特征向量是从其平均超向量GMM中取出的,如(1)所示。对于GMM的每个混合物组成c,定义了以下Baum-Welch统计:
Figure BDA0001363428030000121
其中,t延伸到话语的所有帧上,且γt(c)是帧ot对第C高斯的占用。我们进一步将定中心的一阶统计量表示为
Figure BDA0001363428030000122
此外,令N表示其对角块为N(c)×I的对角矩阵,并令
Figure BDA0001363428030000131
表示通过连结
Figure BDA0001363428030000132
获得的超向量,其中c在两种情况下均延伸到所有混合物上。为了提取i向量,给定已经训练的T,我们计算在以观察为条件的潜在变量w上的后验分布。假设标准正态先验w~N(0;I),后验分布也是高斯分布,如下
Figure BDA0001363428030000133
其中平均向量
Figure BDA0001363428030000134
以及精度矩阵L=(I+TT-1NT。然后通过后验分布的平均向量φ给出i向量。类似于N,在(4)中的矩阵∑通过使其对角块由UBM的协方差矩阵组成而构成。
在隐藏变量w上的先验通常被认为是标准正态分布。虽然确实有可能定义信息先验,但是这个先验可以可总是从属于全局平均向量m0和载荷矩阵T。这个步骤导致产生的先验变成无信息,从而不需要改变(4)。因此,至少在数据集是均匀的情况下,没有令人信服的理由使用信息先验。在下面,我们示出了的形式
Figure BDA0001363428030000135
(其中μp≠0且∑p≠I))的信息先验可以如何被建模和用于i向量提取,以及在涉及异构数据集时这样做的好处。在NIST系列的说话者识别评估(SRE)中,例如,数据集包含“电话”、“面谈”或“麦克风”语音源。
介绍信息先验
通过捕获参数之间的底层依赖关系,信息先验编码领域知识(即源变化)。在本节中,我们提出使用最小散度准则(minimum divergence criterion)来估计来自异构数据集的源特定先验。然后我们示出如何在i向量提取公式中并入信息先验。
最小散度估计
考虑其中个体语音源(例如,NIST SRE中的电话、麦克风或面谈)形成了相对均匀的子集,并且每个语音源具有数量为I的话语的情况。对于每个话语,我们使用已训练的T矩阵根据(4)计算后验分布。给定后验分布的集,我们寻求最好地描述I后验分布的高斯分布N(μp,∑p)。这可以通过最小化来自所有的I后验
Figure BDA0001363428030000141
的所需分布N(μp,∑p)的Kullback-Leibler(KL)散度来实现。封闭解由平均向量组成
Figure BDA0001363428030000142
以及协方差矩阵
Figure BDA0001363428030000143
请注意,对于每个语音源,话语I的数量通常是不同的。这里的核心思想是对所有数据源使用单个T矩阵,其中对由于不同源引起的可变性进行先验建模。总之,T和源特定先验的组合更好地对来自异构数据集的源上的变化进行建模。
注意,信息先验的平均值μp通过属于目标集的所有i向量的平均值给出(记住,i向量由后验分布的平均值给出)。i向量与μp的偏差形成协方差∑p的经验项,而第二项说明了i向量的后验协方差。
使用信息先验的后验推论
对于当如以上估计的信息先验代替无信息先验使用时的一般情况,我们为后验分布制定表达式。
提议1:考虑信息先验p(w)~N(μp,∑p),具有平均值μp和协方差矩阵∑p。后验分布p(w|O)是高斯分布,具有平均值
Figure BDA0001363428030000144
和精度
Figure BDA0001363428030000151
请注意,通过设置μp=0和∑p=0,后验平均值φ(即,i向量)和精度L被降低至具有如(4)中的无信息先验的i向量提取的标准形式。
证明。假设我们有参数集(T,∑),隐藏变量w和观察值O。给定w和参数(T,∑),O的对数似然值可被表示为两项的总和:
logPT,∑(O|w)=GT+HT,∑ (10)
其中,GT由(3)定义,以及HT,∑被定义为
Figure BDA0001363428030000152
由于GT不取决于w,所以不进一步考虑该项。
给定平均值μp和协方差
Figure BDA0001363428030000153
我们将先验表示为:
Figure BDA0001363428030000154
给定O的w的后验分布可以通过取得(11)和(12)的乘积来获取,如下:
Figure BDA0001363428030000155
Figure BDA0001363428030000156
其中,φ和L为上述形式。
先验补偿的i向量提取
在贝叶斯意义上,信息先验增加了异构数据集中每个源的位置和离差(dispersion)的先验信念。我们注意到,对于i向量空间中的每个源,观察到不同的扩展(spread),如现有技术中也记录的。在交叉源试验(cross-source trials)的情况下,属于一个源的测试i向量和属于另一个源的目标i向量不再被假设为彼此靠近,即使在表示相同的说话者时也是如此。直接应用(8)的含义会加剧语音源之间的差异,导致较差的性能。
我们提出了通过在i向量提取时期中的不同阶段处应用先验平均值和协方差来补偿语音源上(例如,电话相对于麦克风)的差异。更具体地说,我们将先验平均值投影到声学空间,而协方差作为先验的一部分保持不变。分离先验平均值和协方差的操作基于我们现在将证实的边缘化的等式。
提议2:令Πc为用于通过使用先验w~N(μp,∑p)建模m=m0+Tw获得的高斯分布c的边缘分布。对于这个源,可以通过使用先验w~N(0,∑p)建模m=m0+Tw+Tμp来实现同样的边缘化Πc。这给出以下等式:
Figure BDA0001363428030000161
比较(14)的第一行和第二行,先验平均值μp被提出到条件密度,其描述了声学观察O。通过这样做,先验平均的投影Tcμp对全局平均向量m0(c)施加偏移。这也导致了在原点(即,零平均值)处具有共模但是用于个体源的不同离差分散体∑p的先验分布。在算法上,投影Tcμp通过对一阶统计量
Figure BDA0001363428030000162
重新定中心而应用于观察,如下:
Figure BDA0001363428030000163
在某种意义上,重新定中心将异构源带入到总可变性空间的原点处的共模,并允许先验仅关于彼此的协方差而有所不同。
提出的先验补偿的i向量提取可被总结为以下步骤:
1.用已经训练的T矩阵开始。对于每个源,使用如上所述的最小散度估计来提取信息先验N(μp,∑p)。
2.围绕相关源特定的平均值来对一阶统计量
Figure BDA0001363428030000171
重新定中心,以给出
Figure BDA0001363428030000172
如(15)所示。
3.通过将用于每个源的现在的零平均值信息先验N(μp,∑p)与相关重新定中心的一阶统计量进行匹配来提取i向量:
Figure BDA0001363428030000173
其中,精度L如(9)中给出的。
本领域中的技术人员认识到,本发明决不限于上面所述的优选实施例。相反,很多修改和变化在所附权利要求的范围内是可能的。例如,多媒体系统的细节可能与图1中的示例不同。

Claims (13)

1.一种用于识别多媒体系统的多个用户中的用户的方法,所述多媒体系统包括用于从一个或更多个数字信息源提供多媒体内容的一个或更多个设备,以便提供对来自所述多媒体系统的多媒体内容的单独调整的访问和控制,所述方法包括以下步骤:
提供i向量集的集合,每个i向量集包括基于所述多媒体系统的用户所说出的一个或更多个单词并且与该用户的访问简档相关联的i向量,
从当前用户获取语音话语,并使用总可变性建模来提取用于所述语音话语的i向量,
将所提取的i向量与所述集合中的每个i向量集进行比较,以便识别与所述提取的i向量最相似的目标集,
根据与所识别的目标集相关联的所述访问简档向所述当前用户授予对所述多媒体系统的访问权,
其中,使用多个数据源中的一个数据源获取所述语音话语,并且其中,所述方法还包括通过以下方式来最小化所述总可变性建模中的源变化:
对于每个数据源,估计由平均值和协方差定义的源特定信息先验,以及
对于使用特定数据源获取的每个语音话语,将所述语音话语的一阶统计量围绕与所述数据源相关联的所述信息先验的平均值重新定中心,并且当提取用于所述语音话语的i向量时使用与所述数据源相关联的所述信息先验的协方差,
其中,估计源特定信息先验包括:从获取自所述数据源的数据中提取源特定i向量集,以及使用所述源特定i向量集来估计所述源特定信息先验;以及
其中,使用信息总可变性矩阵和无信息先验来完成提取源特定i向量集,并且其中,所述信息总可变性矩阵通过以下方式计算而得:
执行多个训练迭代,每个迭代包括计算初步源特定信息先验并且使用所述初步源特定信息先验来更新所述信息总可变性矩阵。
2.根据权利要求1所述的方法,还包括将所述i向量集的集合和相关联的访问简档存储在远程数据库中并且使得它们可被多于一个多媒体系统访问。
3.根据权利要求2所述的方法,还包括存储每个用户的内容消费模式并且基于与当前用户具有相似选择的其他用户的选择向当前用户提供建议。
4.根据权利要求1所述的方法,还包括:
提供i向量类的集合,每个i向量类包括基于来自具有相似特性的用户的语音的i向量集,以及
将所提取的i向量与每个i向量类进行比较,以识别与所述提取的i向量最相似的i向量类。
5.根据权利要求4所述的方法,其中,所述特性包括年龄、性别和情绪中的至少一个。
6.根据权利要求1所述的方法,还包括仅当从新用户的语音话语中提取的i向量与所有先前存储的i向量根据预定条件充分不同时才识别和注册所述新用户。
7.根据权利要求6所述的方法,其中,所述条件基于所述提取的i向量与所有先前存储的i向量之间的余弦距离。
8.根据权利要求1所述的方法,其中,所述i向量集的集合包括基于第一用户所说出的一个或更多个单词并与第一访问简档相关联的第一i向量集和基于由第二用户说出的一个或更多个单词并与第二访问简档相关联的第二i向量集,并且所述方法还包括:
向所述第一用户分配第一用户识别;
向所述第二用户分配第二用户识别;
将所述第一用户识别为所述当前用户;
从所述第一用户接收指示所述第二用户识别的输入;以及
根据所述第二访问简档授予所述第一用户访问权。
9.根据权利要求8所述的方法,其中,每个访问简档定义用户相关的访问权限。
10.根据权利要求8或9所述的方法,其中,每个用户识别被分配给功能键。
11.根据权利要求10所述的方法,其中,所述功能键包括物理设备上的按钮或虚拟设备上的图形图像/图标。
12.一种多媒体系统,包括:
一个或更多个数字信息源;
一个或更多个设备,所述一个或更多个设备用于提供来自所述数字信息源的多媒体内容;
数据库,所述数据库存储i向量集的集合,每个i向量集包括基于所述多媒体系统的用户所说出的一个或更多个单词并且与该用户的访问简档相关联的i向量;
多个语音记录数据源;
处理电路,所述处理电路被配置为:
使用总可变性建模提取用于获取自所述语音记录数据源的一个中的语音话语的i向量,同时通过以下方式最小化源变化:
对于每个语音记录数据源,估计由平均值和协方差定义的源特定信息先验,以及
对于使用特定语音记录数据源获取的每个语音话语,将该语音话语的一阶统计量围绕与所述语音记录数据源相关联的所述信息先验的平均值重新定中心,并且当提取用于所述语音话语的所述i向量时使用与所述语音记录数据源相关联的所述信息先验的协方差,
将所提取的i向量与所述集合中的每个i向量集进行比较,以便识别与所述提取的i向量最相似的目标集,以及
根据与所识别的目标集相关联的访问简档向当前用户授予对所述多媒体系统的访问权,
其中,估计源特定信息先验包括:从获取自所述语音记录数据源的数据中提取源特定i向量集,以及使用所述源特定i向量集来估计所述源特定信息先验;以及
其中,使用信息总可变性矩阵和无信息先验来完成提取源特定i向量集,并且其中,所述信息总可变性矩阵通过以下方式计算而得:
执行多个训练迭代,每个迭代包括计算初步源特定信息先验并且使用所述初步源特定信息先验来更新所述信息总可变性矩阵。
13.根据权利要求12所述的系统,其中,所述数据库是远程数据库,并被若干个多媒体系统共享。
CN201680007725.0A 2015-02-11 2016-02-10 多媒体系统中的说话者识别 Active CN107210038B (zh)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
DKPA201500077 2015-02-11
DKPA201500077 2015-02-11
DKPA201500225 2015-04-13
DKPA201500225 2015-04-13
DKPA201500230 2015-04-15
DKPA201500230 2015-04-15
PCT/EP2016/052841 WO2016128475A1 (en) 2015-02-11 2016-02-10 Speaker recognition in multimedia system

Publications (2)

Publication Number Publication Date
CN107210038A CN107210038A (zh) 2017-09-26
CN107210038B true CN107210038B (zh) 2020-11-10

Family

ID=55345829

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680007725.0A Active CN107210038B (zh) 2015-02-11 2016-02-10 多媒体系统中的说话者识别

Country Status (5)

Country Link
US (1) US10354657B2 (zh)
EP (1) EP3257043B1 (zh)
CN (1) CN107210038B (zh)
DK (1) DK3257043T3 (zh)
WO (1) WO2016128475A1 (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106169295B (zh) * 2016-07-15 2019-03-01 腾讯科技(深圳)有限公司 身份向量生成方法和装置
WO2019065733A1 (ja) * 2017-09-28 2019-04-04 京セラ株式会社 音声命令システム及び音声命令方法
US10950244B2 (en) * 2017-11-29 2021-03-16 ILLUMA Labs LLC. System and method for speaker authentication and identification
US10950243B2 (en) * 2017-11-29 2021-03-16 ILLUMA Labs Inc. Method for reduced computation of t-matrix training for speaker recognition
US10832683B2 (en) * 2017-11-29 2020-11-10 ILLUMA Labs LLC. System and method for efficient processing of universal background models for speaker recognition
CA3083453A1 (en) 2017-12-27 2019-07-04 Rovi Guides, Inc. Systems and methods for identifying users based on voice data and media consumption data
CN108694954A (zh) * 2018-06-13 2018-10-23 广州势必可赢网络科技有限公司 一种性别年龄识别方法、装置、设备及可读存储介质
US10825458B2 (en) * 2018-10-31 2020-11-03 Rev.com, Inc. Systems and methods for a two pass diarization, automatic speech recognition, and transcript generation
CA3142423A1 (en) * 2019-05-30 2020-12-03 Insurance Services Office, Inc. Systems and methods for machine learning of voice attributes
WO2021005741A1 (en) * 2019-07-10 2021-01-14 Nec Corporation Speaker embedding apparatus and method
US11776550B2 (en) * 2021-03-09 2023-10-03 Qualcomm Incorporated Device operation based on dynamic classifier
CN113361969B (zh) * 2021-07-07 2022-03-08 北京容联七陌科技有限公司 一种灵活可配置模板的智能质检系统
CN114093383B (zh) * 2022-01-17 2022-04-12 北京远鉴信息技术有限公司 一种参会者语音的确定方法、装置、电子设备及存储介质

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6073101A (en) * 1996-02-02 2000-06-06 International Business Machines Corporation Text independent speaker recognition for transparent command ambiguity resolution and continuous access control
US6457043B1 (en) * 1998-10-23 2002-09-24 Verizon Laboratories Inc. Speaker identifier for multi-party conference
US20130097302A9 (en) * 2003-10-01 2013-04-18 Robert Khedouri Audio visual player apparatus and system and method of content distribution using the same
US7631119B2 (en) * 2004-06-25 2009-12-08 Apple Inc. Techniques for providing audio for synchronized playback by multiple devices
US8255223B2 (en) * 2004-12-03 2012-08-28 Microsoft Corporation User authentication by combining speaker verification and reverse turing test
JP2009527024A (ja) * 2006-02-14 2009-07-23 インテレクチャル ベンチャーズ ファンド 21 エルエルシー 話者非依存的音声認識を有する通信装置
US8060366B1 (en) * 2007-07-17 2011-11-15 West Corporation System, method, and computer-readable medium for verbal control of a conference call
US9602295B1 (en) * 2007-11-09 2017-03-21 Avaya Inc. Audio conferencing server for the internet
US8510247B1 (en) * 2009-06-30 2013-08-13 Amazon Technologies, Inc. Recommendation of media content items based on geolocation and venue
US10042993B2 (en) * 2010-11-02 2018-08-07 Homayoon Beigi Access control through multifactor authentication with multimodal biometrics
US20120257766A1 (en) * 2011-04-05 2012-10-11 Continental Automotive Systems, Inc. Apparatus and method for media presentation
CN102201236B (zh) * 2011-04-06 2012-12-19 中国人民解放军理工大学 一种高斯混合模型和量子神经网络联合的说话人识别方法
US9042867B2 (en) * 2012-02-24 2015-05-26 Agnitio S.L. System and method for speaker recognition on mobile devices
US8880398B1 (en) * 2012-07-13 2014-11-04 Google Inc. Localized speech recognition with offload
SG11201504186UA (en) * 2012-12-19 2015-07-30 Visa Int Service Ass System and method for voice authentication
US9208777B2 (en) * 2013-01-25 2015-12-08 Microsoft Technology Licensing, Llc Feature space transformation for personalization using generalized i-vector clustering
US9406298B2 (en) * 2013-02-07 2016-08-02 Nuance Communications, Inc. Method and apparatus for efficient i-vector extraction
US9865266B2 (en) * 2013-02-25 2018-01-09 Nuance Communications, Inc. Method and apparatus for automated speaker parameters adaptation in a deployed speaker verification system
US9489965B2 (en) * 2013-03-15 2016-11-08 Sri International Method and apparatus for acoustic signal characterization
US9336781B2 (en) * 2013-10-17 2016-05-10 Sri International Content-aware speaker recognition
US9514753B2 (en) * 2013-11-04 2016-12-06 Google Inc. Speaker identification using hash-based indexing
US9858919B2 (en) * 2013-11-27 2018-01-02 International Business Machines Corporation Speaker adaptation of neural network acoustic models using I-vectors
US20150154002A1 (en) * 2013-12-04 2015-06-04 Google Inc. User interface customization based on speaker characteristics
US9401143B2 (en) * 2014-03-24 2016-07-26 Google Inc. Cluster specific speech model
US9431021B1 (en) * 2014-03-27 2016-08-30 Amazon Technologies, Inc. Device grouping for audio based interactivity
CN104064189A (zh) * 2014-06-26 2014-09-24 厦门天聪智能软件有限公司 一种声纹动态口令的建模和验证方法

Also Published As

Publication number Publication date
WO2016128475A1 (en) 2016-08-18
EP3257043A1 (en) 2017-12-20
CN107210038A (zh) 2017-09-26
US20170372706A1 (en) 2017-12-28
EP3257043B1 (en) 2018-12-12
US10354657B2 (en) 2019-07-16
DK3257043T3 (en) 2019-01-14

Similar Documents

Publication Publication Date Title
CN107210038B (zh) 多媒体系统中的说话者识别
KR102213637B1 (ko) 디바이스들 간의 상태 상호작용의 캡슐화 및 동기화
US11152006B2 (en) Voice identification enrollment
US11386905B2 (en) Information processing method and device, multimedia device and storage medium
US9691379B1 (en) Selecting from multiple content sources
EP3271917B1 (en) Communicating metadata that identifies a current speaker
US11430449B2 (en) Voice-controlled management of user profiles
US10789972B2 (en) Apparatus for generating relations between feature amounts of audio and scene types and method therefor
KR101775461B1 (ko) 협력적 오디오 대화 증명
US11727939B2 (en) Voice-controlled management of user profiles
TW201142823A (en) Voice print identification
US20130132988A1 (en) System and method for content recommendation
US20190043509A1 (en) Audio privacy based on user identification
JP2023546890A (ja) 話者識別精度
Hechmi et al. Voxceleb enrichment for age and gender recognition
US10949153B2 (en) Methods and systems for facilitating the generation of a customized response based on a context
WO2022271331A1 (en) Machine-learning-model based name pronunciation
US11574627B2 (en) Masking systems and methods
US11741971B1 (en) Accessing and encoding data using a least significant bit encoding algorithm
JP6114210B2 (ja) 音声認識装置、特徴量変換行列生成装置、音声認識方法、特徴量変換行列生成方法及びプログラム
Ostuni " Just play something awesome" the personalization powering voice interactions at Pandora
Tran et al. Towards privacy-preserving speech representation for client-side data sharing
WO2021139589A1 (zh) 一种语音处理方法、介质及系统
JP7327161B2 (ja) 情報処理装置、情報処理方法、およびプログラム
Kindt et al. Robustness of ad hoc microphone clustering using speaker embeddings: evaluation under realistic and challenging scenarios

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant