CN1236423C - 说话人声音的后台学习 - Google Patents
说话人声音的后台学习 Download PDFInfo
- Publication number
- CN1236423C CN1236423C CNB028015983A CN02801598A CN1236423C CN 1236423 C CN1236423 C CN 1236423C CN B028015983 A CNB028015983 A CN B028015983A CN 02801598 A CN02801598 A CN 02801598A CN 1236423 C CN1236423 C CN 1236423C
- Authority
- CN
- China
- Prior art keywords
- speaker
- language
- model
- training
- likelihood
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/04—Training, enrolment or model building
Abstract
一个说话人识别系统,含有一个说话人模型生成器(110)用于产生大量的说话人模型。为此,该生成器在没有谁说出各自训练话语的说话人先验知识的情况下,在后台接收大量说话人的训练话语。该生成器根据预定义的准则盲聚类训练话语。为每一个群集训练一个对应的说话人模型。一个说话人识别器(130)识别说话人,对于从说话人接收的话语确定说话人模型中最可能的一个。认定与最可能的说话人模型关联的说话人为测试话语的说话人。
Description
技术领域
本发明涉及说话人的自动识别,通过接收测试话语;确定大量说话人模型中对于测试话语来说最可能的一个;将与最可能的语音模型关联的说话人确定为测试话语的说话人。
背景技术
说话人识别正变得越来越重要。传统的说话人识别用于安全的目的,例如根据声音特征核实说话人的身份。随着为CE设备发展了越来越多的声控应用,说话人识别也能够在将来简化与CE设备的交互中起重要的作用。
在传统说话人识别(说话人ID)的任务中,使用客户的注册数据训练特定说话人的模型。通常使用隐式马尔可夫模型(HMM)来模型化子词单元,例如音素或双音素。为了获得好的性能,可靠的系统需要大量的注册数据来描述说话人的声音特征。特别是因为说话人的声音特征从一段时间到另一段时间会发生显著的改变,所以需要有许多不同时期的数据。每个说话人训练自己的模型。因而说话人在实际训练开始之前必须在系统中注册。
一旦训练了模型,将待识别或核实的说话人话语与所有说话人模型进行比较。通过定位对于该话语可能性最高的模型并获取与模型关联的说话人身份来确定说话人的身份。
因为用户讨厌花费很多时间来训练系统,所以需要将对说话人的要求和训练数据数量降到最小。实质上已经提出了各种方法,目的是在只有少量的注册数据可用时得到较好的说话人模型的参数估计。然而这些系统仍然需要用户注册并训练系统。对于CE系统来说,这可能仍然是对用户的太高障碍并妨碍接受系统。它也使系统难于作用于对注册不熟悉的临时用户。
发明内容
本发明的一个目标是提供一种方法和系统,能够在不需要用户通过显式训练系统来注册的情况下自动识别说话人。
为了达到本发明的目标,通过下列措施在后台产生大量的说话人模型:
●在后台接收大量说话人的训练话语,不需要知道说出各自训练话语的说话人;
●根据预定义准则盲聚类训练话语;以及
●为每个群集训练一个对应的说话人模型;每个模型表示一个说话人。
在根据本发明的方法中,能够在不依赖注册数据、而是使用离线采集的说话人语音的情况下训练特定说话人的模型。为了达到这个目标,设计的系统要具有在工作中没有人类干涉的情况下采集、分类和学习不同说话人声音的能力。因为学习是一个后台或隐藏的过程,所以称作后台学习。在描述中后台学习集中在批量学习。每当已经在后台采集了所有要识别的说话人的足够语音数据时执行批量学习。后台学习便于在声控系统中使用。大多数现有技术水平的与说话人无关的声控系统能够在不必首先训练系统的情况下由用户使用。在用户使用声控系统的同时,记录用户发出的命令并用于根据本发明的后台学习。对于其它特定的应用,甚至能够在用户获得一个配置有根据本发明的后台学习的新系统时,系统自动开始采集用户的话语,例如通过记录所有通过话筒接收的语音。为此系统可以装配软件来区分语音和其它声响。系统可以在没有任何用户干涉的情况下或在用户激活之后开始记录。在任一种情况下,都没有在初始时为系统提供关于实际是谁说出话语的信息。对于本发明,也不要求用户说预定义的词组,例如密码。假定每个采集到的话语包含单个说话人的语音段。换句话说,可以惟一判定每个话语的属性只来自一个说话人。
一旦系统已经根据预定义准则采集了足够的数据,批量学习包括根据由预定义准则定义的说话人特性进行语音数据的盲聚类。该步骤之后可选择性的使用自标记数据训练特定说话人的模型。这种批量学习技术在系统需要以无人管理的方式开始时使用。此外能够以“增量学习”的形式使用根据本发明的后台学习技术。这包括增加新用户到当前系统或采集新语音数据来修改以前的说话人模型。系统执行预验证,确定新采集数据是否属于已经识别的说话人。如果是,则选择性的使用数据来修改以前的说话人模型。否则对数据进行盲聚类,从而产生新的说话人模型。
以这种方式避开了麻烦的准确性/注册的折衷,因此减少了用户的工作。
应该提到的是,US5,862,519描述了一种说话人识别/验证系统使用的语音盲聚类方法。在该系统中,使用盲聚类自动将话语,典型是密码,分成子词单元。在已知的系统中,使用盲分割将未知的密码词组根据一致性属性分成子词单元,其中分割边界是未知的。密码词组来自用户说话人。这意味着说话人对系统来说是已知的,实际上是在训练系统。在根据本发明的系统中,使用盲聚类将同一说话人的话语聚集在一起,其中话语是几个说话人话语池的一部分。收集的话语盲分割成几个与说话人相关的群集。在聚类期间没有关于说话人的先验知识。
根据本发明的一个实施例,在后台为每个接收的话语创建一个模型。还将每个话语与所有这样的模型比较。这得到每个话语的似然向量。通过使用基于似然性的等级替换似然性来增加辨别力。因为人们发现等级向量涉及相同说话人的话语时等级向量之间的距离小于等级向量涉及不同说话人话语时的距离,所以等级向量之间的距离构成了区分不同说话人话语的一般准则。根据这个准则来聚类话语。为每个群集创建一个模型。假定该模型是一个说话人特有的。可以看出,当等级是高似然性赋给高等级值时,相同的说话人话语具有最小的等级向量距离。合适的似然向量元素等级形成良好的辨别力。
根据本发明的另一个实施例,在基于每个群集的预期话语数量的等级中使用一个阈值。这有助于聚类过程。
根据本发明的又一个实施例,用户能够使用他/她的声音进行注册。自动确定最可能的模型并存储该模型的用户标识,使注册快速而简单。
根据本发明的再一个实施例,在注册期间测试是否已经充分训练了模型。如果没有,接收一些其它的话语,使部分完成的模型适应新的话语。这样注册与必须从零开始相比也是快的。
根据本发明的再一个实施例,如果在能够以足够的置信度识别说话人的意义上充分训练了模型,则停止盲聚类。
根据本发明的再一个实施例,一旦已经充分训练了模型,就自动请求说话人明确说明其身份,因此从那时起能够自动识别说话人。以这种方式,说话人甚至不需要主动注册。
如本发明的再一个实施例中所定义的,说话人识别导致自动获取与CE设备交互的个人配置文件。这使得能够以极其用户友好的方式个性化使用CE设备。
附图说明
本发明的这些和其它方面将会参考附图进行说明。
图1显示了根据本发明的说话人识别系统的框图;
图2说明了似然向量的辨别力;
图3显示了盲聚类的框图;
图4说明了话语聚类效率;
图5显示了系统的说话人识别性能;以及
图6显示了说话人识别在语音控制系统中的使用。
具体实施方式
图1显示了根据本发明的说话人识别系统的框图。系统包括在时间上连续执行的三个主要单元:后台学习110、说话人注册120和说话人识别130。后台学习包括语音数据采集112,然后是根据说话人特征对语音话语的盲聚类。盲话语聚类的目标是在没有关于说话人身份或甚至没有关于说话人群体大小的初始信息可用时将未知话语分组。下面将描述该部分的细节。一旦产生群集,说话人模型116确保了这些群集中每一个中的话语用于训练各自属于一个可能说话人的模型。模型最好使用传统的高斯混合模型(GMM)技术训练,其中一组M个的群集由GMM的{λ1 c,λ21 c,...,λM c}表示。熟悉该领域的人会意识到还可以使用在语音处理领域中通常已知的其它模型。因为这种模型通常是已知的,所以就不给出特定模型的细节了。用于实现本发明的硬件在本质上是传统的,例如微处理器或装载了合适软件的DSP,可以选用获取语音的A/D转换器和麦克风。软件可以是嵌入式的,例如存储在ROM中,或从例如硬盘或CD-ROM等后台存储器或通过因特网等网络载入。
因为后台学习是以无人管理方式完成的,所以不存在哪个模型与哪个说话人相关的信息。为了执行后面实际识别实际说话人的说话人识别,希望为每个模型标记其对应的说话人身份,如单元122中所示。这可以在说话人进行正式的注册时完成。在这个阶段,系统要求每个说话人提供少量的注册数据,例如只提供一个任意的话语y。系统根据这个注册话语分配最适当模型给说话人。换句话说,说话人通过他/她的声音“选定”一个说话人模型。为了达到这一点,最好是使用最大似然判定规则,从而选择最可能的说话人模型。系统判定说话人Si的模型要满足
要意识到对于某些应用,不必知道说话人的正确身份。能够区分说话人就足够了。因而单元120是可选的。如果没有进行注册,只通过一个与每个各自的说话人模型关联的数字就能识别说话人。
在单元130显示的识别中,单元132中的系统将未知的测试话语作为输入,产生的输出是假定说话人的身份,满足
其中Q是用户数量。这意味着获得了与最可能的说话人模型关联的说话人身份。
话语聚类提示
令{x1,x2,...,xN}表示P个周围说话人{S1,S2,...,SP}的一组N个语音话语,其中N>P,P可以是预先未知的。话语聚类的目标是将话语划分成一组M个群集,使得一个群集中的所有话语最好是只来自一个说话人。理想情况是M=P,使得能够将特定群集中的所有话语分到一个群集中。为此,先决条件是识别各个话语都具有的说话人特征的有关方面,从而得到一些在同一说话人的话语之间差别小、在不同说话人的话语之间差别大的度量。根据高斯混合分类器在与文本无关的说话人识别中的成功执行,发明者已经认识到也能够使用由话语形成的高斯混合模型(GMM)来描述与说话人身份对应的声学间隔的特征,而不是口语信息的特征。为了提高这样做的效率,首先将语音话语从数字波形表示转换成特征向量流,将这些话语中的每一个依次按高斯混合密度建模。这种建模是众所周知的,这里就不详细描述了。令{λ1 U,λ21 U,...,λN U}表示由N个话语形成的GMM的参数集合。接下来,按照 1≤i,j≤N计算每个话语xi对于各个模型λj U的似然性。实验表明当话语和测试模型与同一个说话人关联时似然性通常较大,否则较小,即
如果S(xi)=S(xj)且S(xi)≠S(xk),则Lij>Lik (3)
其中S(xi)是xi的说话人属性。但是该准则不是始终有效的。为了获得更为可靠的划分语音话语的提示,最好是使用如下另外定义的等级机制。
令Li=[Li1 Li2...LiN]T表示N维向量。人们已经发现,当xi和xj属于同一个说话人时,Li和Lj在某种意义上是非常“相似的”,否则是“不相似的”。为了说明这一点,图2中显示了模型似然性的灰度级表示,其中分析了来自三个说话人的九句话语(每个说话人三句话语)。九句话语是垂直显示的,九个模型是水平显示的。可以看出,来自同一个说话人的话语比来自不同说话人的话语具有更为相似的“似然图案”。因此可以使用似然向量之间的“相异”度量作为聚类期间的准则。理想情况下,如果随机模型λ能够捕捉到说话人声音最重要的特征,则Lij的值在xi和xj与同一个说话人相关时大,否则为小。但是实际上很难对所有Speaker(xi)=Speaker(xj)且SPeaker(xi)≠Speaker(xk)保证Lij>Lik。举图2中显示的例子来说,x1和x2是由同一个说话人产生的,而x8来自另一个说话人;不幸的是,在这种情况下L18>L12。因此,只根据单一模型似然性确定两个话语是否属于同一个说话人是不可靠的。为了减轻这个问题,要通过考虑成对话语而不是单个模型似然性来度量两个话语之间的相似性。基本原则根据似然图案的目视检查来构造。
如图2所示,一般的特性是,当话语xi和xj属于同一种口语时两个向量Li和Lj在某种意义上比较“相似”,否则是“相异的”。但是问题是如何描述这种目视特性的特征。由于似然性的动态范围非常大这一事实,直接使用两个L向量的欧式距离来度量话语对距离是不恰当的。例如,假设话语y1和y2由同一个说话人说出,y3是另一个说话人的。得到的L向量可能如下(使用对数似然):
L1=[L11 L12 L13]T=[-1000 -1111 -3222]T
L2=[L21 L22 L23]T=[-5111 -4000 -8222]T
L3=[L31 L32 L33]T=[-900 -800 -300]T
虽然L12>L13且L21>L23,但||L1-L2||>||L1-L3||。
下面更为详细描述的聚类语音话语的首选方法克服了这些问题。
话语聚类过程
首先,对于每个话语xi,根据较大的等级值分配较高的优先权的原则将其模型似然性Lij分级,1≤j≤N。似然性Lij的等级是相对于似然向量Li其它元素的似然性的。因此用于训练话语xi的似然向量Li得到对应的等级向量Fi。在优选实施方案中,计算中间等级向量Ri,其中向量元素值Rij是根据相对于似然向量Li其它元素似然性的似然性Lij从整数1到N中选择的。在优选实施方案中,当
时Rik=1,当
时Rik=N。正常情况下每个等级值只使用一次,是从1到N分配的。根据这个中间等级向量,每个话语xi的实际等级向量Fi=[Fi1,Fi2...,FiN]T定义为Fij=1/Rij。
通过增加辨别力能达到更大的提高:
其中η是表示每个群集预期话语数量的整数。
以这种方式进行,可以得到区分不同说话人话语的一般准则,
如果S(xi)=S(xj)且S(xi)≠S(xk),则D(Fi,Fj)<D(Fi,Fk)
(5)
其中D(Fi,Fj)是适合Fi和Fj的距离度量。
参照上面给出的例子,对应的等级向量是:
F1=[1 1/2 1/3]T
F2=[1/2 1 1/3]T
F3=[1/3 1/2 1]T
在该例中,η=3。这使得||F1-F2||=0.5、||F1-F3||=0.89、||F2-F3||=0.72。显然y1和y2是最接近的一对。
使用阀值说明的事实是只有较大的模型似然性对于阐明具有相同的真正说话人身份的一句话语及其匹配话语之间的关系是有用的。图2显示的例子用来说明这一点。该例的中间等级矩阵Rij是
x1 | 1 | 4 | 2 | 9 | 6 | 8 | 7 | 3 | 5 |
x2 | 2 | 1 | 3 | 9 | 8 | 6 | 7 | 4 | 5 |
x3 | 2 | 4 | 1 | 9 | 7 | 8 | 6 | 3 | 5 |
x4 | 5 | 9 | 8 | 1 | 3 | 2 | 7 | 4 | 6 |
x5 | 5 | 9 | 6 | 4 | 1 | 2 | 8 | 3 | 7 |
x6 | 5 | 9 | 8 | 3 | 2 | 1 | 7 | 4 | 6 |
x7 | 4 | 8 | 5 | 9 | 6 | 7 | 1 | 3 | 2 |
x8 | 4 | 8 | 5 | 9 | 6 | 7 | 3 | 1 | 2 |
x9 | 4 | 8 | 5 | 9 | 6 | 7 | 2 | 3 | 1 |
创建等级矩阵Fij(η=3),得到
x1 | 1 | 0 | 1/2 | 0 | 0 | 0 | 0 | 1/3 | 0 |
x2 | 1/2 | 1 | 1/3 | 0 | 0 | 0 | 0 | 0 | 0 |
x3 | 1/2 | 0 | 1 | 0 | 0 | 0 | 0 | 1/3 | 0 |
x4 | 0 | 0 | 0 | 1 | 1/3 | 1/2 | 0 | 0 | 0 |
x5 | 0 | 0 | 0 | 0 | 1 | 1/2 | 0 | 1/3 | 0 |
x6 | 0 | 0 | 0 | 1/3 | 1/2 | 1 | 0 | 0 | 0 |
x7 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 1/3 | 1/2 |
x8 | 0 | 0 | 0 | 0 | 0 | 0 | 1/3 | 1 | 1/2 |
x9 | 0 | 0 | 0 | 0 | 0 | 0 | 1/2 | 1/3 | 1 |
计算两两距离||Fi-Fj||,得到:
x1 | x2 | x3 | x4 | x5 | x6 | x7 | x8 | x9 | |
x1 | 1.39 | 0.5 | 2.72 | 2.5 | 2.72 | 2.5 | 3.05 | 2.58 | |
x2 | 1.56 | 2.72 | 2.61 | 2.72 | 2.72 | 2.72 | 2.72 | ||
x3 | 2.72 | 2.61 | 2.72 | 2.61 | 2.05 | 2.5 | |||
x4 | 1.56 | 2.72 | 2.72 | 2.72 | 2.72 | ||||
x5 | 0.72 | 2.5 | 2.05 | 2.5 | |||||
x6 | 2.72 | 2.72 | 2.72 | ||||||
x7 | 0.89 | 0.5 | |||||||
x8 | 0.72 | ||||||||
x9 |
这再次清楚的说明了当Speaker(xi)=Speaker(xj)且Speaker(xi)≠Speaker(xk)时||Fi-Fj||<||Fi-Fk||的属性。η的实际值根据采集数据的数量凭经验确定。
根据等级向量之间距离的准则,说话人话语的盲聚类可以作为传统的向量聚类问题来计算。熟悉本领域的人可以使用所有适合的聚类算法。例如,可以使用很完善的k均值聚类算法来计算。但是为了防止在该应用中可能发生的空分类这一让人为难的情况,最好是使用按如下修改的k均值算法:
步骤1:初始化。设聚类数量k=2。任意选择一个向量,如Fi,代表群集C1。然后(根据所选择的距离度量,例如欧式距离)选择距离Fi最远的向量代表群集C2。
步骤2:搜索最近邻域。对于每个向量Fj,在各个群集的代表中查找一个距离Fj最近的,然后将Fj分配给与最近的代表关联的对应群集。
步骤3:分割。对于所有群集,查找与所属群集的代表最远的向量。然后该向量成为一个新群集的代表。设k=k+1。
步骤4:迭代步骤2和3直到k=M。
图3显示了根据本发明的盲话语聚类的框图。在单元310、312、......、318中,为每个话语xi创建对应的模型λi U。在单元320中,为每个话语xi计算各个模型的话语的似然性。这得到每个话语一个似然向量Li=[Li1 Li2...LiN]T。在单元332到338中,根据各个话语xi的似然向量Li的元素相对似然性计算其各自的等级向量Fi={Fi1,Fi2...,FiN]T。在单元340中,根据话语等级向量之间的距离准则聚类话语xi。
试验结果
语音数据库
用于测试根据本发明的系统的数据库包括由100个说话人(50个男性和50个女性)说出的5000句话语。每个说话人说50句话语,分三段时间记录。这些话语持续时间的范围从2到5秒。全部100个说话人作为用户,即P=Q=100。将数据库进一步划分成三个子集,分别表示为DB-1、DB-2和DB-3。第一个字集DB-1包括每个说话人的20句话语(大约对应于80秒的总持续时间),作为离线采集的数据。第二个子集DB-2包括没有包括在DB-1中语音段的截然不同的10句话语。DB-2中的每句话语用作用户的注册数据。第三个子集DB-3包括剩余的20句话语,作为说话人ID试验的测试集合。所有的话语是在相对安静的环境中记录的,采样频率22.05kHz,精度为16位。然后为每一个带有10ms帧偏移的20ms汉明窗帧提取包括21个MFCC(没有使用第0个系数)的语音特征。
群集评估
由于说话人识别(ID)系统的效率严重依赖于离线采集的话语聚类有多好,所以有必要在执行说话人ID试验之前评估话语聚类方法的效率。分类质量使用群集纯度来度量。纯度是描述一个群集中的所有话语来自同一个说话人的程度的量。对于群集m,纯度定义为:
其中nm是群集m中的话语数量,nmk是群集m中由说话人Sk所讲的话语数量。计算这个度量需要知道每个话语的真正属性。聚类方法的总效率通过平均纯度来评估
对DB-1进行计算机模拟来检查盲话语聚类。运行中每个话语的高斯混合数量从2变化到8,参数η在整个试验过程中设置为(N/M)。图4显示了平均纯度与使用的群集数的关系曲线。当群集数等于说话人群体大小(M=P=100)时,得到平均纯度0.86。纯度随着群集数的增加而增加。当使用了700个群集时能够最佳的分割来自不同说话人的话语。该结果也说明对所使用的每话语混合数量是不敏感的。后来聚类结果是通过使用每话语4个混合来执行说话人ID试验而得到的。
说话人ID试验
首先,评估以传统的有人监督方式工作的初始系统来用于性能比较。这里进行了两组试验,观察相对于不同训练数据量的系统性能。在第一组试验中,使用DB-1中的每说话人20句话语连同真正的说话人属性一起训练特定说话人的模型。随后依次使用DB-3中的每说话人20句话语测试系统,然后按所有测试话语中正确识别的话语的百分比来计算说话人ID准确度。另外相对于从2到32变化的不同的每说话人模型的高斯混合密度来计算说话人ID准确度。在第二组试验中,使用从DB-2中选择的一句话语训练各个说话人模型。
该试验设置可以看作是在使用稀疏数据训练说话人模型。此外,为了获得统计上有效的结果,DB-2中每个不同的话语只选择一次,相同的试验进行十次。最后计算平均说话人ID准确度。下表给出了使用了两组试验结果的说话人ID准确度。可以看出,基于GMM有人监督训练的传统说话人ID系统在使用了大量注册数据时执行的非常好,而在只使用了稀疏注册数据时性能大幅下降。表中的数据还说明了基于我们提出的无人监督学习的说话人ID的上限和下限性能。
训练数据 | 混合数量 | ||||
2 | 4 | 8 | 16 | 32 | |
每说话人20句话语 | 94.1% | 97.6% | 99.4% | 99.9% | 99.8% |
每说话人一句话语 | 55.6% | 57.1% | 51.4% | 43.3% | 40.1% |
接下来进行试验测试根据本发明的说话人ID系统的有效性。将后台学习应用到说话人ID问题的第一步是确定标识不同说话人所需的适当群集数。如前面提到的,使用的群集数越高,得到的纯度就越高。但是大量群集的缺点是要在训练说话人模型中使用稀疏数据。因为这个原因,要进行下面的试验观察关于使用的群集数和每说话人模型的混合数对说话人ID性能的影响。此外,为了获得在统计上有效的结果,进行十次使用从DB2中选择的每个说话人截然不同的注册话语的试验,然后计算平均说话人ID准确度。图5总结了说话人ID结果。使用150个群集以及每个说话人模型4次混合达到最好的说话人ID准确度95.6%。当增加群集数时,说话人ID准确度逐渐减少。结果表明可以选择适当的群集数来轻微增大说话人的群体大小(如果预先已知的话)。最好是同一个说话人的话语占用一个以上的群集,而不是不同说话人的话语分到相同的群集中。与上面表格中的结果相比,显然通过说话人声音的后台学习能够大大提高使用稀疏注册数据的说话人ID的性能。结果还说明所提出的无人监督学习能够比得上传统的说话人ID的有人监督学习。
后台学习方法简化了对说话人识别的使用,因此为在更多CE系统中使用说话人识别开辟了道路。与传统说话人ID不同,根据本发明的后台学习方法不依靠于用户显式注册和训练系统来构造特定说话人模型,而是试图通过以无人监督的方式对离线采集的语音信号进行聚类和参数模型化来学习说话人的声音。这消除了对注册大量用户语音数据的需要。如上所述,为了准备要使用的系统,需要下列两个步骤:
根据描述的算法执行离线语音话语的盲聚类
如上面对图1单元122描述的一样执行说话人标记。在下面给出的例子中,对用户使用个人方法。因此需要用户的个人信息,例如用户的名字。对于某些应用它足以区分不同用户,从而不需要增加个人信息。
除用于说话人识别的传统注册之外,根据本发明的系统允许两种新的注册方式,取决于采集到的采集说话人数据的数量。第一个是由系统产生的自动注册过程。这可以称作“老朋友问候式的注册”。情形如下:
当系统已经运行了一段时间时(例如使用说话人无关的声控或只在后台采集说话人数据),系统自动采集用户的话语,使用描述的后台学习方法构造说话人模型。
如果在某一时刻说话人中的一个通过置信度量(即一句话语(例如用于控制系统的声音命令)的似然性与模型之一相比已经超过了预定义的阀值),系统就提供自动注册。这可以采取老朋友问候的形式,其中系统可以使用预先录制的信息或语音合成,说“嗨,我亲爱的朋友。我再次听到了你熟悉的声音,你能告诉我你的名字吗?”
在注册之后,系统能够通过他/她的声音识别说话人。
系统能够以适当的形式存储与标识说话人的语音模型关联的个人信息。例如,说话人可以通过说出他/她的名字来提供个人信息。系统可以以描述语音的形式存储这个名字。下次同一个说话人对系统说话时,系统可以重建所记录的语音,如果需要的话可以使用语音合成技术,使记录的名字听起来在某种意义上对于系统是标准的。系统还可以使用语音识别技术来识别名字,并以文本等形式存储识别出的描述。系统还可以要求用户键入名字并存储该文本描述。
如果在首次需要说话人识别的时候没有足够的训练数据可用时则执行第二种形式的注册。系统将要求用户说出更多的话语。需要的输入话语数量取决于已经采集的数据。一旦已经达到足够的置信等级,就可以使用任何合适的模型适应算法来执行说话人模型适应。这种形式的注册可以看作是“通过适应的轻松注册”。用户只需要说出一些适应数据来构造说话人模型。与传统方法相比这种形式的注册花费的时间更少。
个人化和交互式声控系统
在传统声控系统中,个人化和交互式特征没有很好的与声控功能性结合。正常情况下,用户能够通过声控设备,而同一时刻用户可能忙于作其它事情。例如,通过声音命令“ON”能够打开电视。在传统声控系统中没有提供在打开设备时自动将电视机调整到个人默认的节目或其它个人设置。对于有效的个人用户界面,希望能自动识别说话人。根据本发明的说话人识别技术能够有效的用于这一目的,因此使声控系统具有新特征。例如,当父亲大卫打开电视时,默认将频道转到“体育”,根据其配置文件这是其喜欢的频道。当2岁大的孩子汤姆通过声音打开电视时,可以自动选择“迪斯尼”频道。这个特性使设备更加友好。特别是对于非常小的儿童,这还使得能够在无人帮助的情况下控制设备。最好是父亲能够改变孩子的配置文件。结合说话人识别技术,声控系统能够以不同的方式响应不同的用户。图6显示了组合语音/说话人识别系统的框图。语音输入610发送到语音识别算法620和说话人识别算法630,语音识别算法620可以对要识别的声音命令进行优化。识别算法最好并行运行,但顺序运行也可以接受。识别算法产生输出640,是识别出的内容(例如声音命令)和说话人的身份。根据本发明,使用相同的话语来识别声音命令和识别说话人。然后以说话人相关的方式执行识别出的命令。
说话人识别也能够方便的用于验证是否允许一个人操作设备(例如使用移动电话)或执行某些操作,如观看成人频道。在个人化和交互式声控系统中,通过分析声控设备的程序记录能够自动建立个人配置文件和内容。配置文件描述用户关于声控系统的习惯。系统能够使用配置文件提供默认的用户节目/设置或象一个知道用户习惯的朋友一样提供有益的建议。
如上描述的说话人识别的应用能够用来与根据本发明的识别系统的后台训练结合,使系统对用户更加友好。要理解的是,如果识别系统是以不同方式训练的,也能够使用同一个应用。
Claims (10)
1.一种自动识别说话人的方法,该方法包括:
识别说话人,通过:
接收说话人的测试话语;
确定大量说话人模型中对于测试话语最可能的一个;以及
认定与最可能的说话人模型关联的说话人为测试话语的说话人;
其中该方法包括在后台产生大量说话人模型,通过:
在没有说出各自训练话语的说话人先验知识的情况下,在后台接收大量说话人的训练话语;
根据预定义的准则对训练话语进行盲聚类;以及
为每一个群集训练一个对应的说话人模型;每个模型表示一个说话人。
2.如权利要求1中要求的方法,其中根据预定义准则对训练话语xi,其中i<N,进行盲聚类的步骤包括:
按照对应的模型λj模型化每一个相应的训练话语xi;
为每一个训练话语xi计算一个相应的似然向量Li,其中每个向量元素Lij表示训练话语xi对于各个模型λj的似然性,其中1≤j≤N;
为每个训练话语xi计算对应的等级向量Fi,其中为等级向量Fi中的每一个元素Fij分配一个等级值,该等级值表示对应似然性Lij与似然向量Li中其它元素相比的等级,这样较高的等级值Fij反映较高的似然值Lij;
聚类训练话语xi,依据的准则是Fi和Fj之间的距离度量最小表示训练话语xi和xj来自同一个说话人。
3.如权利要求2中要求的方法,其中等级是这样的,似然向量Li的似然值最小的η个元素Lij由等级向量Fi的对应元素Fij的截然不同的值表示,并且似然向量Li的剩余N-η个元素由等级向量Fi的对应元素Fij的相同预定义等级值表示,其中η表示每个群集希望的训练话语数量,并且预定义的等级值低于η个截然不同的等级值中的任一个。
4.如权利要求1中要求的方法,其中方法包括:
接收说话人的注册话语;
确定大量说话人模型中对于注册话语最可能的一个;
接收说话人的识别信息;以及
存储与最可能的说话人模型关联的识别信息。
5.如权利要求4中要求的方法,其中方法包括:
验证最可能的说话人模型的似然性是否高于预定义阈值;以及
如果似然性低于预定义阈值,就请求说话人添加话语,并且重复地
接收添加话语;
使用添加话语适应最可能的说话人模型;以及
确定适应后的说话人模型的似然性;
直到似然性高于预定义阈值。
6.如权利要求1中要求的方法,其中重复执行记录训练话语、盲聚类话语和训练说话人模型的步骤,直到已经达到预定义的置信等级。
7.如权利要求6中要求的方法,其中作为对达到预定义置信等级的响应,自动请求说话人提供识别说话人的信息,随后接收识别信息并与最可能的说话人模型相关联来存储识别信息。
8.如权利要求1中要求的方法,其中该方法包括自动获取与CE设备交互的个人配置文件,以作为对已经识别出说话人的响应。
9.如权利要求1中要求的方法,其中该方法包括识别用于标识说话人的测试话语,以作为声音命令;以及以说话人相关的方式执行识别出的声音命令。
10.一种自动识别说话人的系统,该系统包括:
一个说话人识别器,用于识别说话人,通过:
接收说话人的测试话语;
确定大量说话人模型中对于测试话语最可能的一个;以及
认定与最可能的说话人模型关联的说话人为测试话语的说话人;以及
一个说话人模型生成器,用于生成大量说话人模型,
其中说话人模型生成器用于在后台生成大量说话人模型,通过:
在没有说出各自训练话语的说话人先验知识的情况下,在后台接收大量说话人的训练话语;
根据预定义的准则盲聚类训练话语;以及
为每一个群集训练一个对应的说话人模型;每个模型表示一个说话人。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP01201720 | 2001-05-10 | ||
EP01201720.8 | 2001-05-10 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1462366A CN1462366A (zh) | 2003-12-17 |
CN1236423C true CN1236423C (zh) | 2006-01-11 |
Family
ID=8180281
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB028015983A Expired - Lifetime CN1236423C (zh) | 2001-05-10 | 2002-04-25 | 说话人声音的后台学习 |
Country Status (7)
Country | Link |
---|---|
US (1) | US7171360B2 (zh) |
EP (1) | EP1395803B1 (zh) |
JP (1) | JP4369132B2 (zh) |
CN (1) | CN1236423C (zh) |
AT (1) | ATE335195T1 (zh) |
DE (1) | DE60213595T2 (zh) |
WO (1) | WO2002090915A1 (zh) |
Families Citing this family (178)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US20030233231A1 (en) * | 2002-06-13 | 2003-12-18 | International Business Machines Corporation | Apparatus and method for managing privacy using voice recognition and caller identification |
US20040006628A1 (en) * | 2002-07-03 | 2004-01-08 | Scott Shepard | Systems and methods for providing real-time alerting |
US20040117188A1 (en) * | 2002-07-03 | 2004-06-17 | Daniel Kiecza | Speech based personal information manager |
US7292977B2 (en) * | 2002-10-17 | 2007-11-06 | Bbnt Solutions Llc | Systems and methods for providing online fast speaker adaptation in speech recognition |
US7509257B2 (en) * | 2002-12-24 | 2009-03-24 | Marvell International Ltd. | Method and apparatus for adapting reference templates |
US8005677B2 (en) | 2003-05-09 | 2011-08-23 | Cisco Technology, Inc. | Source-dependent text-to-speech system |
US8229744B2 (en) * | 2003-08-26 | 2012-07-24 | Nuance Communications, Inc. | Class detection scheme and time mediated averaging of class dependent models |
KR100612840B1 (ko) * | 2004-02-18 | 2006-08-18 | 삼성전자주식회사 | 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치 |
US20050273333A1 (en) * | 2004-06-02 | 2005-12-08 | Philippe Morin | Speaker verification for security systems with mixed mode machine-human authentication |
US7720012B1 (en) * | 2004-07-09 | 2010-05-18 | Arrowhead Center, Inc. | Speaker identification in the presence of packet losses |
US7725318B2 (en) * | 2004-07-30 | 2010-05-25 | Nice Systems Inc. | System and method for improving the accuracy of audio searching |
CN101027716B (zh) * | 2004-09-23 | 2011-01-26 | 皇家飞利浦电子股份有限公司 | 健壮的说话者相关的语音识别系统 |
US7447633B2 (en) * | 2004-11-22 | 2008-11-04 | International Business Machines Corporation | Method and apparatus for training a text independent speaker recognition system using speech data with text labels |
JP2007057714A (ja) * | 2005-08-23 | 2007-03-08 | Nec Corp | 話者識別器更新データを生成する装置、方法、プログラムおよび話者識別器を更新する装置、方法、プログラム |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US20070129943A1 (en) * | 2005-12-06 | 2007-06-07 | Microsoft Corporation | Speech recognition using adaptation and prior knowledge |
JP4854732B2 (ja) * | 2006-03-24 | 2012-01-18 | パイオニア株式会社 | 話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラム |
TWI312945B (en) * | 2006-06-07 | 2009-08-01 | Ind Tech Res Inst | Method and apparatus for multimedia data management |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
KR100826875B1 (ko) * | 2006-09-08 | 2008-05-06 | 한국전자통신연구원 | 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치 |
US20080147692A1 (en) * | 2006-12-14 | 2008-06-19 | General Motors Corporation | Method for manipulating the contents of an xml-based message |
US8886537B2 (en) * | 2007-03-20 | 2014-11-11 | Nuance Communications, Inc. | Method and system for text-to-speech synthesis with personalized voice |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
ATE457511T1 (de) * | 2007-10-10 | 2010-02-15 | Harman Becker Automotive Sys | Sprechererkennung |
DE602007004504D1 (de) * | 2007-10-29 | 2010-03-11 | Harman Becker Automotive Sys | Partielle Sprachrekonstruktion |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
CN101256769B (zh) * | 2008-03-21 | 2011-06-15 | 深圳市汉音科技有限公司 | 语音识别装置及其方法 |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US8340974B2 (en) * | 2008-12-30 | 2012-12-25 | Motorola Mobility Llc | Device, system and method for providing targeted advertisements and content based on user speech data |
EP2216775B1 (en) * | 2009-02-05 | 2012-11-21 | Nuance Communications, Inc. | Speaker recognition |
US8209174B2 (en) * | 2009-04-17 | 2012-06-26 | Saudi Arabian Oil Company | Speaker verification system |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US20120309363A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Triggering notifications associated with tasks items that represent tasks to perform |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US8977584B2 (en) | 2010-01-25 | 2015-03-10 | Newvaluexchange Global Ai Llp | Apparatuses, methods and systems for a digital conversation management platform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9305553B2 (en) * | 2010-04-28 | 2016-04-05 | William S. Meisel | Speech recognition accuracy improvement through speaker categories |
US8606579B2 (en) * | 2010-05-24 | 2013-12-10 | Microsoft Corporation | Voice print identification for identifying speakers |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10672399B2 (en) | 2011-06-03 | 2020-06-02 | Apple Inc. | Switching between text data and audio data based on a mapping |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US20130006633A1 (en) * | 2011-07-01 | 2013-01-03 | Qualcomm Incorporated | Learning speech models for mobile device users |
US9159324B2 (en) | 2011-07-01 | 2015-10-13 | Qualcomm Incorporated | Identifying people that are proximate to a mobile device user via social graphs, speech models, and user context |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9251792B2 (en) | 2012-06-15 | 2016-02-02 | Sri International | Multi-sample conversational voice verification |
US8886576B1 (en) | 2012-06-22 | 2014-11-11 | Google Inc. | Automatic label suggestions for albums based on machine learning |
US8429103B1 (en) | 2012-06-22 | 2013-04-23 | Google Inc. | Native machine learning service for user adaptation on a mobile platform |
US8510238B1 (en) | 2012-06-22 | 2013-08-13 | Google, Inc. | Method to predict session duration on mobile devices using native machine learning |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US10438591B1 (en) | 2012-10-30 | 2019-10-08 | Google Llc | Hotword-based speaker recognition |
US20140136204A1 (en) * | 2012-11-13 | 2014-05-15 | GM Global Technology Operations LLC | Methods and systems for speech systems |
CN113470640B (zh) | 2013-02-07 | 2022-04-26 | 苹果公司 | 数字助理的语音触发器 |
US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
EP2973002B1 (en) | 2013-03-15 | 2019-06-26 | Apple Inc. | User training by intelligent digital assistant |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US9293140B2 (en) * | 2013-03-15 | 2016-03-22 | Broadcom Corporation | Speaker-identification-assisted speech processing systems and methods |
KR102057795B1 (ko) | 2013-03-15 | 2019-12-19 | 애플 인크. | 콘텍스트-민감성 방해 처리 |
CN105027197B (zh) | 2013-03-15 | 2018-12-14 | 苹果公司 | 训练至少部分语音命令系统 |
CN103219008B (zh) * | 2013-05-16 | 2016-04-20 | 清华大学 | 基于基状态矢量加权的短语音说话人识别方法 |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
DE112014002747T5 (de) | 2013-06-09 | 2016-03-03 | Apple Inc. | Vorrichtung, Verfahren und grafische Benutzerschnittstelle zum Ermöglichen einer Konversationspersistenz über zwei oder mehr Instanzen eines digitalen Assistenten |
CN105265005B (zh) | 2013-06-13 | 2019-09-17 | 苹果公司 | 用于由语音命令发起的紧急呼叫的系统和方法 |
AU2014306221B2 (en) | 2013-08-06 | 2017-04-06 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US10304458B1 (en) | 2014-03-06 | 2019-05-28 | Board of Trustees of the University of Alabama and the University of Alabama in Huntsville | Systems and methods for transcribing videos using speaker identification |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
AU2015266863B2 (en) | 2014-05-30 | 2018-03-15 | Apple Inc. | Multi-command single utterance input method |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9384738B2 (en) | 2014-06-24 | 2016-07-05 | Google Inc. | Dynamic threshold for speaker verification |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
CN104490570B (zh) * | 2014-12-31 | 2017-05-17 | 桂林电子科技大学 | 一种面向盲人的嵌入式声纹识别与发现系统 |
KR102371697B1 (ko) | 2015-02-11 | 2022-03-08 | 삼성전자주식회사 | 음성 기능 운용 방법 및 이를 지원하는 전자 장치 |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
CN106570443A (zh) * | 2015-10-09 | 2017-04-19 | 芋头科技(杭州)有限公司 | 一种快速识别方法及家庭智能机器人 |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
JP6671020B2 (ja) * | 2016-06-23 | 2020-03-25 | パナソニックIpマネジメント株式会社 | 対話行為推定方法、対話行為推定装置及びプログラム |
JP6910002B2 (ja) * | 2016-06-23 | 2021-07-28 | パナソニックIpマネジメント株式会社 | 対話行為推定方法、対話行為推定装置及びプログラム |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770429A1 (en) | 2017-05-12 | 2018-12-14 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
CN107978311B (zh) * | 2017-11-24 | 2020-08-25 | 腾讯科技(深圳)有限公司 | 一种语音数据处理方法、装置以及语音交互设备 |
US11152006B2 (en) * | 2018-05-07 | 2021-10-19 | Microsoft Technology Licensing, Llc | Voice identification enrollment |
KR102598057B1 (ko) * | 2018-09-10 | 2023-11-06 | 삼성전자주식회사 | 음소기반 화자모델 적응 방법 및 장치 |
CN109378003B (zh) * | 2018-11-02 | 2021-10-01 | 科大讯飞股份有限公司 | 一种声纹模型训练的方法和系统 |
KR102655628B1 (ko) | 2018-11-22 | 2024-04-09 | 삼성전자주식회사 | 발화의 음성 데이터를 처리하는 방법 및 장치 |
CN113129901A (zh) * | 2020-01-10 | 2021-07-16 | 华为技术有限公司 | 一种语音处理方法、介质及系统 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5167004A (en) * | 1991-02-28 | 1992-11-24 | Texas Instruments Incorporated | Temporal decorrelation method for robust speaker verification |
US5522012A (en) * | 1994-02-28 | 1996-05-28 | Rutgers University | Speaker identification and verification system |
US5774859A (en) * | 1995-01-03 | 1998-06-30 | Scientific-Atlanta, Inc. | Information system having a speech interface |
US5895447A (en) * | 1996-02-02 | 1999-04-20 | International Business Machines Corporation | Speech recognition using thresholded speaker class model selection or model adaptation |
US5862519A (en) * | 1996-04-02 | 1999-01-19 | T-Netix, Inc. | Blind clustering of data with application to speech processing systems |
US6539352B1 (en) * | 1996-11-22 | 2003-03-25 | Manish Sharma | Subword-based speaker verification with multiple-classifier score fusion weight and threshold adaptation |
JP2002514318A (ja) * | 1997-01-31 | 2002-05-14 | ティ―ネティックス,インコーポレイテッド | 録音された音声を検出するシステムおよび方法 |
DE69813597T2 (de) * | 1997-10-15 | 2004-02-12 | British Telecommunications P.L.C. | Mustererkennung, die mehrere referenzmodelle verwendet |
AU1305799A (en) * | 1997-11-03 | 1999-05-24 | T-Netix, Inc. | Model adaptation system and method for speaker verification |
US6233555B1 (en) * | 1997-11-25 | 2001-05-15 | At&T Corporation | Method and apparatus for speaker identification using mixture discriminant analysis to develop speaker models |
JP2965537B2 (ja) * | 1997-12-10 | 1999-10-18 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 話者クラスタリング処理装置及び音声認識装置 |
US6073096A (en) * | 1998-02-04 | 2000-06-06 | International Business Machines Corporation | Speaker adaptation system and method based on class-specific pre-clustering training speakers |
US6415257B1 (en) * | 1999-08-26 | 2002-07-02 | Matsushita Electric Industrial Co., Ltd. | System for identifying and adapting a TV-user profile by means of speech technology |
US6324512B1 (en) * | 1999-08-26 | 2001-11-27 | Matsushita Electric Industrial Co., Ltd. | System and method for allowing family members to access TV contents and program media recorder over telephone or internet |
US6618702B1 (en) * | 2002-06-14 | 2003-09-09 | Mary Antoinette Kohler | Method of and device for phone-based speaker recognition |
US7574359B2 (en) * | 2004-10-01 | 2009-08-11 | Microsoft Corporation | Speaker selection training via a-posteriori Gaussian mixture model analysis, transformation, and combination of hidden Markov models |
-
2002
- 2002-04-25 EP EP02769177A patent/EP1395803B1/en not_active Expired - Lifetime
- 2002-04-25 DE DE60213595T patent/DE60213595T2/de not_active Expired - Lifetime
- 2002-04-25 WO PCT/IB2002/001495 patent/WO2002090915A1/en active IP Right Grant
- 2002-04-25 AT AT02769177T patent/ATE335195T1/de not_active IP Right Cessation
- 2002-04-25 CN CNB028015983A patent/CN1236423C/zh not_active Expired - Lifetime
- 2002-04-25 JP JP2002588127A patent/JP4369132B2/ja not_active Expired - Fee Related
- 2002-05-07 US US10/140,499 patent/US7171360B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
ATE335195T1 (de) | 2006-08-15 |
JP4369132B2 (ja) | 2009-11-18 |
CN1462366A (zh) | 2003-12-17 |
EP1395803B1 (en) | 2006-08-02 |
DE60213595T2 (de) | 2007-08-09 |
WO2002090915A1 (en) | 2002-11-14 |
JP2004528595A (ja) | 2004-09-16 |
EP1395803A1 (en) | 2004-03-10 |
DE60213595D1 (de) | 2006-09-14 |
US20030088414A1 (en) | 2003-05-08 |
US7171360B2 (en) | 2007-01-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1236423C (zh) | 说话人声音的后台学习 | |
AU2016216737B2 (en) | Voice Authentication and Speech Recognition System | |
CN1188831C (zh) | 具有多个话音识别引擎的话音识别系统和方法 | |
US20160372116A1 (en) | Voice authentication and speech recognition system and method | |
US6442519B1 (en) | Speaker model adaptation via network of similar users | |
CN1296886C (zh) | 语音识别系统和方法 | |
US8280733B2 (en) | Automatic speech recognition learning using categorization and selective incorporation of user-initiated corrections | |
US7716050B2 (en) | Multilingual speech recognition | |
CN1123863C (zh) | 基于语音识别的信息校核方法 | |
US7962327B2 (en) | Pronunciation assessment method and system based on distinctive feature analysis | |
US20040243412A1 (en) | Adaptation of speech models in speech recognition | |
AU2013203139A1 (en) | Voice authentication and speech recognition system and method | |
KR20050098839A (ko) | 네트워크 환경에서 음성 처리를 위한 중간 처리기 | |
CN1101446A (zh) | 语音教学计算机化系统 | |
US11335324B2 (en) | Synthesized data augmentation using voice conversion and speech recognition models | |
CN1758263A (zh) | 基于得分差加权融合的多模态身份识别方法 | |
CN104903954A (zh) | 使用基于人工神经网络的亚语音单位区分的说话人验证及识别 | |
US11676572B2 (en) | Instantaneous learning in text-to-speech during dialog | |
CN1534597A (zh) | 利用具有转换状态空间模型的变化推理的语音识别方法 | |
CN1521729A (zh) | 使用隐轨迹和隐马尔可夫模型进行语音识别的方法 | |
US7650281B1 (en) | Method of comparing voice signals that reduces false alarms | |
CN1157711C (zh) | 自适应语音识别器的生成装置及方法 | |
CN1253851C (zh) | 基于事先知识的说话者检验及说话者识别系统和方法 | |
Gade et al. | A comprehensive study on automatic speaker recognition by using deep learning techniques | |
US20140074465A1 (en) | System and method to generate a narrator specific acoustic database without a predefined script |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CX01 | Expiry of patent term | ||
CX01 | Expiry of patent term |
Granted publication date: 20060111 |