CN1309802A

CN1309802A - 接入拨号服务的方法

Info

Publication number: CN1309802A
Application number: CN98805469A
Authority: CN
Inventors: 小R·W·博斯梅尔
Original assignee: Ameritech Corp
Current assignee: AT&T Teleholdings Inc
Priority date: 1997-05-27
Filing date: 1998-05-14
Publication date: 2001-08-22
Also published as: US8731922B2; US6847717B1; US20140324432A1; US8032380B2; AU7570298A; US20050080624A1; US9373325B2; US8433569B2; US20080133236A1; US7356134B2; US20120029922A1; US20130238323A1; WO1998054695A1

Abstract

一种接入拨号服务的方法,包含下列步骤:(a)拨出服务号码(172);(b)说出多个数字,形成第一语音(174);(c)利用与说话者无关的说明者识别方法识别数字(176);(d)当用户先前已使用过拨号服务时,根据第一语音,利用说话者确认系统验证用户(178);(e)当用户不能被验证时,要求用户输入个人识别号(182);以及(f)当个人识别号有效时(184),提供接入拨号服务(186)。

Description

接入拨号服务的方法

技术领域

本发明涉及语音识别系统，尤其涉及说话者确认方法。

背景技术

语音识别和说话者确认使用相似的分析工具来达到其目的。首先对输入语音进行处理，以确定其本质特性。一般，把输入语音转换成对数倒频系数(cepstrumcoefficients)。对数倒频是对数功率谱的逆傅里叶变换。在训练过程中，存储对数倒频系数形成特定语音的码本。例如，码本可以具有数字零到九的码。在语音识别时，把输入语音与码本中的码(训练语音)进行比较，以确定哪个最相似。在语音识别时，码是许多人的形成语音方法的广义表述(例如“零”)。在说话者确认中，代码表示说话者各自的特性，确认系统试图确定某人的代码是否比假冒者代码更与输入语音相似。因此，说话者确认系统中的代码强调各自的特征，而在语音识别系统中，代码对许多个体的说话者一般化。说话者确认在许多语音激活系统中有潜在的应用，例如电话银行。不幸的是，没能证明目前的说话者确认系统的可靠性足以支持这些应用。

因此，需要一种拨号服务，它可以与今天的说诸者确认系统能力一起使用，并得益于先进的说话者确认系统。

发明内容

满足这些目的的接入拨号服务的方法包含下列步骤：(a)拨一服务号码；(b)说出多个数字，形成第一语音；(c)利用与说话者无关的说话者识别方法来识别这些数字；(d)当用户先前已使用过拨号服务时，根据第一语音，利用说话者确认系统确认用户；(e)当不能确认用户时，要求用户输入个人识别号；以及(f)当个人识别号有效时，提供接入拨号服务。

附图概述

图1是说话者确认系统的实施例的框图；

图2是用于形成说话者确认判定的步骤的实施例的流程图；

图3是用于形成说话者确认判定码本的步骤的实施例的流程图；

图4是用于形成说话者确认判定的步骤的实施例的流程图；

图5是合并了说话者确认方法的拨号服务的示意图；

图6是拨号服务中使用的步骤的实施例的流程图；

图7是拨号服务中使用的实施例的流程图。

附图的详细描述

先描述对说话者确认方法的几个改进，然后解释可以引入这些改进的拨号服务系统。图1是说话者确认系统10的实施例的框图。要注意的是说话者确认系统实际上可以用多种方式来实施。例如该系统可以在连接有一个话筒的通用计算机中用软件来实现来实现；或者可以把该系统在连接到存储器和话筒的通用微处理器中的用固件实现；或者可以把该系统实施成利用由适当软件控制的数字信号处理器(DSP)、控制器、存储器和话筒。注意，由于可以利用计算机中的软件来进行这些处理，所以可以使用包含计算机可读指令的计算机可读存储媒体实施说话者确认方法。这些各种系统结构对于本技术领域的熟练人员来说是明显的，所选的特定系统结构与应用有关。

话筒12接收输入语言，并把声波转换成电信号。特征提取器14分析电信号，并提取语言的关键特征。例如特征提取器先把电信号数字化。然后进行数字化信号的对数倒频，确认对数倒频系数。在另一个实施例中，用线性预测分析来找到线性预测编码(LPC)系数。也可以使用其它特征提取技术。

所示的开关16连接到特征提取器14上。该开关16表示在训练阶段使用了与确认阶段不同的路径。在训练阶段，码本发生器18分析对数倒频系数。把码本发生器18的输出存储在码本20中。在一个实施例中，码本发生器18把同一说话者来的同一语音样本进行比较，形成该人的语音的一般化表述。该一般化表述是码本中的训练语音。训练语音表示用户例如说数字“1”的一般化对数倒频系数。训练语音也可以是部分言语、音素或如“21”的数字或者其它语言片段。除了登记的用户的样本，也可以从非用户组中得到语音。这些语音用来形成表示具有多个假冒者语音的假冒者码的组合。

在一个实施例中，码本发生器18确定说话者(用户和非用户)是男性还是女性。集合男性训练语音(男性组)以确定男性变差矢量集合。女性训练语音(女性组)以确定女性变差矢量。这些性别特定变差矢量将在确认阶段计算加权欧几里得距离(紧密度测量)时使用。

在确认阶段，开关16把特征提取器14连接到比较器22。比较器22对说话者的测试语音与码本20中存储的训练语音之间的接近度以及测试语音与假冒者语音之间的接近度进行数学分析。在一个实施例中，例如把说出的“1”与说话者的“1”训练语音和“1”的假冒者语音进行比较。比较器22确定“1”训练语音、“1”测试语音和“1”假冒者语音之间的接近度度量。当测试语音比假冒者语音更接近训练语音时，确认该说话者为真实的说话者。否则，确定该说话者为假冒者。在一个实施例中，接近度量是修正的加权欧几里得距离。在一个实施例中的修正包含使用一般化变差矢量代替每个登记用户的个体变差矢量。在另一个实施例中，对于男性说话者使用男性变差矢量，对于女性说话者使用女性变差矢量。

判定加权和组合系统24用该接近度度量值确定测试语音是否最接近于训练语音或假冒者语音。当测试语音比假冒者语音更接近训练语音时，作出确认判定。当测试语音不比假冒者语音更接近训练语音时，作出不确认判定。这些是初步判定。通常，需要说话者说几个语音(例如“1”、“3”、“5”、“21”)。对这些测试语音中的每个进行判定。对多个判定中的每个进行加权，并组合形成确认判定。

对判定加权是因为不是所有的语音都提供了相同的可靠性。例如，“1”可能提供了可靠性比“8”大得多。因此，根据下面的语音由第一加权判定可以形成更精确的确认判定。可以使用两种加权方法。一种加权方法使用历史逼近。把样本语音与训练语音进行比较，确定虚警概率PFA(说话者不是假冒者，而判定为假冒者)以及漏极概率PM(说话者是假冒者而判定为真实说话者)。PFA和PM都是出错概率。用这些出错概率来加权每个判定。在一个实施例中，加权系数(权重)由下面的等来式描述：

a_{i} = \log \frac{1 - P_{Mi}}{P_{FAi}}

判定有效(真实说话者)

a_{i} = \log \frac{P_{Mi}}{1 - P_{FAi}}

判定无效(假冒者)

当加权判定的总和大于零时，则确认判定为真实的说话者。否则确认判定是一个假冒者。

加权判定的另一个方法是根据判定质量的即时评估。在一个实施例中，这可以利用x²检测器来计算。然后对这些判定用x²检测器确定的置信度进行加权。在另一个实施例中，使用较大的样本近似。因此，如果测试统计量是t，则找出b，使得c²(b)=t。则如果它超过c²分布的1-a的分位点，则判定是假冒者。

下面示出了一种加权方案：

1.5，如果b＞c_accept

1.0，如果1-a≤b≤c_accept

-1.0，如果c_reject≤b≤1-a

-1.25，如果b＜c_reject

当加权判定和大于零时，则确认判定是真实说话者。当加权判定和小于或等于零时，则判定为假冒者。

在另一个实施例中，特征提取器14把语言信号分段成语音声音和非语音声音。语音声音一般包括元音，而大多数其它声音是不发音的。在训练阶段和确认阶段的计算对数倒频系数之前丢弃这些非语音声音。

利用与性别有关的对数倒频和仅使用语音声音的加权判定的这些技术在说话者确认系统中可以组合使用或者独立使用。

图2是用来形成说话者确认判定步骤的实施例的流程图。处理在步骤40开始，在步骤42产生码本。码本具有多个说话者(登记用户，多人)中的每个说话者的多个训练语音和多个假冒者语音。在一个实施例中，训练语音是说出特定语音(例如“1”)的特定说话者的对数倒频系数。由说出这些语音的用户产生这些训练语音。确定每个语音的对数倒频系数，形成训练语音。在一个实施例中，要求说话者重复该语音，把两个语音的一般化存储成训练语音。在另一个实施例中，把两个语音都存储成训练语音。

在一个实施例中，男性说话者的数据库用来确定男性变差矢量，女性说话者的数据库用来确定女性变差矢量。在另一个实施例中，男性和女性说话者的数据库都用来形成男性假冒者码本和女性假冒者码本。性别特定变差矢量存储在码本中。在步骤44，接收说话者的多个测试语音(语音输入组)。在一个实施例中，计算测试语音的对数倒频系数。在步骤46，把多个测试语音的每个与说话者的多个训练语音进行比较。根据比较结果，形成多个判定，多个训练语音的每个语音有一个判定。在一个实施例中，由测试语音与训练语音之间以及测试语音与假冒语音之间的欧几里得加权距离来确定比较结果。在另一个实施例中，如果说话者是男性，则用男性变差矢量来计算欧几里得加权距离，如果说话者是女性，则用女性变差矢量来计算欧几里得加权距离。在步骤48对多个判定中的每个判定都进行加权，形成多个加权判定。加权可以根据该语音的历史出错率或根据该语音的判定置信程度(置信度度量值)来进行。在步骤50，组合多个加权判定。在一个实施例中，组合步骤包含对加权判定求和。然后在步骤52根据组合的加权判定进行确认判定。该处理在步骤54结束。在一个实施例中，如果和大于零，则确认判定是说话者是真实的说话者，否则说话者是假冒者。

图3是用来形成说话者确认判定的码本的步骤的实施例的流程图。处理在步骤70开始，在步骤72接收输入语音。在一个实施例中，在步骤74，把输入语音分段成语音声音和非语音声音。然后在步骤76利用语音声音计算对数倒频系数。在步骤78，把这些系数存储成该说话者的训练语音。然后处理返回到步骤72，处理下一个输入语音，直到把所有训练语音都存储在码本中。

图4是用来形成确认判定的步骤的实施例的流程图。处理在步骤100开始，在步骤102接收输入语音。接着，在步骤104确定说话者是男性还是女性。在说话者确认应用中，说话者声称是特定的一些人。如果该人声称的一些人是男性，则假设该说话者是男性，即使说话者是女性。然后在步骤106把输入语音分段成语音声音和非语音声音。在步骤108从语音声音中提取出特征(例如对数倒频系数)，形成测试语音。在步骤110，如果声称的说话者是男性，则利用一般化男性变差矢量计算加权欧几里得距离(WED)。当声称的说话者是女性，则用女性变差矢量。在该说话者的测试语音与训练语音之间以及测试语音与男性(如果女性)假冒者语音之间计算WED。在步骤112根据WED对每个测试语音形成判定。在步骤114，根据利用x方检测器确定的置信度(置信度度量值)对判定进行加权。在步骤116，求加权判定之和。在步骤118根据加权判定之和进行确认判定。

利用上述讨论的说话者确认判定得到改进的说话者确认系统，它比当前技术更可靠。

图5示出了利用上述说话者确认方法的拨号服务。拨号服务被图示成银行服务。用户在他们的电话150上拨出服务号码。公共电话交换网(PSTN)152把用户电话150与银行156上处的拨号服务计算机154连接。拨号服务并不需要位于银行内。下面将结合图6所示的流程图解释这种服务。处理在步骤170开始，在步骤172拨出服务号码(通信服务地址、号码)。然后在步骤174，计算机154提示用户(请求者)说出多个数字(接入码、多个号码、接入号)，以形成第一语音。在步骤176利用与说话者无关的语音识别方法，识别数字。当用户事先使用了拨号服务，则在步骤178根据第一语音验证用户。当在步骤178用户被验证是真实的说话者，则在步骤180允许其接入拨号服务。当用户不能被验证时，则在步骤182要求用户输入个人识别号(PIN)。用户可以说出PIN或者在键盘上输入PIN来输入PIN。在步骤184，确定PIN是否有效。当PIN无效，则在步骤186，用户被拒绝接入。当PIN有效时，则在步骤180允许用户接入服务。利用上述方法，拨号服务利用说话者确认系统作为PIN的选项，但是如果它不能验证用户，并不拒绝接入用户。

图7是拨号服务中使用的步骤的另一个实施例的流程图。处理在步骤200开始，在步骤202用户说出接入码，形成多个语音。在步骤204，确定用户是否先前已接入过服务。当用户先前已使用过服务，则在步骤206，说话者确认系统尝试验证用户(识别)，当说话者确认系统可以验证用户时，用户在步骤208被允许接入系统。当系统不能确认用户时，在步骤210要求PIN。注意，用户可以是说出PIN或者在键盘上输入PIN。在步骤212，确定PIN是否有效。当PIN无效时，在步骤214拒绝用户接入。当PIN有效时，在步骤208允许用户接入。

当在步骤204，用户事先前没有接入过通信服务时，在步骤216，用户被要求输入PIN。在步骤218，确定PIN是否有效。当PIN无效时，在步骤220，拒绝接入服务。当PIN有效时，在步骤222要求用户第二次说出接入码，形成第二语音(多个第二语音)。在步骤224，把第一语音(步骤202)和第二语音之间的相似性与阀值进行比较。在一个实施例中，利用加权欧几里得距离计算相似性。当相似性小于或等于阈值时，在步骤222要求用户再次说出接入码。在这种情况下，将对要求的相似性比较第二和第三语音。实际上，在步骤222，将不需要用户重复接入码一次或两次以上，系统就允许用户接入。当相似性大于阈值时，在步骤226存储这两个语音的组合。在另一个实施例中，把这两个语音都存储成基准语音。接着在步骤208允许接入服务。当用户下次接入服务时，用基准语音(多个基准语音、基准语音声音)来验证用户。请注意，在一个实施例中，接入到拨号服务中的说话者确认部分使用对确认处理讨论的所有的技术。在另一个实施例中，处理仅使用说话确认技术中一个种技术。最后，在另一个实施例中，接入号具有预定的数字，如果用户是男性，预定的数字是从第一组数字(预定的数字组)中选择出的。当用户是女性时，预定的数字是从第二组数字中选择出的。这可以使系统确定用户是被设想成男性还是女性。根据这一信息，在说话确认处理时，使用男性变差矢量或女性变差矢量。

因此已描述了改进的说话确认方法和采用了该说话确认方法的优点的服务。虽然本发明是结合其特定实施例来描述的，但是，显然，结合上述描述后，多种改变、改进和变化对本技术领域的熟练人员都是明显的。因此，要求把所有这些改变、改进和变化包含到所附的权利要求书中。

Claims

1、一种接入拨号服务的方法，包含下列步骤：

(a)拨出服务号码；

(b)说出多个数字，形成第一语音；

(c)利用与说话者无关的说话者识别方法识别多个数字；

(d)当用户已先前已用过拨号服务时，根据第一语音，利用说话者确认系统验证用户；

(e)当用户不能被验证时，要求用户输入个人识别号；以及

(f)当个人识别号有效时，提供接入拨号服务。

2、如权利要求1所述的方法，其特征在于，还包含下列步骤：

(g)当用户先前没有使用过拨号服务时，要求用户输入个人识别号；

(h)当个人识别号有效时，要求用户第二次说出多个数字，形成第二语音。

3、如权利要求2所述的方法，其特征在于，步骤(g)包括下列步骤：

(gl)说出个人识别号。

4、如权利要求2所述的方法，其特征在于，还包含下列步骤：

(i)确定第一语音与第二语音之间的相似性；

(j)当相似性满足阈值时，根据该语音和第二语音存储基准语音。

5、如权利要求4所述的方法，其特征在于，还包括下列步骤：

(k)当相似性不满足阈值时，返回步骤(i)。

6、如权利要求1所述的方法，其特征在于，步骤(d)还包括下列步骤：

(d1)当多个数字中的预选的数字是预定数字组中的一个时，确定用户是男性。

7、如权利要求6所述的方法，其特征在于，还包括下列步骤：

(d2)利用男性变差矢量确定第一语音与基准语音之间的相似性。

8、如权利要求7所述的方法，其特征在于，还包括下列步骤：

(d3)计算第一语音与基准语音之间的加权欧几里得距离。

9、如权利要求6所述的方法，其特征在于，还包括下列步骤：

(d2)当多个数字的预选数字不是预定数字组中之一时，确定用户是女性；

(d3)在计算该语音与基准语音之间的加权欧几里得距离时，利用女性变差，以确定该语音与基准语音之间的相似性。

10、一种允许接入通信服务的方法，其特征在于，包含下列步骤：

(a)用户输入通信服务地址；

(b)说出接入码，形成多个语音；

(c)当用户先前已使用过通信服务时，利用说话者确认系统验证用户的身份；

(d)当用户的身份不能被验证时，要求用户输入个人识别号；以及

(e)当个人识别号有效时，提供接入到通信服务。

11、如权利要求10所述的方法，其特征在于，还包括下列步骤：

(f)当用户的身份可以被验证时，提供接入到通信服务。

12、如权利要求10所述的方法，其特征在于，还包括下列步骤：

(f)当用户先前未使用过通信服务时，把多个语音存储成多个基准语音。

13、如权利要求10所述的方法，其特征在于，步骤(c)还包括下列步骤：

(c1)把多个语音与用户的训练语音进行比较，形成多个判定；

(c2)加权多个判定中的每个判定，形成多个加权判定；

(c3)组合多个加权判定形成验证判定。

14、如权利要求13所述的方法，其特征在于，步骤(c1)还包含下列步骤：

(Ⅰ)把多个语音分段成语音声音和非语音声音。

15、一种提供接入拨号服务的方法，其特征在于，包含下列步骤：

(a)由请求者输入拨号服务号码；

(b)说出形成接入码的数字，形成多个语音；

(c)利用与说话者无关的语音识别处理方法识别多个数字；

(d)当请求者先前已使用过拨号服务时，根据多个语音验证请求者的身份；

(e)当请求者的身份不能被验证时，要求请求者输入个人识别号；

(f)当个人识别号有效时，提供接入拨号服务。

16、如权利要求15所述的方法，其特征在于，步骤(e)还包括下列步骤：

(e1)在键盘上输入个人识别号。

17、如权利要求15所述的方法，其特征在于，还包括下列步骤：

(g)当请求者先前没有使用过拨号服务时，要求请求者输入个人识别号；

(h)当个人识别号有效时，要求请求者说出形成接入号的多个数字，形成第二组多个语音。

18、如权利要求17所述的方法，其特征在于，步骤(d)还包括下列步骤：(d1)把多个语音分段成语音声音和非语音声音。

19、如权利要求18所述的方法，其特征在于，还包括下列步骤：(d2)把语音声音与基准语音声音进行比较。