CN1161748C

CN1161748C - 使用频谱图相关的讲话者识别

Info

Publication number: CN1161748C
Application number: CNB008023352A
Authority: CN
Inventors: 佐藤胜彦; 治; 竹田恒治
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 1999-10-21
Filing date: 2000-10-18
Publication date: 2004-08-11
Anticipated expiration: 2020-10-18
Also published as: US6718306B1; CN1327575A; WO2001029824A1; KR100426351B1; DE60014031D1; DE60014031T2; EP1141943B1; EP1141943A1; KR20010080735A; JP2001117579A

Abstract

声音频谱图转换单元(22)把从输入单元(21)输入的讲话者的语音转换成被视为多级梯度图像的声音频谱图“A”，并存储在信息存储单元(23)中。当把准备识别的讲话者的语音从输入单元(21)输入并由转换单元(22)转换成一个声音频谱图“B”时，检测单元(26)检测一部分图像，这一部分图像包括多个由放置单元(25)放置在记录的语音图像A中的样本，以及未知语音图像B上的每一个在其中可计算出最大相关系数的区域。核对确定单元(27)把多个样本的相互间的位置关系与其中检测到最大相关系数的各区域的相互间的位置关系加以比较，根据其间的差别确定记录的语音与未知语音之间的等同性。把所确定的等同性输出到显示单元(28)上。

Description

使用频谱图相关的讲话者识别

技术领域

本发明涉及一种使用语音数据识别人的语音核对装置和一种语音核对方法。

背景技术

通常情况下，为了根据语音识别一个讲话者，在核对之前，把一个准备加以核对的语音信号转换成一个声音参数，例如频谱或类似的特征，因为把这一语音信号直接与记录的语音信号进行比较是不够的。其它能够用于此目的声音参数可以为主频率(音高频率)、语音能量、共振峰频率、零交叉数等。

此处，由于这些声音参数主要包括表示语音的信息，其次包括个人信息，所以当对讲话者加以识别时，必须根据声音参数创建一个用以比较的惟一对应于讲话者的新的特征量，以提高命中率。

传统的讲话者识别是按下列方式加以执行的。

图14是说明使用传统语音核对装置的一个讲话者识别过程的流程图。

(1)把针对一个单词而发出的一个输入语音信号划分成多个预定的单位时间帧(frame)，并针对每一帧计算频谱，以获得频谱的一个时间序列分布(以下叫做“声音频谱图”)(步骤C1)。

(2)根据声音频谱图检测一个语音部分(步骤C2)。

(3)确定语音部分是一个讲出的、未讲出的、还是不发音的部分，以从语音部分抽取已讲出的部分。然后，把语音部分划分成若干块，每一个块相应于一个讲出的部分(步骤C3)。

(4)作为与讲话者惟一对应的一个特征量，针对这些块，沿时间方向计算声音频谱图的一个附加的平均量(以下叫做“平均频谱”)(步骤C4)。

(5)确定是记录处理还是核对处理，并当准备进行记录处理时，把用于这些块的平均频谱作为记录的讲话者的一个特征量加以记录(骤C5→C6)。

(6)确定是记录处理还是核对处理，以及使用作为未知讲话者的特征量的这些块的平均频谱，计算与记录的讲话者的特征量的相似性(步骤C5→C7)。

(7)使用一个先前设置的阈值，比较未知讲话者和记录的讲话者的相似性，以确定记录的讲话者与未知讲话者的等同性(步骤C8)。

如以上所描述的，传统的语音核对装置所执行的讲话者识别过程，把一个由记录的讲话者所输入的一个语音信号(以下叫做“记录的语音信号”)与一个由一个准备加以核对的未知讲话者所输入的一个语音信号(以下叫做“未知语音信号”)相核对，其通过(1)把语音信号转换成声音频谱图；(2)从声音频谱图检测一个语音部分；(3)根据语音部分是一个已讲出的、未讲出的、还是不发音的部分的确定，从所检测到的语音部分抽取一个已讲出的部分；以及(4)从所抽取的已讲出的部分导出用于所划分的每一个块的一个特征量。在这一方式中，应用于实际确定记录的语音信号与未知语音信号的等同性的核对过程的特征量的计算，至少涉及4个预处理阶段，以致于对于整个讲话者识别处理来说，需要大量的处理步骤。

另外，尽管沿时间方向把一个块中的声音频谱图的附加的平均量用作为对讲话者的惟一特征量的传统的讲话者识别过程的优点在于其相对简单的处理，然而稳定的特征量的创建要求语音信号数据持续一段相当长的时间。另外，由于在时间轴向上的信息被压缩，所以这一过程不适合依赖于文本的讲话者识别。此外，由于传统的讲话者识别过程把叠加在语音信息上的个人信息平均为语音信息的平均的伴随物，所以未提供一个充分的特征量。因此，为提高命中率，必须添加一个额外的特征量，从而导致对极大量预处理步骤的需求。

因此，命中率的提高意味着其中涉及极大量预处理步骤的问题。

发明概述

因此，本发明的目的在于提供能够以很高的命中率识别一讲话者而且无需大量预处理步骤的一种语音核对装置以及一种语音核对方法。

根据本发明，一种语音数据核对装置包括数据转换装置，用于把准备进行比较的两个语音信号转换成指示这两个语音信号的语音特征的两个二维数据；样本放置装置，用于将定义多个区域的多个样本放置在二维数据之一上；相关区域检测装置，用于检测在二维数据的另一个上的且相对于在二维数据的另一个上的多个区域具有最大相关并相应于该多个样本的区域；以及核对确定装置，用于把二维数据之一上的多个样本的相互位置关系与由相关区域检测装置所检测到的二维数据的另一个上的多个区域的相互的位置关系进行比较，以确定两个语音信号之间的等同性。

本发明的另外的一些目的和优点将在以下的描述中加以说明，而且通过这一描述部分将会变得更加明显，或可以通过本发明的实践而理解到。

本发明的目的和优点能够通过以下详细指出的手段和组合得以实现和获得。

附图的简要描述

结合在此并构成本说明书的一个组成部分的附图说明了本发明的当前优选实施例，并连同以上所给出的概述以及以下所给出的较佳实施例的详细描述一起，说明了本发明的原理。

图1是说明根据本发明的第一个实施例的一个语音核对装置中的一个电子电路的配置的方框图；

图2是说明语音核对装置的第一个实施例中的一个语音记录/核对处理程序的执行中的操作功能的配置的方框图；

图3是说明语音核对装置的第一个实施例中的语音记录/核对处理的流程图；

图4A和4B描述了在语音核对装置中的声音频谱图转换单元中如何把语音信号数据转换成声音频谱图数据；

图5A和图5B描述了根据语音核对装置中的语音记录/核对处理，一个记录的语音频谱图与一个未知语音频谱图的比较，以及，把一个样本放置在记录的语音频谱图上；

图6A和6B描述了根据语音核对装置中的语音记录/核对处理，把样本区域放置在一个记录的语音频谱图上的位置的分布情况与在一个未知语音频谱图上所检测到最大相关区域所处位置的位置分布情况的比较。

图7是说明根据本发明的语音核对装置的第二实施例的一个语音记录/核对处理程序的执行中的操作功能的配置的方框图；

图8是说明语音核对装置的第二实施例中的语音记录/核对处理的流程图；

图9是说明根据本发明的语音核对装置的第三实施例中的一个语音记录/核对处理程序的执行中的操作功能的配置的方框图；

图10是说明语音核对装置的第三实施例中的语音记录/核对处理的流程图；

图11描述了在第三实施例的语音核对装置中的语音部分检测单元中如何从记录的语音的一个声音频谱图“A”检测一个语音部分；

图12A和12B描述了在第三实施例的语音核对装置中的语音记录/核对处理中，一个记录的语音频谱图与一个未知语音频谱图的比较，以及一个样本放置在记录的语音频谱图上；

图13A和13B描述了根据第三实施例的语音核对装置中的语音记录/比较过程，样本区域放置在一个记录的语音频谱图上的位置的分布情况与在一个未知语音频谱图上所检测到最大相关区域所处位置的位置分布情况的比较；以及

图14是说明由一个传统的语音核对装置所执行的讲话者识别过程的流程图。

实现本发明的最佳方式

现在将参照附图，描述根据本发明的一种语音核对装置以及一种语音核对方法的较佳的实施例。

第一实施例

图1是说明根据本发明的第一个实施例的语音核对装置中的一个电子电路的配置的方框图；

所说明的语音核对装置包括一个基于计算机的控制器(CPU)11。CPU 11响应来自一个输入单元12的一个输入信号，以启动一个先前存储在一个存储设备13中的系统程序；一个通过软盘驱动器从外部记录媒体14，例如一张软盘或其它同类的媒体，读入存储设备13的语音记录/核对处理程序；或通过一个通信网络(例如一个互连网络)和一个传输控制器15，从一台外部的计算机下载到存储设备13的一个语音记录/核对处理程序；使用一个用作工作存储器的RAM 16，控制该装置的元件的操作。

CPU 11除了连接于输入单元12、存储设备13、传输控制器15以及RAM 16之外，还连接于一个显示单元17和一台打印机18。

输入单元12包括一个键盘、一个鼠标、以及一个用于输入语音的麦克风。

存储设备13存储语音记录/核对处理程序，这一程序记录那些指示由一个用户针对一个句子或一个单词发出的语音的语音数据，并把它们输入到语音核对装置中。把记录的语音数据与指示同样句子或单词的最新输入的语音数据加以核对，以确定它们之间的等同性。另外，为了进行记录，还将存储从准备加以记录的语音数据转换而来的二维数据，这些二维数据是根据语音记录/核对处理中格式加以输入的。

RAM 16临时存储从语音数据转换而来的指示一个声音频谱图的二维数据，其中该语音数据将根据语音记录/核对处理与记录的语音数据相核对。把存储在存储设备13中的记录的语音数据的声音频谱图与存储在RAM 16中的未知语音数据的声音频谱图进行核对，以确定它们之间的等同性。

在这一情况中，记录的语音的声音频谱图与未知语音的声音频谱图的核对是这样执行的：例如通过把多个位置上的矩形样本放置在代表记录的语音的二维数据上，针对多个样本中每一记录的语音二维数据，检测在未知语音二维数据上获得一个最大相关系数的区域，并把在记录的语音二维数据上这些样本所放置的位置分布情况(相互间的位置关系)与在未知语音二维数据上检测到最大相关系数的位置的位置分布情况(相互间的位置关系)进行比较。

然后，可把关于记录的语音与未知语音之间的等同性的确定结果显示在显示单元17上或者由打印机18加以打印。

图2是说明根据语音核对装置的第一个实施例中的语音记录/核对处理程序的执行对操作功能的配置的方框图；

在语音核对装置中的指示操作功能的功能单元中还在括号内附加地标明了图1中的电子电路中的相应元件的参照数字。

语音信号数据输入单元21使用一个麦克风或类似的设备把一个准备加以记录的语音或一个准备加以核对的语音转换成一个电信号，并把所得到的电信号输入到一个后续单元。把通过语音信号数据输入单元21输入的指示一个记录的语音或一个未知语音的语音信号数据提供于一个声音频谱图转换单元22。

声音频谱图转换单元22把指示从语音信号数据输入单元21输入的一个记录的语音或一个未知语音的语音信号转换成二维数据(声音频谱图)，这二维数据以密度形式表示频谱的一个时间一序列分布，以致于在一个纵轴上表示频率，横轴上表示时间的坐标系中，一较多频率分量较亮一些，而一较少频率分量则较暗一些(参见图4A和4B)。把由声音频谱图转换单元22所转换的记录的语音或未知语音的声音频谱图提交于一个用于记录的语音的记录的讲话者信息存储单元23和一个针对未知语音的核对单元24的最大相关区域检测单元26。

记录的讲话者信息存储单元23，以由声音频谱图转换单元22所转换的声音频谱图的形式，记录指示记录的语音的数据。

核对单元24的一个样本放置单元25定义多个具有任意大小的矩形区域(样本)，并把这些样本放置在存储于记录的讲话者信息存储单元23中的一个记录的语音的一个声音频谱图的任意位置上(参见图5)。把分别相应于由样本放置单元25所放置的多个样本的区域中的二维数据提交于最大相关区域检测单元26。

最大相关区域检测单元26针对分别相应于从样本放置单元25提供的记录的声音频谱图上的多个样本的区域中的二维数据，检测多个在从声音频谱图转换单元22提供的一个未知语音声音频谱图上具有最大相关性的区域(最大相关的区域)(参见图6)。把指示由样本放置单元25放置在记录的语音声音频谱图上的多个样本的相应位置的坐标数据和指示由最大相关区域检测单元26所检测到的多个最大相关区域的相应位置的坐标数据提供给一个核对确定单元27。

核对确定单元27依赖于从样本放置单元25提供的指示记录的语音声音频谱图上的多个样本的相应位置的坐标数据以及由最大相关区域检测单元26所检测到的指示多个最大相关区域的相应位置的坐标数据，把在记录的语音声音频谱图上样本所放置的位置的位置分布情况(相互间的位置关系)与在未知语音声音频谱图上检测到最大相关区域的位置的分布情况(相互间的位置关系)加以比较，以根据它们之间的差别确定记录的语音与未知语音的相似性，用于估价等同性。把由核对确定单元27产生的针对记录的语音和未知语音之间的等同性的估价的结果提交于核对结果显示单元28，并在核对结果显示单元28上加以显示。

接下来，将根据具有以上所描述的配置的操作，详细地描述语音核对装置。

图3是说明语音核对装置的第一个实施例中的语音记录/核对处理的流程图。

图4A和4B描述了在该语音核对装置中的声音频谱图转换单元22中如何把语音信号数据转换成声音频谱图数据。

图5A和图5B描述了根据语音核对装置中的语音记录/比较处理，一个记录的语音频谱图与一个未知语音频谱图(准备加以核对的数据)的比较，以及把多个样本放置在记录的语音频谱图上。

图6A和6B描述了根据语音核对装置中的语音记录/核对处理，把放置在一个记录的语音频谱图上的样本区域的位置分布情况与在一个未知语音频谱图上检测到的最大相关区域所处位置的分布情况的比较。

为了把语音核对装置用作为个人识别装置，首先，从语音信号数据输入单元21输入要进行识别的一被记录的人的语音信号数据，在声音频谱图转换单元22中把这一输入的记录的语音信号数据a(n)转换成成频谱的时间序列数据A(n，f)(以下叫做声音频谱图“A”)，如图4A和4B中所示(步骤S1和S2)。

在声音频谱图转换单元22中所执行的用于把语音信号数据转换成声音频谱图的转换处理，涉及把语音信号数据d(n)按预定的单位时间间隔划分成多个帧(取样点的个数为N)，所划分的数据序列d_N(n)乘以一个作为窗函数的蜂音(Humming)窗函数W_N(n)。快速傅里叶变换(FFT)该乘法的结果以计算频谱S(f)，沿时间序列配置为各划分好的帧计算的频谱S(f)，并把频谱S(f)转换成一个声音频谱图S(n，f)，其中，水平轴代表时间，垂直轴代表频率。需要加以注意的是，频谱值是通过对原始值取对数，并通过一个为255的最大值归一化(normalize)这一对数值获得的。换句话说，这一声音频谱图具有多级梯度二维数据的外观(aspect)，即多级梯度图像数据的外观，以致于这一实施例可把声音频谱图作为一个多级梯度声音打印图像应用于讲话者识别。

以下，把声音频谱图视为多级梯度图像数据，其中，每一单词相应于象素数据。

把相应于通过声音频谱图转换单元22所获得的一个记录的讲话者的一个语音的声音频谱图“A”存储在记录的讲话者信息存储单元23中，并记录为记录的讲话者的一个特征量(步骤S3)。

另一方面，当通过语音信息数据输入单元21输入将在个人识别装置中进行识别的一个未知讲话者的语音信号数据时，在声音频谱图转换单元22中，以类似于记录的讲话者的语音数据的方式，把所输入的未知语音信号数据b(n)转换成一个声音频谱图b(n，f)(以下叫做频谱图“B”)(步骤S1～S4)。

接下来，在核对单元24的样本放置单元25中，读取记录的讲话者信息存储单元22中记录的记录的语音的声音频谱图“A”。然后，如图5A中所示，定义多个矩形区域，即样本t_i(i＝1～m，其中m是一个等于或大于2的整数)，并把它们放置在声音频谱图“A”中(步骤S5)。

接着，核对单元24中的最大相关区域检测单元26在未知语音的声音频谱图“B”上沿水平方向和垂直方向，在逐象素的基础上光栅扫描对应于在记录的语音的声音频谱图“A”中定义的各样本ti的一矩形区域，以使用相关的样本t_i中的所有象素数据和在该矩形区域中的未知语音的声音频谱图“B”中的象素数据，顺序地计算一个相关系数。这样在一个其中存在有最大相关系数的未知语音的声音频谱图“B”中的一个区域T_I被检测到，如图6B中所示(步骤S6和S7)。后面将描述如何计算相关系数。

对于每一样本t_i顺序地进行根据在记录的语音的声音频谱图“A”中定义的每一样本t_i的图像数据，对在未知语音的声音频谱图“B”上的最大相关系数的计算，以及对区域T_i的检测(步骤S6至S8)。然后，当确定对于所有样本ti已检测到未知语音的声音频谱图“B”上的各区域T_i具有最大相关系数时，核对单元24中的核对确定单元27，如图6A和6B中所示，把在记录的语音的声音频谱图“A”中所放置的各样本区域{t_i}的分布情况(位置关系)，与从未知语音的声音频谱图“B”所检测到的各区域{T_i}的分布情况(位置关系)进行比较，该比较是根据它们的相应的坐标数据，以估价它们之间的等同性(步骤S8和S9)。

以下，将描述一个具体的例子。

得到那些作为指明放置于记录的语音的声音频谱图“A”中的一个样本t_i的位置和从未知语音的声音频谱图“B”所检测到的图像上的一个矩形区域T₁的位置的基础的坐标，例如，两个矩形的左上角的坐标，并存储于RAM 16的预定的地址中，即分别为t_i(X₁，Y₁)以及T₁(XT₁，YT₁)的地址中。

接下来，在记录的语音的声音频谱图“A”中定义样本t2～t5，以致于可把这些样本集中在样本t₁的各角部。其中应该加以注意的是，所定义的样本的放置是任意的，且样本的数量不局限于4个，而可以是任何数目，只要语音核对所要求的核对精确度能够得以确保。另外，这里所定义的样本的大小也可以是任意的。

然后，类似于对矩形区域T₁的检测，在样本t₂～t₅的每一样本中(以下由t_i(i＝2，3，4，5)加以表示)，把一个具有与样本ti同样大小的矩形区域设置在未知语音的声音频谱图“B”上。以象素为单位，把矩形区域二维地加以移动，每次移动矩形区域时，计算矩形区域与样本t_i之间的一个相关系数。最后，在存在有最大相关系数的位置上的一个矩形区域指定为矩形区域T_i，得到那些用作为指明放置于图像上的样本t_i和矩形区域T_i的位置的基础的坐标，例如，两个矩形的左上角的坐标，并存储于RAM 16的预定的位置中，即分别为t_i(X_i，Y_i)以及T_i(XT_i，YT_i)的位置中。

接下来，针对所有可能的值i(＝2，3，4，5)，根据下列方程，计算从t₁到t_i的相对距离与从T₁到T_i的相对距离之间的差Δ_i：

Δ_i＝|(X_i-X₁)-(XT_i-XT₁)，

(Y_i-Y₁)-(YT_i-YT₁))|

然后，确定全部所计算的值Δ_i是否位于一个预定的范围。如果所有的值都位于预定的范围，那么，可以确定记录的语音与未知语音相匹配，否则确定未知语音与记录的语音不相匹配，接着把所确定的结果显示在核对结果显示单元28上。需要加以注意的是，这里所使用的预定的范围被定义成这样的一个范围：根据由从多个个人那里所获得的声音频谱图的图像数据所实际计算的Δi的结果的分布情况，确保一个所希望的核对精度。

这样，对已输入该未知语音信号数据b(n)的未知个人是否具有与已记录了记录的语音信号数据a(n)的记录的讲话者的等同性的进行估价，并把估价结果加以显示或打印。

在前述的语音记录/核对处理中，把样本放置在记录的语音的声音频谱图“A”上。另外，也可以把样本放置在未知语音的声音频谱图“B”上，以找到声音频谱图“A”上的最大相关区域T_i。另外，尽管把各区域t₁、T₁、t₂～t₅、以及T₂～T₅定义成矩形，但这些区域并不局限于矩形，而可以为任意的形状。另外，尽管t₁和T₁、t₂～t₅、以及T₂～T₅具有相同的大小和形状是较佳的，但较小的差别是允许的，只要语音核对所要求的核对精度能够加以保证。

此外，除了前述的处理中的对Δ_i的估价的方法外，也可以使用其它各种核对确定方法。例如，可以根据一个把t_i定义为一个顶点所形成的图形和一个把T_i定义为一个顶点的形成的图形之间的形状或面积的差异进行确定。

接下来，将对语音记录/核对处理中所使用的一个相关系数的计算进行描述。具体地说，此处所描述的是一个矩形区域“A”和一个矩形区域“B”之间的相关系数的计算。

首先，假定包括在矩形区域“A”和矩形区域“B”中的象素分别为A(i，j)和B(m，n)。需要加以注意的是，包含在矩形区域“A”和矩形区域“B”中的象素的总数目是相等的。另外，还假设由指示这些象素的对比度的多级梯度值所代表的信号强度分别为X_ij和Y_mn。

当对这些信号强度进行概括，并由Z_pq表示时，定义了以下方程：

<Z>＝N^-1∑Z_pq

在这一方程中，N表示包含于一个相关的矩形区域中的象素的总数目。另外，在以上的方程中，∑表示包含在相关的矩形区域中所有象素的总合。换句话说，以上的方程表示的是包含在相关矩形区域中的象素的信号强度的一个平均值。

其次，也定义了下列的方程：

<Z²>＝N_-1∑Z_pq ²

上述方程表示包含在相关矩形区域中的象素的信号强度的一个均方根值。

在此，矩形区域“A”和矩形区域“B”之间的一个相关系数C_AB可通过下列方程加以计算，该方程使用了前述方程的定义加以表达：

C_{AB} = \frac{&lang; XY &rang; - &lang; X &rang; &lang; Y &rang;}{\sqrt{(&lang; X^{2} &rang; - {&lang; X &rang;}^{2}) (&lang; Y^{2} &rang; {- &lang; Y &rang;}^{2})}}

其中，<XY>＝(1/N)∑X_ijY_mn。

<XY>＝(1/N)∑X_ijY_mn。

使用上述方程计算区域之间的相关系数。

在通过前述方程对相关系数的计算中，未使用矩形区域中的所有象素的信号强度，而仅使用那些定位在每一矩形区域中的任意一条线上的象素；仅仅是那些包含于每一矩形区域的一个部分中的象素，或仅仅是那些作为从每一矩形区域中对象素任意取样的结果而选择的象素进行计算，只要能够确保语音核对所需的核对精度即可。这样的一个计算方案的使用的优点在于进行相关系数计算的象素的个数的减少以及计算量的最终的减少。另外，也可以在语音记录/核对处理中使用其它相关系数计算方法。

如以上所了解到的，根据以上所述所配置的第一实施例的语音核对装置，把语音信号数据转换成一个声音频谱图的处理，仅当为计算施用于实际确定记录的语音信号数据和未知语音信号数据之间的等同性的核对处理的特征量而进行预处理时才需要，以致于处理步骤的数量能够明显地得以减少。另外，由于从语音信号数据转换而来的声音频谱图可作为多级梯度二维数据，即象素数据，加以管理，以及把声音频谱图本身的对比度图形作为核对中使用的特征量，所以可使用个人信息不会从中丢失的一个特征量完成核对。因此，实现一个可维持足够高的命中率，同时减少了处理步骤的数量以简化整个核对处理的讲话者识别装置是可能的。

在第一实施例的语音核对装置中，声音频谱图的整个多级梯度图像数据已存储在记录的讲话者信息存储单元23中，作为一个记录的讲话者的特征量用于记录。为了核对由一个未知讲话者所输入的未知语音信号数据，样本放置单元25把样本放入从记录的讲话者信息存储单元23所读出的声音频谱图中，用于与一个未知语音的声音频谱图的多级梯度图像数据相核对。另外，如在以下对根据第二实施例的语音核对装置的描述中，可把样本事先放置在一个记录的语音的声音频谱图的多级梯度图像数据上，且把仅相应于这些样本的那些区域的图像数据存储在记录的讲话者信息存储单元23中，作为记录的讲话者的一个特征量，以减少应该存储于记录的讲话者信息存储单元23中的每个记录的讲话者的信息量。

第二个实施例

图7是说明根据本发明的语音核对装置的第二个实施例的一个语音记录/核对处理程序的执行中的操作功能的配置的方框图；

图8是说明该语音核对装置的第二个实施例中的语音记录/核对处理的流程图；

具体地说，为了记录一个记录的讲话者的特征量，样本放置单元25事先把样本t_i放置在记录的讲音者的一个声音频谱图“A”上(步骤A3)，声音频谱图转换单元22已进行了这些声音频谱图的转换(步骤A1和A2)，把由放置在声音频谱图“A”上的所有样本中的每一样本所包围的声音频谱图“A”中的每一个区域记录于记录的讲话者信息存储单元23中，作为记录的讲话者的一个特征量(步骤A4)。

为了核对一个准备加于识别的讲话者的语音数据，核对单元24中的最大相关区域检测单元26读取相应于各样本t_i的记录的讲话者的声音频谱图“A”中的各部分，它们记录于记录的讲话者信息存储单元23中。然后，与第一实施例相类似，通过检测一个未知语音的一个声音频谱图上的各最大相关系数区域T_I而执行核对(步骤A1和A5～A8)，以及把各样本t_i的一个位置关系与各检测到的区域T_i的一个位置关系进行比较，用于确定它们之间的一个差别(步骤A9)。

如所了解到的，根据如上所述所配置的第二个实施例的语音核对装置，减少待被存储在记录的讲话者信息存储单元23中的每一记录的讲话者的信息量，从而减少记录的讲话者信息存储单元23自身的整个存储容量是可能的，换句话说，第二实施例的语音核对装置可使用比第一实施例的语音核对装置小一些的存储器容量加以实现。

在根据第一和第二实施例的语音核对装置中，把多个样本t_i放置在一个记录的讲话者的整个声音频谱图“A”中的任意位置上。另外，如以下的第三实施例的语音核对装置中所描述的，也可以把语音核对装置配置成：通过一个先前设置的阈值，检测一个充分包括来自一个记录的语音的声音频谱图“A”的一个记录的讲话者的语音特征的语音部分，并把样本t_i放置在包含于检测到的语音部分中的频谱图“A”的任意位置上，以根据记录的讲话者的更多的特征语音数据核对一个未知语音，从而进一步提高了命中率。

第三实施例

在第三实施例中，语音核对装置的操作功能单元还包括一个语音部分检测单元29，这一单元设置于声音频谱图转换单元22和样本放置单元25之间。

语音部分检测单元29检测一个充分包括来自由声音频谱图转换单元22所转换的一个记录的语音的声音频谱图“A”的一个记录的讲话者的语音特征的语音部分(参见图11)。在由话音部分检测单元29所检测的声音频谱图“A”上的语音部分中，样本放置单元25把多个用作为语音核对的基础的样本t_i加以放置。

图10是说明语音核对装置的第三个实施例中的语音记录/核对处理的流程图；

图11描述了在第三实施例的语音核对装置中的语音部分检测单元29中如何以记录的语音的一个声音频谱图“A”检测一个语音部分；

图12A和12B示出了根据第三个实施例的语音核对装置中的语音记录/核对处理，把一个记录的语音频谱图与一个未知语音频谱图(准备加以核对的)进行比较，以及把一个样本放置在记录的语音频谱图上；

图13A和13B示出了根据第三个实施例的语音核对装置中的语音记录/核对处理，把样本放置在一个记录的语音频谱图上的位置分布情况与在一个未知语音频谱图上所检测到的最大相关区域的位置分布情况的比较。

为了把语音核对装置用做为个人识别装置，首先把一个准备进行识别的一个已记录的个人的语音信号数据从语音数据输入单元21输入。在声音频谱图转换单元22中把这一输入的记录的语音信号数据a(n)转换成一个声音频谱图“A”(步骤B1和B2)。

然后，语音部分检测单元29检测来自由声音频谱图转换单元22所转换的记录的语音的声音频谱图“A”的一个语音部分(步骤B3)。

在此，如图11中所示，语音部分检测单元29中所执行的语音部分检测处理首先针对记录的语音的声音频谱图“A”沿频率轴的方向总计频谱值，以计算一个附加的频谱分布。其次，在该附加的频谱分布中，检测一个包括所有具有大于先前设置的阈值的范围的部分作为一个语音部分，但把该所设置的阈值定义成附加频谱分布的最大值的一半。

当在声音频谱图“A”中这样检测到语音部分时，样本放置单元25定义多个矩形区域，即样本t_i(i＝1～m，其中m是一个等于或大于2的整数)，并把样本t_i放在声音频谱图“A”中的语音部分上，如图12A中所示(步骤B4)。

然后，把包含放置在记录的语音的声音频谱图“A”中的语音部分上的所有样本t_i的一个部分区域At存储在记录的讲话者信息存储单元23中，以作为记录的讲话者的一个特征量用于记录(步骤B5)。

另一个方面，当把准备加以识别的一个讲话者的语音信号数据从语音信号数据输入单元21输入以用于个人识别装置中的识别时，在声音频谱图转换单元22中把所输入的未知语音信号数据b(n)转换成一个声音频谱图“B”，如以上所描述的(步骤B1～B6)。

接下来，把包含在记录的讲话者信息存储单元23中记录的声音频谱图“A”中的各样本t_i的一个部分区域At作为记录的语音的一个特征量，读到核对单元24中的最大相关区域检测单元26中。最大相关区域检测单元26逐象素地在未知语音的声音频谱图“B”上光栅扫描相应于每一样本t_i的一个区域的图像数据，以使用相关的样本t_i中的所有象素数据和相应于其的未知语音的声音频谱图“B”中的象素数据，顺序地计算一个相关系数(步骤B7)。然后，检测存在有一个最大相关系数的未知语音的声音频谱图“B”中的一个区域T_i，如图13A和13B中所示(步骤B8)。

针对每一样本t_i顺序地执行根据在记录的语音的声音频谱图“A”中的语音部分上定义的每一样本t_i的图像数据，对未知语音的声音频谱图“B”上的最大相关系数的计算，以及对区域T_i的检测(步骤S7～S9)。然后，在确定未知语音的声音频谱图“B”上的各区域T_i已针对所有的样本t_i进行检测具有最大相关系数时，根据这一确定，核对单元24中的核对确定单元27把放置在记录的语音的声音频谱图“A”中的语音部分上的各个样本区域{t_i}的分布情况(位置关系)与从未知语音的声音频谱图“B”所检测到的各区域{T_i}的分布情况(位置区域)进行比较，以估价它们之间的等同性，比较过程是根据它们各自的坐标数据进行的(步骤B9和B10)。

这样，就已输入未知语音信号数据b(n)的未知个人是否具有与已记录了记录的语音信号数据a(n)的记录的讲话者的等同性进行估价，并把所估价的结果加以显示或打印。

如所了解到的，根据如上所述所配置的第三实施例的语音核对装置，当把计算特征量的预处理施加于实际确定记录的语音信号数据与未知语音信号数据的等同性的核对处理时，仅需要两个处理步骤，即把一个来自语音信号数据的声音频谱图加以转换的处理，以及用于从一个记录的语音的声音频谱图检测一个语音部分的语音部分检测处理，从而使减少处理步骤的数量成为可能。另外，把从语音信号数据所转换来的声音频谱图作为多级梯度二维数据，即象素数据，加以管理，以及把声音频谱图本身的对比度图形用作为在核对中所使用的特征量，并对样本加以定义，然后把它们放置在由语音部分检测处理所检测到的一个语音部分上，以把用于核对的样本中的对比度图形用作为记录的语音的一个特征量。于是，可使用一个比第一和第二实施例中所描述的语音核对装置更充分反映个人信息的特征量完成核对。因此，在第一和第二实施例上实现一个可进一步提高命中率，同时减少处理步骤的数量以简化整个核对处理的讲话者识别装置是可能的。

对于本领域的熟练技术人员来说，很容易领悟到本发明更多的优点，以及可对本发明进行的改动。因此，广义地讲，本发明不局限于这些具体的描述、代表性的设备、以及此处所描述的说明性的实例。因此，在不背离(如所附权利要求以及它们的等价物所定义的)本发明总的发明概念的精神与范围的情况下，可进行多方面的改动。例如，在各实施例中所描述的那些技术，即图3的流程图中所说明的第一实施例中的语音记录/核对处理、图8的流程图中所说明的第二实施例中的语音记录/核对处理、图10的流程图中所说明的第三实施例中的语音记录/核对处理等，可存储于一个外部记录媒体14，例如一个内存卡(ROM卡、RAM卡或类似的设备)、一个磁盘(软盘、硬盘或类似的设备)、一个光盘(CD-ROM、DVD或类似的设备)、一个半导体存储器等，作为一个可以导致计算机执行这些技术的程序进行分布。在这一情况中，一台用作为语音核对装置的计算机可以把存储在外部记录媒体14中的程序读入存储设备13，并实现各实施例中所描述的语音记录和核对功能，这些功能的操作由读取程序加以控制，以执行类似于以上所提到的技术所提供的处理。

另外，为实现各技术，程序所要求的数据能够以程序代码的形式在一个网络(公共网络)上传输，以致于可由连接于网络的语音核对装置的传输控制器15取到程序数据，以实现以上所提到的语音记录和核对功能。

工业上的可应用性

根据本发明，提供了能够以高命中率而无需大量处理步骤识别一个讲话者的一种语音核对装置和一种语音核对方法。

Claims

1、一种语音核对装置，包括：

数据转换装置，用于把进行比较的两个语音信号转换成指示所述两个语音信号的语音特征的两个二维数据；

样本放置装置，用于把多个用于定义多个区域的样本放置在所述二维数据之一之上；

相关区域检测装置，用于检测在所述二维数据中另一个之上的一些相关区域，这些区域相对于所述二维数据中另一个之上的多个区域具有最大的相关性，并对应于该多个样本；以及

核对确定装置，用于比较所述二维数据之一之上的多个样本的相互位置关系与所述二维数据的另一个之上的由所述相关区域检测装置检测到的这些区域的相互位置关系，以确定两个语音信号之间的等同性。

2、根据权利要求1的语音核对装置，还包括记录的讲话者信息存储装置，用于存储相应于一个记录的讲话者的语音信号的二维数据，其中，

所述样本放置装置包括用于把多个样本放置在从所述记录的讲话者信息存储装置读出的记录的讲话者的二维数据上的装置；以及

所述相关区域检测装置包括用于检测在未知讲话者的二维数据上且相对于未知讲话者的二维数据上的多个区域具有最大的相关性并相应于该多个样本的多个区域的装置。

3、根据权利要求2的语音核对装置，其中，所述记录的讲话者信息存储装置包括用于把数据存储在相应于多个样本的区域上的装置，其中该多个样本由所述的样本放置装置放置在记录的语音的二维数据上；以及

所述的相关区域检测装置包括用于检测未知讲话者的二维数据上且相对于未知讲话者的二维数据上的多个区域具有最大的相关性并相应于存储在所述记录的讲话者信息存储装置中的多个样本的多个区域的装置。

4、根据权利要求1的语音核对装置，还包括记录的讲话者信息存储装置，用于存储相应于一个记录的讲话者的语音信号的二维数据，其中，

所述的样本放置装置包括用于把多个样本放置在一个未知讲话者的二维数据上的装置；以及

所述的相关区域检测装置包括用于检测未知讲话者的二维数据上的且相对于未知讲话者的二维数据上的多个区域具有最大的相关性并相应于多个样本的多个区域的装置。

5、根据权利要求1的语音核对装置，还包括语音部分检测装置，用于检测二维数据中的一个语音部分，其中，

所述的样本放置装置包括用于把多个样本放置在由所述语音部分检测装置所检测到的语音部分中的二维数据上的装置。

6、根据权利要求1的语音核对装置，其中，所述的数据转换装置把语音信号转换成一个声音频谱图。

7、一种语音数据核对方法，包括下列步骤：

把进行比较的两个语音信号转换成指示所述两个语音信号的语音特征的两个二维数据；

把多个用于定义多个区域的样本放置在所述二维数据之一上；

检测在所述二维数据中另一个之上的且相对于所述二维数据中另一个之上的多个区域具有最大的相关性并相应于多个样本的区域；以及

比较所述二维数据之一上的多个样本的相互位置关系与由所述的相关区域检测装置检测到的所述二维数据的另一个之上的多个区域的相互位置的关系，以确定两个语音信号之间等同性。

8、根据权利要求7的语音核对方法，还包括一个步骤：

存储相应于一个记录的讲话者的一个语音信号的二维数据；以及

所述的样本放置步骤包括若干子步骤：

把多个样本放置在记录的讲话者的二维数据上；及

检测未知讲话者的二维数据上的且相对于未知讲话者的二维数据上的多个区域具有最大的相关性并相应于多个样本的多个区域。

9、根据权利要求8的语音核对方法，其中所述的记录的讲话者信息存储步骤包括一个子步骤：把数据存储在相应于多个样本的区域上，这些样本由所述的样本放置步骤放置在记录的语音的二维数据上；以及

所述的相关区域检测步骤包括一个子步骤：检测未知讲话者的二维数据上的且相对于未知讲话者的二维数据上的若干区域具有最大的相关性并相应于存储在所述的记录的讲话者信息存储装置中的多个样本的多个区域。

10、根据权利要求7的语音核对方法，还包括一个步骤：把相应于一个记录的讲话者的一个语音信号的二维数据加以存储，其中

所述的样本放置步骤包括一个子步骤：把多个样本放置在未知讲话者的二维数据上；以及

所述的相关区域检测步骤包括一个子步骤：检测未知讲话者的二维数据上的且相对于未知讲话者的二维数据上的多个区域具有最大的相关性并相应于多个样本的多个区域。

11、根据权利要求7的语音核对方法，还包括一个步骤：检测二维数据中一个语音部分，而且

其中所述的样本放置步骤包括一个子步骤：把多个样本放置在由所述的语音部分检测步骤所检测到的语音部分中的二维数据上。

12、根据权利要求7的语音核对方法，其中，所述数据转换步骤把语音信号转换成一个声音频谱图。