CN1662956A

CN1662956A - 大量说话人识别(id)系统及其相应方法

Info

Publication number: CN1662956A
Application number: CN038142155A
Authority: CN
Inventors: N·迪米特罗瓦; D·李
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2002-06-19
Filing date: 2003-06-04
Publication date: 2005-08-31
Also published as: US20030236663A1; AU2003241098A1; JP2005530214A; KR20050014866A; WO2004001720A1; EP1518222A1

Abstract

一种存储器，存储用于使与大量说话人识别(ID)系统相关联的处理器实例化包括以下项的功能的计算机可读指令：音频分段和分类功能(F10)，接收一般音频数据(GAD)，并且产生多个段；特征提取功能(F12)，接收这些段，并且从中提取基于Me1倒谱系数(MFCC)的特征；学习和聚类功能(14)，接收所提取的特征，并且根据所提取的特征在必要时对段进行重新分类；匹配和标注功能(16)，将说话人ID分配给GAD内的语音信号；以及数据库功能，用于将所分配的说话人ID与GAD内的相应语音信号相联系。音频分段和分类功能可以将每个段分配给N个音频信号类之一，其中N个音频信号类包括静默、单个说话人的语音、音乐、环境噪声、多个说话人的语音、同时语音和音乐、以及语音和噪声。

Description

大量说话人识别(ID)系统及其相应方法

技术领域

本发明一般涉及说话人识别(ID)系统。更具体地说，本发明涉及采用基于从音频信号提取的Mel倒谱系数(MFCC)的自动音频信号分段的说话人识别系统。还公开了适于处理来自多个音频信号源的信号的相应方法。

背景技术

目前存在说话人识别系统。更具体地说，存在基于低级音频特征的说话人识别系统，该系统一般要求说话人集合是先验知道的。在这种说话人识别系统中，当分析新音频材料时，它总是被分类为已知说话人类别之一。

应当注意，存在若干研究组从事于有关用于对图像和视频进行自动注解以进行基于内容的索引和随后的检索的方法的研究和开发。随着桌面个人计算机和普及电视会合成单个信息娱乐设备，其能够带来通过因特网对兆兆字节的视频数据进行前所未有的访问，对这些方法的需要由此变得日益重要。虽然该领域内的大部分现有研究是基于图像的，但是日益认识到用于基于内容的视频索引和检索的基于图像的方法需要用基于音频的分析来添增或补充。这导致了与分析视频节目中的音频轨道相关的若干努力，特别是涉及将音频段分成不同类以表示视频内容。这些努力中的一些参见作者为N.V.Patel和I.K.Sethi的两篇论文，其标题分别为“Audio characterization for videoindexing”(Proc.IS&T/SPIE Conf.Storage and Retrieval forImage and Video Database IV，pp.373-384，San Jose，CA(February 1996))和“Video Classification using SpeakerIdentification”(Proc.IS&T/SPIE Conf.Storage and Retrievalfor Image and Video Database V，pp.218-225，San Jose，CA(February 1997))。另外的努力参见作者为C.Saraceno和R.Leonardi、标题为“Identification of successive correlatedcamera shots using audio and video information”的论文(Proc.ICIP97，Vol.3，pp.166-169(997))，以及作者为Z.Liu、Y.Wang和T.Chen、标题为“Audio Feature Extraction and Analysis forScene Classification”的文章(Journal of VLSI Signal Processing，Special issue on multimedia signal processing，pp.61-79(Oct1998))。

自动语音识别(ASR)的发展也引起了对一般音频数据(GAD)即来自诸如新闻和无线电广播的源和归档音视文档的音频数据进行分类的兴趣。处理GAD的ASR的动机是认识到通过执行音频分类作为预处理步骤，ASR系统可以为表示单个类的每个同类音频数据段开发并且随后采用适当的声学模型。应当注意，经过这种预处理的GAD将会产生改善的识别性能。另外的细节参见作者为M.Spina和V.W.Zue、标题为“Automatic Transcription of General Audio Data：PreliminaryAnalyses”的文章(Proc.International Conference on SpokenLanguage Processing，pp.594-597，Philadelphia，Pa.(October1996))，以及作者为P.S.Gopalakrishnan等人、标题为“Transcription Of Radio Broadcast News With The IBM LargeVocabulary Speech Recognition System”的文章(Proc.DARPASpeech Recognition Workshop(Feb.，1996))。

而且，近年来调查了很多音频分类方案。这些方案主要以下列两种方式相互不同：(1)分类器的选择；以及(2)由分类器使用的声学特征集。在当前系统中所使用的分类器包括：

1)基于高斯模型的分类器，其参见作者为M.Spina和V.W.Zue的文章(刚才在上面提及过)；

2)基于神经网络的分类器，其参见作者为Z.Liu、Y.Wang和T.Chen的文章(在上面提及过)，以及作者为J.H.L.Hansen和BrianD.Womack、标题为“Feature analysis and neural network-basedclassification of speech under stress”的文章(IEEE Trans.onSpeech and Audio Processing，Vol.4，No.4，pp.307-313(July1996))；

3)决策树分类器，其参见作者为T.Zhang和C.-C.J.Kuo、标题为“Audio-guided audiovisual data segmentation，indexing，and retrieval”的文章(IS&T/SPIE′s Symposium on ElectronicImaging Science & Technology-Conference on Storage andRetrieval for Image and Video Databases VII，SPIE Vol.3656，pp.316-327，San Jose，CA(Jan.1999))；以及

4)基于隐马尔可夫模型(基于HMM)的分类器，其详见作者为T.Zhang和C.-C.J.Kuo的文章(刚才在上面提及过)以及作者为D.Kimber和L.Wilcox、标题为“Acoustic segmentation for audiobrowsers”的文章(Proc.Interface Conference，Sydney，Australia(July 1996))。

还应当注意，在音频分类器中使用时间和频谱域特征已被调查。所用特征的例子包括：

1)短时能量，其详见作者为T.Zhang和C.-C.J.Kuo的文章(在上面提及过)，作者为D.Li和N.Dimitrova、标题为“Tools for audioanalysis and classification”的文章(Philips Technical Report(August 1997))，以及作者为E.Wold、T.Blum等人、标题为“Content-based classification，search and retrieval ofaudio”的文章(IEEE Multimedia，pp.27-36(Fall 1996))；

2)脉冲计量，其详见作者为S.Pfeiffer、S.Fischer和W.Effelsberg、标题为“Automatic audio content ahalysis”的文章(Proceedings of ACM Multimedia 96，pp.21-30，Boston，MA(1996))以及作者为S.Fischer、R.Lienhart和W.Effelsberg、标题为“Automatic recognition of film genres”的文章(Proceedings of ACM Multimedia′95，pp.295-304，San Francisco，CA(1995))；

3)暂停率，其参见作者为N.V.Patel等人的有关音频分类的文章(在上面提及过)；

4)过零率，其计量详见作者为C.Sraaceno等人和T.Zhang等人的前述文章以及作者为E.Scheirer和M.Slaney、标题为“Construction and evaluation of a robust multifeaturespeech/music discriminator”的论文(Proc.ICASSP 97，pp.1331-1334，Munich，Germany，(April 1997))；

5)归一化调和性(harmonicity)，其计量详见作者为E.Wold等人的文章(在上面关于短时能量提及过)；

6)基频，其计量参见各种论文包括上面提及的作者为Z.Liu等人、T.Zhang等人、E.Wold等人以及S.Pfeiffer等人的论文。

7)频谱，其参见上面讨论过的作者为S.Fischer等人的文章；

8)带宽，其计量参见作者为Z.Lui等人和E.Wold等人的上述文章；

9)频谱中心(spectral centroid)，其计量参见上面全都讨论过的作者为Z.Lui等人、E.Wold等人和E.Scheirer等人的文章；

10)频谱跌落频率(spectral roll-off frequency，SRF)，其详见作者为D.Li等人和E.Scheirer的文章；以及

11)频带能量比，其计量参见作者为N.V.Patel等人(关于音频处理)、Z.Lui等人和D.Li等人的论文。

应当提到，上述所有论文和文章在此引作参考。而且，上述每一个特征的附加基本数学讨论参见所附的附录A。

应当注意，Scheirer和Slaney的文章描述了使用若干分类策略对十三个时间和频谱特征的各种组合进行评估。该论文报告了双向语音/音乐区分器的分类准确率高于90％，但是使用相同特征集来区分语音、音乐以及同时语音和音乐的三向分类器的分类准确率仅为约65％。Hansen和Womack、以及Spina和Zue的文章报告了根据基于倒谱的特征的调查和分类，其中基于倒谱的特征广泛用于语音识别领域内。实际上，Spina等人的文章提出Mel倒谱自相关(AC-Mel)参数是用于语音重读状态分类的适合特征。相反，Spina和Zue使用了十四个Mel倒谱系数(MFCC)来将音频数据分成七个类别即立体声语音、现场语音、带背景音乐的语音、带噪声的语音、音乐、静默以及无用信息(garbage)(涵盖其余音频模式)。Spina等人在一小时的NPR无线电广播新闻上测试了他们的算法，并且获得了80.9％的分类准确率。

虽然本领域内的很多研究人员将研究重点相当多地放在开发各种分类策略上，但是Scheirer和Slaney断定特征空间的布局(topology)是相当简单的。因此，不同分类器的性能之间的区别是非常小的。在很多情况下，对于分类性能，特征选择实际上更加至关重要。因此，虽然Scheirer和Slaney正确地推断出分类器开发应集中于有限数目的分类计量，而非由其他人提出的多个分类器，但是他们没有开发最优归类方案或者用于归类音频帧的最优说话人识别方案。

需要一种可包括到各种设备例如计算机、顶置盒、电话系统等中的大量(mega)说话人识别(ID)系统。而且，需要一种大量说话人识别(ID)方法，其被实现为可以在包括微处理器和数字信号处理器(DSP)至少之一的各种系统上实例化的软件功能。最好，可以容易地扩展成处理从多个音频源获得的一般音频数据(GAD)的大量说话人识别(ID)系统及相应方法将是极其期望的。

发明内容

根据上文，可以理解，在本技术领域内需要一种克服上述缺陷的大量说话人(ID)识别系统和对应方法。本发明的动机在于期望克服目前可用技术的缺点和短处，从而满足本技术领域的需要。

根据一方面，本发明提供了一种大量说话人识别(ID)系统，其从一般音频数据(GAD)识别归因于说话人的音频信号，该系统包括用于将GAD分段成多个段的电路、用于将每个段分类为N个音频信号类之一的电路、用于从段中提取特征的电路、用于响应所提取的特征在必要时将段从N个音频信号类中的一个重新分类到另一个的电路、用于对这些段中的邻近段进行聚类从而产生聚类段的电路、以及用于以说话人ID标注每个聚类段的电路。如果需要，标注电路响应用户输入和附加源数据之一而以说话人ID标注多个聚类段。该大量说话人识别(ID)系统有利地可包括在计算机、顶置盒或电话系统中。在示例性情况下，该大量说话人识别系统还包括用于存储将说话人ID与GAD的部分相联系的数据库的存储器电路、以及接收标注电路的输出以更新数据库的电路。在后者情况下，该大量说话人识别系统还包括用于查询数据库的电路、以及用于提供查询结果的电路。最好，N个音频信号类包括静默、单个说话人的语音、音乐、环境噪声、多个说话人的语音、同时语音和音乐、以及语音和噪声；最好，所提取特征至少之一基于Mel倒谱系数(MFCC)。

根据另一方面，本发明提供了一种允许识别包括在一般音频数据(GAD)中的说话人的大量说话人识别(ID)方法，其包括以下步骤：将GAD分成多个段；将对应于N个音频信号类之一的标注分配给每个段；从这些段中提取特征；根据所提取的特征在必要时将段从N个音频信号类中的一个重新分配到另一个，从而产生分类段；对分类段中的相邻段进行聚类从而产生聚类段；以及以说话人ID标注每个聚类段。如果需要，标注步骤响应用户输入和附加源数据之一而以说话人ID标注多个聚类段。在示例性情况下，该方法还包括以下步骤：存储将说话人ID与GAD的部分相联系的数据库，并且每当以说话人ID标注新聚类段时更新数据库。应当理解，该方法还可包括以下步骤：查询数据库以及向用户提供查询结果。最好，N个音频信号类包括静默、单个说话人的语音、音乐、环境噪声、多个说话人的语音、同时语音和音乐、以及语音和噪声；最好，所提取特征至少之一基于Mel倒谱系数(MFCC)。

根据另一方面，本发明提供了一种用于大量说话人识别系统的操作方法，其中大量说话人识别系统包括M个调谐器、分析器、存储设备、输入设备和输出设备，该操作方法包括以下步骤：操作M个调谐器以从R个音频源获取R个音频信号；操作分析器以将N个音频信号分成多个段，将对应于N个音频信号类之一的标注分配给每个段，从这些段中提取特征，根据所提取的特征在必要时将段从N个音频信号类中的一个重新分配到另一个，从而产生分类段，对分类段中的相邻段进行聚类从而产生聚类段，并且以说话人ID标注每个聚类段；在存储设备中存储包括在R个音频信号中的聚类段和对应标注；以及响应通过输入设备输入的查询，产生能够操作输出设备的查询结果，其中M、N和R为正整数。在示例性且非限制性情况下，N个音频信号类包括静默、单个说话人的语音、音乐、环境噪声、多个说话人的语音、同时语音和音乐、以及语音和噪声。而且，多个所提取特征基于Mel倒谱系数(MFCC)。

根据另一方面，本发明提供了一种存储器，其存储用于使与大量说话人识别(ID)系统相关联的处理器实例化包括以下项的功能的计算机可读指令：音频分段和分类功能，接收一般音频数据(GAD)，并且产生多个段；特征提取功能，接收这些段，并且从中提取特征；学习和聚类功能，接收所提取的特征，并且根据所提取的特征在必要时对段进行重新分类；匹配和标注功能，将说话人ID分配给GAD内的语音信号；以及数据库功能，用于将所分配的说话人ID与GAD内的相应语音信号相联系。需要时，音频分段和分类功能将每个段分配给N个音频信号类之一，其中N个音频信号类包括静默、单个说话人的语音、音乐、环境噪声、多个说话人的语音、同时语音和音乐、以及语音和噪声。在示例性情况下，所提取特征至少之一基于Mel倒谱系数(MFCC)。

附图说明

参照下面结合附图的详细描述，本发明的这些和各种其他特性和方面将会变得容易理解，其中始终使用相同或类似的标号，并且其中：

图1示出占据在根据本发明的说话人识别(ID)系统及相应方法中采用的七个类别之六的六个短段的特征段模式(第七个类别为静默)；

图2是有利地可在根据本发明的说话人识别(ID)系统及相应方法中全部或部分采用的特征提取工具箱的高级方框图；

图3是在根据本发明的说话人识别(ID)系统及相应方法中采用的音频分类方案的高级方框图；

图4a和4b示出分别有用于理解本发明的特定方面的二维(2D)划分空间和相应决策树；

图5a、5b、5c和5d是示出在本发明的示例性实施例之一中采用的暂停检测方法的操作的系列图，而图5e是图5a-5d所示的方法的流程图；

图6a、6b和6c共同示出在本发明的示例性实施例至少之一中采用的分段方法；

图7是示出不同帧分类器相对于所采用特征计量的性能的图；

图8是分类结果的屏幕截取，其中上面窗口示出通过逐帧简化音频数据而获得的结果，而下面窗口示出按照在根据本发明的至少一个示例性实施例中采用的分段并批(pooling)方案而获得的结果；

图9a和9b是根据本发明两个示例性实施例的大量说话人识别系统的高级方框图；

图10是示出由在图9a和9b所示的大量说话人识别系统中采用的处理器实例化的各个功能块的高级方框图；以及

图11是根据本发明另一个示例性实施例的大量说话人识别方法的高级流程图。

具体实施方式

本发明部分基于Scheirer和Slaney的观察，即选择分类器所采用的特征实际上比分类器类型本身对分类性能更加至关重要。本发明人调查了总共143个潜在有用于解决将连续一般音频数据(GAD)分类为七个类别的问题的分类特征。在根据本发明的大量说话人识别(ID)系统中采用的七个音频类别包括静默、单个说话人的语音、音乐、环境噪声、多个说话人的语音、同时语音和音乐、以及语音和噪声。应当注意，环境噪声类别是指不带前景声音的噪声，而同时语音和音乐类别包括唱歌和带背景音乐的语音。七个类别之六的示例性波形如图1所示；由于自明的原因，省略了静默类别的波形。

根据本发明的分类器和分类方法将音频数据的连续位流解析成不同的非重叠段，使得每个段是同类的。由于音频信号从一个类别转变到另一个类别可能导致分类错误，因此本发明的示例性实施例采用分段并批方案作为减少这样的错误的有效方法。

为了使开发工作可容易复用且可扩展并且帮助在当前研究领域中试验不同特征提取设计，开发了音频工具箱。在其当前实现中，该工具箱包括多于两打的工具。每个工具负责一个分析音频数据频繁所需的基本操作。通过使用该工具箱，与处理流式音频数据相关的很多麻烦任务如缓冲区管理和优化、不同处理过程之间的同步、以及异常处理变得透明于用户。当前在音频工具箱中实现的操作包括频域操作、时域操作和基本数学操作如短时平均、对数操作、加窗、裁剪(clipping)等。由于在工具箱中的所有工具之间定义了公共通信协定，因此来自一个工具的结果可以毫无限制地与其他类型的工具共享。这样，工具箱内的工具可采用非常灵活的方式来组织以适应各种应用和需求。

刚才在上面讨论过的音频工具箱的一个可能配置是图2所示的音频工具箱10，其中图2示出在提取六组声学特征包括MFCC、LPC、增量MFCC、增量LPC、自相关MFCC和若干时间和频谱特征中采用的工具的布置。工具箱10有利地可包括多个由处理器实例化的软件模块，如下面关于图9a和9b所述。这些模块包括平均能量分析器(软件)模块12、快速傅立叶变换(FFT)分析器模块14、过零分析器模块16、基频分析器模块18、MFCC分析器模块20以及线性预测系数(LPC)分析器模块22。应当理解，FFT分析器模块的输出有利地可施加于中心(centroid)分析器模块24、带宽分析器26、跌落(rolloff)分析器模块28、频带比分析器模块30以及差分(增量)幅度分析器模块32以提取附加特征。同样地，MFCC分析器模块20的输出可被提供给自相关分析器模块34和增量MFCC分析器模块36，以为每个音频帧提取基于MFCC数据的附加特征。应当理解，LPC分析器模块22的输出可由增量LPC分析器模块38进行进一步的处理。还应当理解，当正被处理的GAD的幅度保证其时或者当成本效益分析表示这样做有利时，可以采用专用硬件组件例如模式数字信号处理器之一。如上所述，通过这些软件模块实现即针对这些特征所采用的定义或算法参见附录A。

基于由音频工具箱10从GAD提取的声学特征，通过分析从相邻帧提取的声学特征，还可提取有利地可用于音频段分类的很多附加音频特征。基于本发明人所作的广泛测试和建模，与较长期间例如600毫秒周期而非10-20毫秒帧周期上的音频数据特征相对应的这些附加特征更适于音频段分类。用于音频段分类的特征包括：

1)以感兴趣帧为中心的特定数目连续帧上的声学特征的均值和方差。

2)暂停率：其能量低于阈值的帧数与所考虑帧总数之间的比率。

3)调和性：具有有效基频值的帧数与所考虑帧总数之间的比率。

4)MFCC、增量MFCC、自动MFCC、LPC以及增量LPC提取特征的能量求和。

如图3所示，音频分类方法包括四个处理步骤：特征提取步骤S10、暂停检测步骤S12、自动音频分段步骤S14以及音频段分类步骤S16。从图3应当理解，在步骤S12执行粗分类步骤以分类例如识别包含静默的音频帧，由此消除这些音频帧的进一步处理。

在图3中，特征提取有利地可使用包括在图2所示的工具箱10中的工具中的选定多个工具在步骤S10实现。换句话说，在与步骤S10相关联的运行时间期间，从输入音频原始数据(在示例性情况下，以44.1kHz采样的PCM WAV格式数据)即GAD沿着时间轴逐帧提取要在后继三个过程步骤中采用的声学特征。然后，在步骤S12期间执行暂停检测。

应当理解，在步骤S12执行的暂停检测负责将输入音频片断分离成静默段和信号段。在此，术语“暂停”用来表示听者判断为无声音期间的时期，而非由闭塞辅音或轻微停顿而产生的时期。参见作者为P.T.Brady、标题为“A Technique For Investigating On-OffPatterns Of Speech”的文章(The Bell System Technical Journal，Vol.44，No.1，pp.1-22(January 1965))，在此将其引作参考。应当注意，让暂停检测器产生与人类感觉一致的结果是非常重要的。

如上所述，有关音频分类的很多先前研究是针对包含仅来自单个音频类别的数据的音频片断而执行的。然而，“真实”连续GAD包含来自很多音频类的段。因此，分类性能在底层音频流正在从一个音频类转变到另一个音频类的地方可能受到不利的影响。该准确率损失称作“边界效应”。应当注意，由于边界效应而造成的准确率损失在均在上面讨论过的作者为M.Spina和V.W.Zue以及E.Scheirer和M.Slaney的文章中有报告。

为了最小化由于边界效应而造成的准确率损失，根据本发明的说话人识别系统采用在步骤S14实现的分段并批机制。分段并批机制的分段部分用来定位确定发生从一种音频类别转变到另一种音频类别的信号段边界。该部分使用所谓的开始(onset)和结束(offset)测量，其表示信号变化的快慢程度以定位输入信号段中的边界。分段处理的结果产生较小的同类信号段。分段并批机制的并批部分随后在分类的时候被使用。它涉及逐帧分类结果的并批以对分段信号段进行分类。

在下面讨论中，将更详细地讨论在暂停检测、音频分段和音频段分类中采用的算法。

应当注意，实现三步骤过程来从GAD检测暂停期间。换句话说，步骤S12有利地可包括子步骤S121、S122和S123。参见图5e。在子步骤S121期间，基于由音频工具箱10中的选定工具提取的特征，首先将输入音频数据逐帧标记为信号或暂停帧以获得原始边界。该逐帧分类使用决策树算法来执行。该决策树以类似于Sethi和Sarvarayudu在标题为“Hierarchical Classifier Design Using MutualInformation”的论文(IEEE Trans.on Pattern Recognition andMachine Intelligence，Vol.4，No.4，pp.441-445(July 1982))中描述的分级特征空间划分方法的方式来获得。图4a示出二维特征空间的划分结果，而图4b示出根据本发明的在暂停检测中采用的对应决策树。

还应当注意，由于在第一子步骤获得的结果通常敏感于清音语音和轻微停顿，因此在后继两个步骤应用填充(fill-in)处理(子步骤S122)和抛弃(throwaway)处理(子步骤S123)，以产生与人类暂停感觉更一致的结果。

应当提到，在子步骤S122的填充处理期间，其长度小于填充阈值的暂停段即暂停帧连续序列被重新标注为信号段，并且与相邻信号段合并。在子步骤S123的抛弃处理期间，其信号强度值小于预定阈值的被标注为信号的段被重新标注为静默段。信号段的强度被定义为：

其中，L是信号段的长度，而T1对应于图4a所示的最低信号电平。应当注意，定义段强度而不是直接使用段长度背后的基本思想是考虑信号能量使得瞬时声音突发段在抛弃处理期间将不被标记为静默。参见作者为P.T.Brady、标题为“A Technique For Investigating On-OffPatterns Of Speech”的文章(The Bell System Technical Journal，Vol.44，No.1，pp.1-22(January 1965))。图5a-5d示出示例性暂停检测算法的三步骤。更具体地说，在本发明的至少一个示例性实施例中采用的暂停检测算法包括用于确定输入信号的短时能量的步骤S120(图5a)、在子步骤S121确定候选信号段(图5b)、执行上述填充子步骤S122(图5C)、以及执行上述抛弃子步骤S123(图5d)。

在根据本发明的大量说话人识别系统中采用的暂停检测模块产生两种段：信号段和静默段。应当理解，静默段无需任何进一步的处理，因为这些段已经被完全分类。然而，信号段需要附加的处理以在分类之前标记转变点，即底层信号类别转变的位置。为了定位转变点，示例性分段方案在执行步骤S14中采用两子步骤处理，即转折(break)检测子步骤S141和转折合并子步骤S142。在转折检测子步骤S141期间，移动置于信号段上的大检测窗口，并且比较处于每个滑动位置的窗口的不同一半的平均能量。这允许检测两种不同类型的转折：

其中 E₁和 E₂分别是检测窗口的第一和第二一半的平均能量。开始转折(onset break)表示由于信号能量增高的可能音频类别变化。类似地，结束转折(offset break)意味着由于信号能量降低的底层信号类别变化。应当理解，由于转折检测窗口沿着信号滑动，因此底层信号音频类别的单个转变可产生若干连续转折。该转折系列的合并在以步骤S14表示的新式分段处理的第二子步骤期间完成。

在该子步骤即S142期间，将相同类型的相邻转折合并成单个转折。结束转折也与紧邻在其后的开始转折合并，只要这两个转折在时间上相互靠近即可。这样做是为了跨接一个信号的结束与另一个信号的开始之间的任何小间隙。图6a、6b和6c示出通过信号转折的检测和合并的分段处理。

为了对音频段进行分类，根据本发明的大量说话人识别系统及相应方法首先对段的每一个帧进行分类。下一步，综合帧分类结果以获得整个段的分类标注。最好，该综合通过对分配给每个音频类别的帧数进行计数的并批处理来执行；在计数中最频繁表示的类别被认为是段的音频分类标注。

如上所述，用来对帧进行分类的特征不仅来自那个帧，而且来自其他帧。在示例性情况下，使用在每个类别具有多维高斯分布的假定下工作的贝叶斯分类器执行分类。帧分类的分类规则可被表达为：

c^*＝arg min_{c＝1，2，...，C}{D²(x，m_c，S_c)+ln(detS_c)-2ln(p_c)}， (2)

其中C是候选类别的总数(在本例中，C为6)，C^*是分类结果，x是正被分析的帧的特征向量。量m_c、S_c和p_c分别表示类c的平均向量、协方差矩阵和概率，而D²(x，m_c，S_c)表示x与m_c之间的Mahalanobis距离。由于m_c、S_c和p_c通常是未知的，因此这些值有利地可使用如作者为R.O.Duda和P.E.Hart、标题为“Pattern Classification andScene Analysis”的书籍(John Wiley & Sons(New York，1973))所述的最大后验(MAP)估算器来确定。

应当提到，通过首先从各种电视节目如谈话节目、新闻节目、足球赛、天气预报、广告、肥皂剧、电影、夜间节目等收集大量音频片断，准备在改进在大量说话人识别系统及相应方法中实现的音频特征集中采用的GAD。这些音频片断从四个不同台即ABC、NBC、PBS和CBS记录，并且被存储为8位、44.1kHz WAV格式文件。注意获得每个类别中的很多变化。例如，记录不同类型音乐的音乐段。从总体GAD，半小时被设计为训练数据，而另一个小时被设计为测试数据。然后，每10毫秒一次地以七个类别之一人工标注训练和测试数据。应当注意，按照在作者为P.T.Brady和J.G.Agnello的文章(“A Study of Intra-and Inter-Phrasal Pauses and Their Relationship to the Rateof Speech”，Ohio State University Ph.D.Thesis(1963))中提出的建议，对静默段施加200毫秒的最小持续时间，从而排除对于听者通常感觉不到的短语间停顿。而且，训练数据用来估算分类器的参数。

为了调查用于根据本发明的大量说话人识别系统及相应方法中的不同特征集的适合性，使用图2的整个音频工具箱10每20毫秒从输入数据即20毫秒帧提取六十八个声学特征，包括八个时间和频谱特征以及各自十二个MFCC、LPC、增量MFCC、增量LPC和自相关MFCC特征。对于该68个特征的每一个，在以感兴趣帧为中心的相邻帧上计算均值和方差。因此，每20毫秒计算总共143个分类特征、68个平均值、68个方差、暂停率、调和性和五个求和特征。

图7示出训练数据上的不同特征集的相对性能。这些结果基于对数百万个可能特征子集的广泛训练和测试而获得。图7中的准确率是帧级分类准确率。而且，段边界附近的帧不包括在准确率计算中。因此，图7的帧分类准确率表示如果向系统单独提供每种音频类型的段则将获得的分类性能。根据图7，应当注意不同特征集的性能不均匀。还应当注意，时间和频谱特征的性能不是非常好。在这些试验中，MFCC和LPC比时间和频谱特征实现好得多的总体分类准确率。仅采用8个MFCC特征，使用简单MAP高斯分类器可获得85.1％的分类准确率；当MFCC特征的数目增至20时，它上升至95.3％。该高分类准确率表示非常简单的特征空间布局，并且还证实了Scheirer和Slaney对七种音频类别的情况的结论。因此，预期使用不同分类器的效果是非常有限的。

表I提供了当使用最佳十六个特征时对于三个最重要特征集获得的结果的概览。这些结果表示MFCC不仅具有最佳的总体性能，而且具有跨越不同类别的最均匀性能。这进一步建议在仅识别音频类别子集的应用中使用MFCC。换一种方式来说，当大量说话人识别系统包括在诸如家庭电话系统的设备中，或者用于实现该方法的软件挂接于个人计算机上的基于因特网的语音(VOI)软件时，只需实现七种音频类别中的一些。

表1

特征集	分类准确率
	分类准确率						噪声	语音	音乐	语音+噪声	语音+语音	语音+音乐
	时间和频谱	93.2	83	75.1	66.4	88.3	噪声	语音	音乐	语音+噪声	语音+语音	语音+音乐	79.5
MFCC	时间和频谱	93.2	83	75.1	66.4	88.3	98.7	93.7	94.8	75.3	96.3	94.3	79.5
MFCC	LPC	96.9	83	88.7	66.1	91.7	98.7	93.7	94.8	75.3	96.3	94.3	82.7

此时应当提到，进行了一系列附加试验以检查参数设置的效果。使用不同参数设置例如不同加窗函数或者改变窗口长度和窗口重叠仅检测到微小的性能变化。当增加MFCC特征数或者使用来自不同特征集的特征混合时没有实现明显的分类准确率改善。

为了确定分类器对测试数据的执行性能，采用其余一小时数据作为测试数据。使用20个MFCC特征的集合，实现了85.3％的帧分类准确率。该准确率基于所有帧包括音频段边界附近的帧。与对训练数据的准确率相比，应当理解，当分类器处理来自不同类的段时存在约10％的准确率下降。

应当注意，上述试验是在具有266MHz CPU和64M内存的PentiumII PC上执行的。对于以44.1kHz采样的一小时音频数据，花费168秒的处理时间，这比播放速率大致快21倍。应当理解，这是在用户的电视或集成娱乐系统中包括实时说话人识别系统的可能性的有利征兆。

在下一处理阶段期间，应用并批处理以总体确定每个段的分类标注。作为并批处理结果，一些帧，大部分是边界附近的帧，其分类标注发生变化。与已知帧标注相比，发现并批处理之后的准确率为90.1％，这表示相比于没有并批处理的系统准确率的约5％增长。

采用和不采用分段并批机制的分类差异的例子如图8所示，其中横轴表示时间。不同音频类别对应于纵轴的不同级别。级别变化表示从一个类别到另一个类别的转变。图8证明了分段并批机制在纠正分散分类错误和消除琐细段方面是有效的。因此，分段并批机制可通过减轻由于边界效应而造成的恶化而在实际上产生与人类感觉更一致的结果。

上面解决了连续GAD的分类问题，并且在总体上给出了能够将音频段分类为七个类别的音频分类系统的要求。例如，借助于音频工具箱10，对总共143个分类特征执行测试和比较以优化所采用的特征集。这些结果证实了Scheirer和Slaney作出的观察，即选择特征在音频分类中具有首要重要性。这些试验结果还证实了基于倒谱的特征如MFCC、LPC等提供好得多的准确率并且应当用于音频分类任务而不管期望音频类别数。

还评估和证明了分段并批机制是减轻边界效应和产生与人类感觉一致的分类结果的有效方法。试验结果表示在本发明的示例性实施例中实现的分类系统提供约90％的准确率性能，其中处理速度快于播放速率数十倍。该高分类准确率和处理速度使得能够将上述音频分类技术扩展到大范围的其他自主应用如视频检索和分析、自动语音识别、音频可视化、视频/音频信息检索以及大型音频分析系统预处理，紧接在下面将对此进行更详细的讨论。

根据本发明的大量说话人识别系统的示例性实施例如图9a所示，其中图9a是有利地包括大量说话人识别系统的音频记录器-播放器100的高级方框图。应当理解，在音频记录器-播放器100中采用的若干组件是软件装置，如下面更详细所述。还应当理解，音频记录器-播放器100有利地可连接到各种流式音频源；在一点，仅在美国就存在多达2500个这样的音频源。最好，处理器130通过I/O端口从因特网接收这些流式音频源。此时应当提到，处理器130有利地可以是微处理器或数字信号处理器(DSP)之一；在示例性情况下，处理器130可包括两种处理器。在另一示例性情况下，处理器是实例化各种分析和分类功能的DSP，这些功能在上面和下面得到更详细的讨论。从图9a可以理解，处理器130实例化处理器资源所允许数目的虚拟调谐器，例如TCP/IP调谐器120a-120n。

应当注意，连接到因特网所需的实际硬件包括调制解调器例如模拟、电缆或DSL调制解调器等，并且在某些情况下包括网络接口卡(NIC)。这些传统设备不形成本发明的一部分，因此不作进一步的讨论。

仍然参照图9a，处理器130最好连接到共同形成存储器140的RAM142、NVRAM 144和ROM 146。RAM 142为由处理器130实例化的程序和例程所生成的数据提供临时存储，而NVRAM 144存储由大量说话人识别系统获得的结果，即表示音频段分类和说话人信息的数据。ROM 146存储程序和由这些程序使用的永久性数据。应当提到，NVRAM 144有利地可以是静态RAM(SRAM)或铁磁RAM(FERAM)等，而ROM 146可以是SRAM或电可编程ROM(EPROM或EEPROM)，这将允许在新程序版本变得可用时更新这些程序和“永久性”数据。可选地，RAM 142、NVRAM 144和ROM 146的功能有利地在本发明中可被实施为单个硬驱动器即单个存储器设备140。应当理解，当处理器130包括多个处理器时，每个处理器有利地可共享存储器设备140或者具有各自的存储器设备。其他布置例如所有DSP采用存储器设备140以及所有微处理器采用存储器设备140A(未示出)也是可能的。

应当理解，要由处理器130采用的附加数据源和来自用户的指示有利地可通过输入设备150来提供。如下面关于图10更详细所述，根据本发明的该示例性实施例的大量说话人识别系统及相应方法有利地可接收附加数据如已知说话人识别模型，例如由CNN为其新闻节目主持人、记者、常任评论员和著名嘉宾准备的模型。作为替换或补充，处理器130可接收附加信息如标示牌(nameplate)数据、来自面部特征数据库的数据、转录(transcript)等来帮助说话人识别处理。如上所述，处理器有利地还可从用户直接接收输入。该最后输入尤其有用于从图9b所示的系统获得音频源时。

图9b是根据本发明另一个示例性实施例的包括大量说话人识别系统的音频记录器100’的高级方框图。应当理解，音频记录器100’最好耦合于单个音频源，例如电话系统150’，其键盘有利地可用来提供有关交谈双方说话人的识别数据。I/O设备132’、处理器130’和存储器140’基本上类似于关于图9a所述，不过各个组件的尺寸和功率有利地可根据应用进行调整。例如，假定典型电话系统的音频特征，处理器130’比在图9a所示的音频记录器100中采用的处理器130可以慢且便宜得多。而且，由于电话不被预期遇到图1所示的大范围的音频源，因此所采用的特征集有利地可以针对预期音频源数据。

应当提到，有利地包括根据本发明的说话人识别系统的音频记录器100和100’不限于与电话一起使用。输入设备150、150’也可以是视频摄像机、SONY存储棒读取器、数字视频记录器(DVR)等。实际上，任何能够提供GAD的设备都有利地可与大量说话人识别系统接口，或者可包括用于实施根据本发明的大量说话人识别方法的软件。

通过按照由处理器130、130’实例化的功能块来定义系统，根据本发明的大量说话人识别系统及相应方法可以得到更好的理解。如图10所示，处理器实例化音频分段和分类功能F10、特征提取功能F12、学习和聚类功能F14、匹配和标注功能F16、统计干预(statisticalinterferencing)功能F18以及数据库功能F20。应当理解，这些“功能”的每一个表示可由与大量说话人识别系统相关联的处理器执行的一个或更多软件模块。

从图10还可以理解，各功能接收一个或更多预定输入。例如，新输入I10例如GAD施加于音频分段和分类功能F10，而已知说话人识别模型信息I12有利地可施加于特征提取功能F12作为第二输入(功能F10的输出为第一输入)。而且，匹配和标注功能F18有利地可接收用户输入I14和附加源信息I16中的任一个或两者。最后，数据库功能F20最好接收用户查询I18。

现在参照图11描述音频记录器-播放器100和100’的总体操作，其中图11示出操作包括根据本发明的大量说话人识别系统的音频记录器-播放器的方法的高级流程图。在步骤S1000期间，对音频记录器-播放器和大量说话人识别系统进行通电和初始化。对于图9a和9b所示的音频记录器-播放器中的任一个，初始化例程有利地可包括初始化RAM 142(142’)以接受GAD；而且，处理器130(130’)可从ROM 146(146’)检索软件，并且读取已知说话人识别模型信息I12和附加源信息I16，如果任一信息类型先前存储在NVRAM 144(144’)中的话。

下一步，在步骤S1002期间获得新音频源信息I10，例如GAD、无线电广播或电视频道、电话交谈等，然后在步骤S1004期间由音频分段和分类功能F10将其分段为以下类别：语音；音乐；静默等。功能F10的输出有利地施加于说话人识别特征提取功能F12。在步骤S1006期间，对于由功能块F10输出的每个语音段，特征提取功能F12提取MFCC系数，并且将其分类为单独类(必要时采用不同标注)。应当提到，如果可用的话，特征提取功能F12有利地可采用已知说话人识别模型信息I12，即将MFCC系数模式映射到已知说话人或已知分类的信息。应当理解，如果可用的话，模型信息I12将提高根据本发明的大量说话人识别方法的总体准确率。

在步骤S1008期间，非监督学习和聚类功能F14有利地可用来将相似类合并成一个类。从上面有关图4a-6c的讨论可以理解，功能F14采用阈值，该阈值是可自由选择的或者根据已知说话人识别模型I12选择的。

在步骤S1010期间，执行匹配和标注功能块F18以可视化类。应当理解，虽然可以在没有附加信息输入的情况下执行匹配和标注功能F18，但是当功能块18从附加文本信息I16源接收输入即获得来自文本检测的标注(如果出现标示牌)或从诸如转录的另外源接收输入以及/或者接收用户输入信息I14时，可以有利地增强匹配和标注功能的操作。应当理解，本发明方法可包括可选步骤S1012，其中大量说话人识别方法向用户询问以确认说话人识别正确。

在步骤S1014期间，执行检查以通过用户评定来确定在步骤S1010期间获得的结果是否正确。当答案是否定的时，在步骤S1016期间，用户有利地可干涉和纠正说话人类或者改变阈值。然后，该程序跳转至步骤S1000的开始。应当理解，步骤S1014和S1016提供调整步骤以获得与来自特定说话人的特征相关联的标注。如果答案是肯定的，则在步骤S1018期间更新分别与图9a和9b所示的大量说话人识别系统100和100’的优选实施例相关联的数据库功能F20，然后该方法跳转回到步骤S1002的开始，并且获得另外的GAD，例如，系统获得来自多天电视节目的输入，并且重复步骤S1002到S1018。

应当注意，一旦数据库功能F20被初始化，则在步骤S1020期间允许用户查询数据库并且在步骤S1022期间获得该查询的结果。在图9a所示的示例性实施例中，查询可通过I/O设备150来输入。在图9b所示的示例性情况下，用户可通过电话听筒即口述查询或者均与电话150’相关联的电话键盘和LCD显示器例如所谓的主叫者ID显示设备的组合来构建查询并且获得结果。

应当理解，存在多种方法来表示从音频分类和说话人识别系统提取的信息。一种方法是使用简单关系数据库模型来对该信息进行建模。在示例性情况下，有利地可采用如下所述采用多个表的数据库。

最重要的表包含有关类别和日期的信息。参见表II。表II的属性包括音频(视频)段ID，例如CRID的电视任意时间表示、类别和日期。每个音频段例如一个电话交谈或记录会议、或者视频段例如每个电视节目可采用表II中的一行表示。应当注意，列表示类别，即存在对应于N个类别的N个列。每列包含表示特定类别持续时间的信息。一个条目(行)中的每个元素表示每音频段的特定类别总持续时间。最后列表示记录那个段的日期，例如20020124。

表II

CRID	静默持续时间	音乐持续时间	语音持续时间	日期
CRID	静默持续时间	音乐持续时间	语音持续时间	日期	034567	207	5050	2010	20020531
034568	100	301	440	20020531	034567	207	5050	2010	20020531
034568	100	301	440	20020531	034569	200	450	340	20020530

该关系表的键是CRID。应当理解，可增加附加列，可以在表II中为每个段增加多列并且维护诸如电话交谈“类型”例如办公或个人、或者电视节目类型例如新闻、体育、电影、连续剧等的信息。而且，有利地可采用附加表来为CRID存储每个类别的特定子段的详细信息，例如开始、结束时间、类别。参见表III。应当注意，“子段”被定义为音频段中相同类别的一致小块数据。例如，电话交谈包含4个子段：以说话人A开始，然后是静默，然后是说话人B和说话人A。

表III

CRID	类别	开始时间	结束时间
CRID	类别	开始时间	结束时间	034567	静默	00:00:00	00:00:10
034567	音乐	00:00:11	00:00:19	034567	静默	00:00:00	00:00:10
034567	音乐	00:00:11	00:00:19	034567	静默	00:00:20	00:00:25
034567	语音	00:00:26	00:00:45	034567	静默	00:00:20	00:00:25
034567	语音	00:00:26	00:00:45

如上所述，虽然表II包括诸如静默持续时间、音乐持续时间和语音持续时间的类别列，但是也可表示很多不同类别。例如，父亲语音持续时间、总统语音持续时间、摇滚乐持续时间、爵士乐持续时间的列有利地可包括在表II中。

通过采用这种数据库，用户可检索诸如每个类别的平均值、每个类别的最小和最大值及其位置；每个节目和每个类别的标准偏差的信息。对于最大值，用户可定位日期并且回答诸如以下的询问：

雇员“A”在哪一日期主持了电话会议呼叫；或者

雇员“B”在相同电话会议呼叫期间发言了吗？通过使用该信息，用户可采用进一步的数据挖掘方法并且查找不同类别、日期等之间的相互联系。例如，用户可发现诸如人A呼叫人B最多的一天内时间的模式。另外，还可发现向人A的呼叫之后是向人B的呼叫之间的相互联系。

从上面讨论可以理解，根据本发明的大量说话人识别系统及相应方法能够从少至一个音频源例如电话且多至数百电视或音频频道获得输入，然后自动地对所获得的音频即GAD进行分段，并且将其分类为语音、音乐、静默、噪声以及这些类别的组合。然后，该大量说话人识别系统及相应方法可自动地从经过分段的信号段学习。语音段输入到特征提取系统中，该系统标注未知说话人，并且在某点根据用户输入或附加信息源如电视台、节目名称、面部特征、转录、文本标注等执行人标识的语义歧义消除。

该大量说话人识别系统及相应方法有利地可用于提供统计信息如总统乔治W.布什在2002年期间于NBC发言了多少小时以及其出现的总体分布是怎样的。应当注意，在总统发言的时候，可以向用户提供对这些查询的答案。可选地，当系统内置于用户的家庭电话设备中时，用户可询问：上次我与我的父亲通话是什么时候，或者在2000年我与谁通话最多，或者在上个月我与彼得通话了多少次。

虽然图9b示出单个电话150’，但是应当理解，包括大量说话人识别系统并且根据相应方法工作的电话系统无需局限于单个电话或用户线。由企业运行的电话系统例如专用交换机(PBX)系统有利地可包括该大量说话人识别系统及相应方法。例如，大量说话人识别软件可链接到专业人员办公室例如医生办公室或会计师办公室的电话系统，并且与专业人员的结帐系统接口以便可自动跟踪向客户或病人的呼叫(并且适当时结帐)。而且，该系统可被配置成监视PBX系统的不当使用，例如，雇员拨打异常数量的个人呼叫等。从上面讨论可以理解，分别包括或实现根据本发明的大量说话人识别(ID)系统及相应方法的电话系统可实时工作，即正在发生电话交谈时工作。应当理解，该后一特性有利地允许交谈参与者之一向系统提供用户输入，或者确认例如用户主叫者识别系统上的另一方名称对应于正在呼叫的实际方。

虽然这里详细描述了本发明的优选实施例，但是应当清楚地理解，对于本领域的技术人员是显而易见的对本文基本发明概念的很多变化和/或修改仍然将落在由所附权利要求限定的本发明的精神和范围内。

附录A

Claims

1.一种大量说话人识别(ID)系统(100，100’)，其从一般音频数据(GAD)识别归因于说话人的音频信号，该系统包括：

用于将GAD分段(130，130’)成多个段的装置；

用于将每个段分类(130，130’)为N个音频信号类之一的装置；

用于从段中提取特征的装置；

用于响应所提取的特征在必要时将段从N个音频信号类中的一个重新分类(130，130’)到另一个的装置；

用于对这些段中的邻近段进行聚类(130，130’)从而产生聚类段的装置；以及

用于以说话人ID标注(130，130’)每个聚类段的装置。

2.如权利要求1所述的大量说话人识别系统，其中，标注装置响应用户输入和附加源数据之一而以说话人ID标注多个聚类段。

3.如权利要求1所述的大量说话人识别系统，其中，大量说话人识别系统包括在计算机中。

4.如权利要求1所述的大量说话人识别系统，其中，大量说话人识别系统包括在顶置盒中。

5.如权利要求1所述的大量说话人识别系统，其中，大量说话人识别系统还包括：

用于存储将说话人ID与GAD的部分相联系的数据库的存储器装置(140，140’)；以及

接收标注装置的输出以更新数据库的装置(130，140/130’，140’)。

6.如权利要求5所述的大量说话人识别系统，其中，大量说话人识别系统还包括：

用于查询(132，132’)数据库的装置；以及

用于提供(150，150’)查询结果的装置。

7.如权利要求1所述的大量说话人识别系统，其中，N个音频信号类包括静默、单个说话人的语音、音乐、环境噪声、多个说话人的语音、同时语音和音乐、以及语音和噪声。

8.如权利要求1所述的大量说话人识别系统，其中，多个所提取的特征基于Mel倒谱系数(MFCC)。

9.如权利要求1所述的大量说话人识别系统，其中，大量说话人识别系统包括在电话系统(150’)中。

10.如权利要求9所述的大量说话人识别系统，其中，大量说话人识别系统实时工作。

11.一种用于从一般音频数据(GAD)识别说话人的大量说话人识别(ID)方法，包括：

将GAD分成多个段；

将对应于N个音频信号类之一的标注分配给每个段；

从这些段中提取特征；

根据所提取的特征在必要时将段从N个音频信号类中的一个重新分配到另一个，从而产生分类段；

对分类段中的相邻段进行聚类从而产生聚类段；以及

以说话人ID标注每个聚类段。

12.如权利要求11所述的大量说话人识别方法，其中，标注步骤响应用户输入和附加源数据之一而以说话人ID标注多个聚类段。

13.如权利要求1所述的大量说话人识别方法，其中，该方法还包括：

存储将说话人ID与GAD的部分相联系的数据库；以及

每当以说话人ID标注新聚类段时，更新数据库。

14.如权利要求13所述的大量说话人识别方法，其中，该方法还包括：

查询数据库；以及

向用户提供查询结果。

15.如权利要求11所述的大量说话人识别方法，其中，N个音频信号类包括静默、单个说话人的语音、音乐、环境噪声、多个说话人的语音、同时语音和音乐、以及语音和噪声。

16.如权利要求11所述的大量说话人识别方法，其中，多个所提取的特征基于Mel倒谱系数(MFCC)。

17.一种用于大量说话人识别系统(100)的操作方法，其中大量说话人识别系统(100)包括M个调谐器(120a-120n)、分析器(130)、存储设备(140)、输入设备(150)和输出设备(150)，该操作方法包括：

操作M个调谐器以从R个音频源获取R个音频信号；

操作分析器以将N个音频信号分成多个段，将对应于N个音频信号类之一的标注分配给每个段，从这些段中提取特征，根据所提取的特征在必要时将段从N个音频信号类中的一个重新分配到另一个，从而产生分类段，对分类段中的相邻段进行聚类从而产生聚类段，并且以说话人ID标注每个聚类段；

在存储设备中存储包括在R个音频信号中的聚类段和对应标注；

响应通过输入设备输入的查询，产生能够操作输出设备的查询结果，

其中M、N和R为正整数。

18.如权利要求17所述的操作方法，其中，N个音频信号类包括静默、单个说话人的语音、音乐、环境噪声、多个说话人的语音、同时语音和音乐、以及语音和噪声。

19.如权利要求17所述的操作方法，其中，多个所提取的特征基于Mel倒谱系数(MFCC)。

20.一种存储器(140，140’)，其存储用于使与大量说话人识别(ID)系统(100，100’)相关联的处理器(130，130’)实例化包括以下项的功能的计算机可读指令：

音频分段和分类功能，接收一般音频数据(GAD)，并且产生多个段；

特征提取功能，接收这些段，并且从中提取特征；

学习和聚类功能，接收所提取的特征，并且根据所提取的特征在必要时对段进行重新分类；

匹配和标注功能，将说话人ID分配给GAD内的语音信号；以及

数据库功能，用于将所分配的说话人ID与GAD内的相应语音信号相联系。

21.如权利要求20所述的存储器，其中，音频分段和分类功能将每个段分配给N个音频信号类之一，其中N个音频信号类包括静默、单个说话人的语音、音乐、环境噪声、多个说话人的语音、同时语音和音乐、以及语音和噪声。

22.如权利要求20所述的存储器，其中，多个所提取的特征基于Mel倒谱系数(MFCC)。

23.一种用于大量说话人识别系统(100，100’)的操作方法，其中大量说话人识别系统(100，100’)接收M个音频信号并在工作时耦合于输入设备(150，150’)和输出设备(150，150’)，并且包括分析器(130，130’)和存储设备(140，140’)，该操作方法包括：

操作分析器以将M个音频信号分成多个段，将对应于N个音频信号类之一的标注分配给每个段，从这些段中提取特征，根据所提取的特征在必要时将段从N个音频信号类中的一个重新分配到另一个，从而产生分类段，对分类段中的相邻段进行聚类从而产生聚类段，并且以说话人ID标注每个聚类段；

在存储设备中存储包括在音频信号中的聚类段和对应标注；

为所分析的M个音频信号产生将第M音频信号与从所提取特征和说话人ID至少之一获得的统计信息相联系的数据库；以及

响应通过输入设备输入到数据库的查询，产生能够操作输出设备的查询结果，

其中M、N和R为正整数。

24.如权利要求23所述的操作方法，其中，N个音频信号类包括静默、单个说话人的语音、音乐、环境噪声、多个说话人的语音、同时语音和音乐、以及语音和噪声。

25.如权利要求23所述的操作方法，其中，产生步骤还包括响应通过输入设备输入到数据库的查询而产生能够操作输出设备的与在存储于数据库中的选定数据上执行的计算相对应的查询结果。

26.如权利要求23所述的操作方法，其中，产生步骤还包括响应通过输入设备输入到数据库的查询而产生与有关M个音频信号类型、每类的持续时间、每类内的平均持续时间、与每个说话人ID相关联的持续时间、选定说话人ID相对于反映在数据库中的所有说话人ID的持续时间的统计信息之一相对应的查询结果，该查询结果能够操作输出设备。