CN105244031A

CN105244031A - 说话人识别方法和装置

Info

Publication number: CN105244031A
Application number: CN201510702800.2A
Authority: CN
Inventors: 王旭东
Original assignee: Beijing Ruian Technology Co Ltd
Current assignee: Beijing Ruian Technology Co Ltd
Priority date: 2015-10-26
Filing date: 2015-10-26
Publication date: 2016-01-13

Abstract

本发明公开了一种说话人识别方法和装置。该方法包括：采集说话人的音频数据；提取所述音频数据的声纹特征；在声纹数据库中搜索具有所述声纹特征的声纹样本，所述声纹数据库保存身份信息和声纹样本的对应关系；根据所述声纹样本及声纹样本与身份信息的对应关系，确定所述说话人的身份信息。本发明提高了语音监控的效率，为公共安全提供了保障。

Description

说话人识别方法和装置

技术领域

本发明实施例涉及语音监控技术，尤其涉及一种说话人识别方法和装置。

背景技术

随着信息时代的到来，语音监控已经成为公共安全领域的重要技术手段之一。

现有技术中，主要采取人工侦听的方式来进行语音监控，随着互联网数据量的海量爆发，人工侦听方法存在的在线侦听工作量大、工作效率较低、侦听人员不足的问题日益突出，导致无法提前追踪侦测音频数据中所存在的大量违法犯罪线索信息。特别是对于地域分布广和语种分布多样的案件，熟悉小语种和各种方言的工作人员非常少，导致数据量的积压。因此，现有技术中采用人工侦听方法的语音监控的效率较低。

发明内容

有鉴于此，本发明实施例提供一种说话人识别方法和装置，以提高语音监控的效率。

第一方面，本发明实施例提供了一种说话人识别方法，所述方法包括：

采集说话人的音频数据；

提取所述音频数据的声纹特征；

在声纹数据库中搜索具有所述声纹特征的声纹样本，所述声纹数据库保存身份信息和声纹样本的对应关系；

根据所述声纹样本及声纹样本与身份信息的对应关系，确定所述说话人的身份信息。

第二方面，本发明实施例还提供了一种说话人识别装置，所述装置包括：

音频数据采集模块，用于采集说话人的音频数据；

声纹特征提取模块，用于提取所述音频数据的声纹特征；

声纹样本搜索模块，用于在声纹数据库中搜索具有所述声纹特征的声纹样本，所述声纹数据库保存身份信息和声纹样本的对应关系；

身份信息确定模块，用于根据所述声纹样本及声纹样本与身份信息的对应关系，确定所述说话人的身份信息。

本发明实施例通过将采集到的说话人的音频数据的声纹特征，与声纹数据库中的声纹样本的声纹特征进行比对，得到特征接近的声纹样本，根据所述声纹样本及声纹样本与身份信息的对应关系，确定所述说话人的身份信息，提高了语音监控的效率，为公共安全提供了保障。

附图说明

图1是本发明实施例一提供的一种说话人识别方法的流程图；

图2是本发明实施例提供的说话人识别方法中的说话人识别系统的整体架构图；

图3是本发明实施例提供的说话人识别方法中的麦克风阵列语音增强系统的应用环境的示意图；

图4是本发明实施例提供的说话人识别方法中的录入声纹样本时录入身份信息的界面示意图；

图5是本发明实施例二提供的一种说话人识别方法的流程图；

图6是本发明实施例三提供的一种说话人识别装置的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。

实施例一

图1是本发明实施例一提供的一种说话人识别方法的流程图，本实施例可适用于识别语音监控中得到的音频数据的说话人身份信息的情况，该方法可以由说话人识别系统来执行，该系统可通过软件和/或硬件的方式实现。

图2是本发明实施例提供的说话人识别方法中的说话人识别系统的整体架构图，如图2所示，该说话人识别系统包括数据应用层、服务层、数据层和声纹采集层。其中，声纹采集层用于采集说话人的音频数据或者采集声纹样本，采集手段包括电信监控(如手机电话)、网络监控(如网络电话、米聊和微信等)、人员注册、出入境采集、路面核查采集、重点人员采集及其他采集手段；数据层用于存储声纹数据和系统数据，由于数据量比较大，主要采取分布式文件存储的方式，同时对存储的数据进行标准管理、质量管理和运行管理，系统数据主要存储声纹比对的结果数据；服务层包括声纹工具集、分析研判工具集、应用开发工具集和数据交换服务，其中，声纹工具集包括声纹比对服务、声纹注册服务和分布式计算服务，分析研判工具集包括语种方言、关键词和内容识别，应用开发工具集包括声纹查询、声纹比对和统计分析，数据交换服务包括交换接口、服务注册和服务管理；数据应用层包括声纹采集装备、路面核查系统、入境声纹比对和语音比对，可以用于采集声纹数据，或者通过调用服务层中的应用开发工具集进行实时的声纹比对，确定嫌疑人。其中，声纹工具集主要用于将采集到声纹样本分布式存储到数据层的数据库中；分析研判工具集主要用于根据关键信息进行人工研判，应用开发工具集主要用于根据说话人的音频数据对说话人进行身份识别；数据交换服务主要用于与音频数据的采集系统、声纹样本的录入系统及其他系统进行数据对接。

由于数据信息安全的需要，在涉及到系统数据对接时，将使用虚拟VPN(VirtualPrivateNetwork，虚拟专用网络)作为数据传输通道。由于在采集音频数据时，会存在与移动端的通信，必须在移动端与语音后台之间使用安全的数据网络，移动端的网络连通性也需要提供有效的保障，满足随时需要进行数据传输的需求，为了降低成本，可以借助于运营商提供的3G或4G网络，通过加密专线的方式接入到语音后台，可以采用VPDN(VirtualPrivateDial－upNetworks，虚拟专用拨号网)的虚拟网络专线，实现移动端与语音后台之间的互联通信。

该方法具体包括如下步骤：

步骤110，采集说话人的音频数据。

通过电信监控、网络监控、路面核查采集、出入境采集、重点人员采集及其他语音采集手段采集说话人的音频数据。其中，重点人员采集是指对重点关注对象的语音采集，主要包括监狱在押犯人等。通过上述监控，当监控到说话人的音频数据可疑时，采集该音频数据。

音频数据的采集来源多样，增加了后续声纹识别的难度。其中，出入境环境下背景噪声严重、说话人远离麦克风，难以有效采集目标人员的语音数据；路面核查环境中，目标对象所在的背景噪声环境和问答式的对话风格，会对声纹识别性能造成较大影响。针对这种难度极大的采集场景，使用麦克风阵列硬件系统采集音频数据，并对采集到的音频数据使用麦克风阵列语音增强系统进行增强。图3是本发明实施例提供的说话人识别方法中的麦克风阵列语音增强系统的应用环境的示意图。如图3所示，麦克风阵列语音增强系统应用的环境比较复杂，对目标源的直达信号造成的干扰包括：干扰源产生的干扰、背景噪声及目标源的反射信号等。

步骤120，提取所述音频数据的声纹特征。

其中，声纹(Voiceprint)是指能唯一识别某人或某物的声音特征，用电声学仪器显示的携带言语信息的声波频谱。声纹具有特定性和相对稳定性的特点。成年以后，人的声音可保持长期相对稳定不变。实验证明，无论讲话者是故意模仿他人声音和语气，还是耳语轻声讲话，即使模仿得惟妙惟肖，其声纹却始终不相同。基于声纹的这两个特征，侦查人员就可将获取的犯罪分子的声纹和嫌疑人的声纹，通过声纹鉴定技术进行检验对比，迅速认定罪犯，为侦查破案提供可靠的证据。

通过将音频数据输入电声学仪器中，电声学仪器使音频数据中的不同频率的机械振动以频谱图像的形式显示出来，这种频谱图像就是声纹，将该频谱图像记录下来，并记录声纹的特征参数，就提取出了声纹特征。

步骤130，在声纹数据库中搜索具有所述声纹特征的声纹样本，所述声纹数据库保存身份信息和声纹样本的对应关系。

声纹数据库技术是我国继指纹、DNA库后又一个生物特征库技术，为公共安全领域提供一套新的个体识别应用平台。通过建立的关键人声纹数据库和应用基于智能语音技术的语音监控系统能快速确认说话人身份、语种、方言口音以及检测通话中的敏感内容，为诸如案件侦破过程提供新的线索和证据，对于提高音频数据的监控效率，优化音频数据监控方式，提高监控质量将起到积极的推动作用，在维护国家安全、打击违法犯罪工作、打击恐怖主义的公共安全领域中均具有非常重要的意义。

声纹数据库保存了大量的关键人的身份信息、声纹样本及声纹特征等信息。通过以声纹特征为根据，在声纹数据库中搜索具有所述声纹特征的声纹样本，根据声纹样本与身份信息的对应关系即可确定说话人的身份信息。其中，声纹样本为一段语音，根据该语音可以提取出相应的声纹特征。

其中，声纹数据库系统为能够存储海量声纹数据的分布式数据库系统，将声纹数据库根据声纹的来源与特征可以划分为多个字库，包括：关键人对象库、历史查询库、业务数据库和人员信息库等。

其中，关键人对象库中包含通过各种渠道采集的关键人的声纹样本，其中某些数据有明确对应的人员信息，与人员信息库中的数据共同形成声纹档案。该声纹档案可按人员类别、人员属性等多个维度进行组织和存放；历史查询库存放由用户提交的历史查询数据；业务数据库可提供声纹预警，也可以综合利用关键词、语种和内容识别等技术进行分析研判；人员信息库包含声纹档案对应的人员基本信息与社会属性，主要由基础信息、动态信息共同组成，基础信息如姓名、身份证号、违法犯罪记录等。

步骤140，根据所述声纹样本及声纹样本与身份信息的对应关系，确定所述说话人的身份信息。

根据在声纹数据库中搜索得到的声纹样本，由声纹样本与身份信息的对应关系，可以确定说话人的身份信息。

本实施例通过采集说话人的音频数据，提取所述音频数据的声纹特征，在声纹数据库中搜索具有所述声纹特征的声纹样本，所述声纹数据库保存身份信息和声纹样本的对应关系，根据所述声纹及声纹样本与身份信息的对应关系，确定所述说话人的身份信息，可以为人工侦听提供有效辅助，提高了语音监控的效率，为公共安全提供了保障。

在上述技术方案的基础上，在采集说话人的音频数据之前，还包括：

采集已知身份的说话人的音频数据，提取该音频数据的声纹特征，该音频数据、与该音频数据对应的声纹特征及身份信息形成声纹样本，将该声纹样本保存到声纹数据库中。

通过电信监控、网络监控、人员注册、出入境采集、路面核查采集、重点人员采集等采集手段采集已知身份的说话人的音频数据，该音频数据与对应的声纹特征及身份信息形成声纹样本，保存到数据库中，便于后续采集到未知身份的说话人的音频数据时，与声纹数据库中的声纹样本进行比对，从而确定该未知身份的说话人的身份信息。其中，在出入境采集及路面核查采集等采集环境比较复杂的情况下可以使用麦克风阵列进行采集，使用麦克风阵列语音增强系统对采集到的音频数据进行增强处理，保存处理后的音频数据及对应的声纹特征和身份信息。在将声纹样本保存到声纹数据库中时，可以将一些特殊手段(如人员注册)采集到的声纹样本对应的身份信息录入到声纹数据库中，如图4所示，主要录入姓名、身份证号、户籍所在地等一些基本信息。图4是本发明实施例提供的说话人识别方法中的录入声纹样本时录入身份信息的界面示意图。

实施例二

图5是本发明实施例二提供的一种说话人识别方法的流程图，本实施例以实施例一为基础实施例一进行了优化，增加了对音频数据进行语音识别得到语音文本并提取语音文本中的关键词的操作，进而将在声纹数据库中搜索具有所述声纹特征的声纹样本优化为根据关键词在声纹数据库中搜索具有所述关键词的声纹样本，并计算声纹特征与声纹样本中的声纹特征的相似度，提取相似度超过设定阈值的声纹样本。该方法具体包括如下步骤：

步骤510，采集说话人的音频数据。

步骤520，对所述音频数据进行语音识别，得到语音文本。

语音识别就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。通过对所述音频数据进行语音识别，从而可以得到该音频数据中的语音文本。

步骤530，提取所述语音文本中的关键词。

利用中文分词技术对所述语音文本进行分词，并提取出所述语音文本中的关键词。

步骤540，提取所述音频数据的声纹特征。

上述步骤520和步骤530也可以在步骤540之后，即可以先提取所述音频数据的声纹特征，再对音频数据进行语音识别，得到语音文本，提取所述语音文本中的关键词。

步骤550，根据所述关键词，在声纹数据库中搜索具有所述关键词的声纹样本。

根据提取出的关键词，以该关键词为索引在声纹数据库中搜索具有该关键词的声纹样本，从而在声纹数据库中筛选出符合要求的声纹样本，缩小后续声纹比对的范围，从而加快速度。

优选的，在声纹数据库中搜索具有所述关键词的声纹样本之后，还包括：

在搜索结果中标注所述关键词所出现的时间位置。

显示搜索到的声纹样本，并在搜索结果中标注所述关键词所出现的精确时间为准，时间可以精确到秒。

优选的，该说话人识别方法还包括：

提供声纹数据库搜索入口，供用户通过关键词查询声纹样本。

声纹数据库搜索入口与搜索引擎的搜索入口相似，从而供用户根据关键词查询具有该关键词的声纹样本。在该搜索入口，用户也可根据关键词+声纹对象进行联合检索，即支持输入关键词并选中已有声纹对象进行联合查询的功能，能最大限度的缩小查询结果集的范围，迅速定位声纹对象所说过的包含特定关键词的音频数据，方便监控人员迅速定位语音线索。

步骤560，计算所述声纹特征与所述声纹样本的声纹特征的相似度。

根据相似度计算公式，计算说话人的音频数据的声纹特征与根据关键词搜索到的声纹样本的声纹特征的相似度，并对得到的相似度进行排名(如以相似度从大到小的形式进行排名)，并显示各个相似度的排名结果，从而可以供用户进行人工研判。

步骤570，提取相似度超过设定阈值的声纹样本。

根据计算得到的相似度，提取出相似度超过设定阈值的声纹样本。用户也可以根据显示的相似度的排名结果选择相似度最大的声纹样本，从而提取出该相似度最大的声纹样本。

步骤580，根据所述声纹样本及声纹样本与身份信息的对应关系，确定所述说话人的身份信息。

本实施例通过采集说话人的音频数据，对所述音频数据进行语音识别得到语音文本，并提取语音文本中的关键词，提取音频数据的声纹特征，根据所述关键词在声纹数据库中搜索具有该关键词的声纹样本，计算声纹特征与声纹样本的声纹特征的相似度，提取相似度超过设定阈值的声纹样本，根据所述声纹样本及声纹样本与身份信息的对应关系，确定所述说话人的身份信息，提高了语音监控的效率，与实施例一相比，并实施例先根据音频数据的语音文本中的关键词在声纹数据库中搜索相关的声纹样本，后续再将声纹样本的声纹特征与声纹特征进行比对，计算相似度，根据相似度超过设定值的声纹样本，可以确定说话人的身份信息，进一步提高了声纹比对的速度，从而进一步提高了语音监控的效率。

实施例三

图6是本发明实施例三提供的一种说话人识别装置的结构示意图。如图6所示，本实施例所述的说话人识别装置包括：音频数据采集模块610、声纹特征提取模块620、声纹样本搜索模块630和身份信息确定模块640。

其中，音频数据采集模块610用于采集说话人的音频数据；

声纹特征提取模块620用于提取所述音频数据的声纹特征；

声纹样本搜索模块630用于在声纹数据库中搜索具有所述声纹特征的声纹样本，所述声纹数据库保存身份信息和声纹样本的对应关系；

身份信息确定模块640用于根据所述声纹样本及声纹样本与身份信息的对应关系，确定所述说话人的身份信息。

优选的，该说话人识别装置还包括：

语音识别模块，用于在采集说话人的音频数据之后，对所述音频数据进行语音识别，得到语音文本；

关键词提取模块，用于提取所述语音文本中的关键词；

所述声纹样本搜索模块包括：

声纹样本搜索单元，用于根据所述关键词，在声纹数据库中搜索具有所述关键词的声纹样本；

相似度计算单元，用于计算所述声纹特征与所述声纹样本的声纹特征的相似度；

声纹样本提取单元，用于提取相似度超过设定阈值的声纹样本。

优选的，所述声纹样本搜索模块还包括：

时间位置标注单元，用于在声纹数据库中搜索具有所述关键词的声纹样本之后，在搜索结果中标注所述关键词所出现的时间位置。

优选的，该说话人识别装置还包括：

搜索入口提供模块，用于提供声纹数据库搜索入口，供用户通过关键词查询声纹样本。

优选的，该说话人识别装置还包括：

声纹样本采集模块，用于在采集说话人的音频数据之前，采集已知身份的说话人的音频数据，提取该音频数据的声纹特征，该音频数据、与该音频数据对应的声纹样本及身份信息形成声纹样本，将该声纹样本保存到声纹数据库中。

上述产品可执行本发明任意实施例所提供的方法，具备执行方法相应的功能模块和有益效果。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种说话人识别方法，其特征在于，所述方法包括：

采集说话人的音频数据；

提取所述音频数据的声纹特征；

2.根据权利要求1所述的方法，其特征在于，在采集说话人的音频数据之后，还包括：

对所述音频数据进行语音识别，得到语音文本；

提取所述语音文本中的关键词；

在声纹数据库中搜索具有所述声纹特征的声纹样本，包括：

根据所述关键词，在声纹数据库中搜索具有所述关键词的声纹样本；

计算所述声纹特征与所述声纹样本的声纹特征的相似度；

提取相似度超过设定阈值的声纹样本。

3.根据权利要求2所述的方法，其特征在于，在声纹数据库中搜索具有所述关键词的声纹样本之后，还包括：

在搜索结果中标注所述关键词所出现的时间位置。

4.根据权利要求2所述的方法，其特征在于，还包括：

5.根据权利要求1-4任一所述的方法，其特征在于，在采集说话人的音频数据之前，还包括：

6.一种说话人识别装置，其特征在于，所述装置包括：

音频数据采集模块，用于采集说话人的音频数据；

声纹特征提取模块，用于提取所述音频数据的声纹特征；

7.根据权利要求6所述的装置，其特征在于，还包括：

关键词提取模块，用于提取所述语音文本中的关键词；

所述声纹样本搜索模块包括：

8.根据权利要求7所述的装置，其特征在于，所述声纹样本搜索模块还包括：

9.根据权利要求7所述的装置，其特征在于，还包括：

10.根据权利要求6-9任一所述的装置，其特征在于，还包括：