CN1405693A

CN1405693A - 计算机人声识别方法和具有人声识别功能的电话通讯系统

Info

Publication number: CN1405693A
Application number: CN 01127082
Authority: CN
Inventors: 冯南
Original assignee: NANJING BEIJIXING SOFTWARE CO Ltd
Current assignee: NANJING BEIJIXING SOFTWARE CO Ltd
Priority date: 2001-08-08
Filing date: 2001-08-08
Publication date: 2003-03-26

Abstract

本发明公开了一种计算机人声识别方法和具有人声识别功能的电话通讯系统。该系统包括自动呼叫分配器、接线员终端话机和计算机、说话人识别服务器。其中说话人识别服务器的工作步骤为，通过读取音频数字信号、提取上一步音频数字信号中的特征向量信号、代入存储器中数学分布模型、比较概率值等操作，可以迅速识别来电客户，并将其有关信息显示出来。采用本发明后，呼叫中心可以根据声音识别客户来电，从而摆脱对原有来电显示的依赖性，提供更加可靠的判断用户的方法，使得呼叫中心得以提供更加个性化的服务，大大提高服务质量。

Description

计算机人声识别方法和具有人声识别功能的电话通讯系统

技术领域

本发明涉及一种人声识别方法，尤其是一种借助计算机识别人声的方法，本发明还涉及采用该方法的具有识别主叫方功能的电话通讯系统，属于通讯设备

技术领域。

背景技术

当今的信息时代，电话已成为人们必不可少的通讯工具。然而，据申请人了解，现有的电话均无法使被叫方迅速知晓主叫方是谁，即使是具有“来电显示”功能的电话，也仅仅是将主叫方话机的号码显示给被叫方。因此，如图1所示的现有呼叫中心都只能通过来电的号码区别用户。该呼叫中心在有用户通过公共电话网(PSTN)呼叫时，首先由自动呼叫分配器(ACD)将呼叫排队，同时将来电号码送到数据库服务器(DB Server)进行查找。此时，如有空闲的接线员，则将此电话转移到该接线员的电话上，并将包括客户名称、以往交易、服务类型等信息在内的数据库检索结果显示在该接线员的计算机屏幕上。有的呼叫中心装有交互人声应答装置(IVR)，当有电话打入时可以人声提示，了解客户的需求。但所有现有技术均存在以下问题：1.无法区分使用相同号码的不同人(例如，在公司里，大家使用同一总机；在家里，家人使用同一电话机等)；2.无法区分来自IP电话呼叫、互连网呼叫等其他途径的呼叫；3.无法识别使用不同号码呼叫的同一个人。随着通讯技术的迅速普及，上述问题日益突出，解决这些问题的需求也越来越迫切。

发明内容

本发明的目的在于：针对上述现有技术存在的问题，提出一种迅速通过人声分析识别通话人的计算机人声识别方法，同时本发明还将提出一种采用该方法的具有人声识别功能的电话通讯系统，从而满足现代通讯的新需求，为电话通讯的管理提供更多的方便。

为了达到上述目的，本发明计算机人声识别方法在包括CPU、音频—数字信号转换卡(例如声卡)、存储器的计算机中，采用以下步骤工作：1).将可以从音频数字信号中提取特征向量信号、建立数学分布模型的训练程序以及可以从音频数字信号中提取特征向量信号、并与数学分布模型比较、算出概率结果的识别程序分别存入计算机的存储器中，建立训练模块和识别模块；2).启动计算机后，音频—数字信号转换卡将首次输入的音频信号转换成数字信号；3).CPU读取经转换的音频数字信号，并调取存储器训练模块中的训练程序；4).CPU根据训练程序，提取上一步音频数字信号中的特征向量信号；5).CPU根据上一步特征向量信号建立数学分布模型数据；6).将数学分布模型数据及与之对应的结果信息数据存入外部存储器，形成数据库；7).音频—数字信号转换卡将再次输入的音频信号转换成数字信号；8).CPU读取经转换的上一步音频数字信号，并调取存储器识别模块中的识别程序；9).CPU根据识别程序，提取上一步音频数字信号中的特征向量信号；10).CPU将上一步特征向量信号代入外部存储器中的各数学分布模型，得出相应的概率值；11).CPU比较各概率值，从外部存储器数据库中选出最大的N(N＝1-10)个概率值所对应的结果信息数据，送显示器显示。

值得一提的是，本发明所说的计算机是广义概念，包括个人计算机、工控机、以及其它有类似处理能力的设备。

本发明具有人声识别功能的电话通讯系统包括现有技术中的自动呼叫分配器(ACD)、接线员终端话机和计算机，还包括采用上述方法的计算机——在该系统中被称为说话人识别服务器(SR Server)。其中自动呼叫分配器(ACD)的外通讯端直接或经过网络接入设备外接通讯网络，内通讯端接接线员终端话机和计算机，以及说话人识别服务器(SR Server)。

本发明具有人声识别功能的电话通讯系统工作时，当有用户向系统拨打电话，自动呼叫分配器响应，将客户的人声应答传送到说话人识别服务器，该服务器中的音频—数字信号转换卡将首次输入的音频信号转换成数字信号；CPU读取经转换的音频数字信号，并调取存储器识别模块中的识别程序，接着根据识别程序，提取音频数字信号中的特征向量信号，代入外部存储器中的各数学分布模型，得出相应的概率值，再从外部存储器数据库中选出最大的N个概率值所对应的结果信息数据，送接线员终端话机和计算机显示器显示。这样，便可迅速知晓打入电话者为何人。如果识别结果为空，即以前此呼叫从未打过本系统的电话，则说话人识别服务器的CPU经读取经转换的音频数字信号、调取存储器训练模块中的训练程序、提取音频数字信号中的特征向量信号、根据特征向量信号建立数学分布模型数据、将数学分布模型数据及与之对应的结果信息数据存入外部存储器，形成数据库，以供今后识别对比。

由此可见，采用本发明后，可以根据声音识别客户来电，从而摆脱对原有来电显示的依赖性，提供更加可靠的判断用户的方法，使得呼叫中心得以提供更加个性化的服务，大大提高服务质量。

附图说明

下面结合附图对本发明作进一步说明。

图1是现有技术呼叫中心的系统示意图。

图2是本发明实施例一的系统构成示意图。

图3是本发明实施例二的系统构成示意图。

具体实施方式

实施例一

图2实施例具有人声识别功能的电话通讯系统主要由自动呼叫分配器(ACD)、接线员终端话机和计算机、交互人声应答装置(IVR)、说话人识别服务器(SR Server)构成。其中自动呼叫分配器(ACD)的外通讯端外接共电话网(PSTN)，内通讯端接接线员终端话机和计算机、交互人声应答装置(IVR)，以及说话人识别服务器(SR Server)。说话人识别服务器(SR Server)实质是一台包括CPU、声卡、存储器、硬盘、显示器，并按照下述步骤工作的计算机：1).将可以从音频数字信号中提取特征向量信号、建立高斯分布模型的训练程序以及可以从音频数字信号中提取特征向量信号、并与高斯分布模型比较、算出概率结果的识别程序分别存入计算机的存储器中，建立训练模块和识别模块；2).启动计算机后，音频—数字信号转换卡将首次输入的音频信号转换成数字信号；3).CPU读取经转换的音频数字信号，并调取存储器训练模块中的训练程序；4).CPU根据训练程序，用多频谱系数(Mul-Frequency CepstralCoefficients)、线性预测系数(LPC Based Cepstrum)算法提取上一步音频数字信号中的特征向量信号；5).CPU根据上一步特征向量信号用高斯混合模型(Gaussian Mixture Model)建立混合高斯分布模型数据；6).将混合高斯分布模型数据及与之对应的结果信息数据存入硬盘，形成数据库；7).音频—数字信号转换卡将再次输入的音频信号转换成数字信号；8).CPU读取经转换的上一步音频数字信号，并调取存储器识别模块中的识别程序；9).CPU根据识别程序，提取上一步音频数字信号中的特征向量信号；10).CPU将上一步特征向量信号代入硬盘中的各高斯分布模型信号，得出相应的概率值；11).CPU比较各概率值，从硬盘数据库中选出最大概率值所对应的结果信息数据，送显示器显示。

本实施例具有人声识别功能的电话通讯系统工作时，当有用户向系统拨打电话，自动呼叫分配器(ACD)响应，将电话送到交互人声应答系统(IVR)，询问客户需要帮助的类型，并将客户的人声传送到说话人识别服务器(SR Server)，该服务器按照上述计算机有关工作步骤(步骤7)-11))，将识别结果传送到接线员终端计算机上。如果识别结果为空，即以前此呼叫从未打过本系统的电话，则说话人识别服务器将按照有关步骤(步骤2)-6))将其记录下来，以供今后识别对比。

本实施例可以在现有交互人声应答系统(IVR)上进行简单改装实现，因此便于普及推广。

实施例二

图3实施例具有人声识别功能的电话通讯系统与图2稍有不同，其中也含有现有技术中的自动呼叫分配器(ACD)、接线员终端话机和计算机，以及说话人识别服务器(SR Server)，此外还含有媒体网关(IP Gateway)和客服服务器(FineSupport Server)。其中自动呼叫分配器(ACD)的外通讯端经过客服服务器(FineSupport Server)接互联网，同时再通过媒体网关(IP Gateway)接共电话网(PSTN)，内通讯端接接线员终端话机和计算机、以及说话人识别服务器(SRServer)。说话人识别服务器(SR Server)的组成、工作步骤与上述实施例基本相同。

该实施例的特点是既可以通过媒体网关(IP Gateway)将共同电话网传来的电话呼叫转换成计算机呼叫，再通过客服服务器(Fine Support Server)协调自动呼叫分配器(ACD)以及说话人识别服务器(SR Server)的工作，从而完成呼叫者人声的识别；也可以直接通过客服服务器(Fine Support Server)的协调识别来自互联网的呼叫者的人声识别，用途更为广泛。

除上述实施例外，本发明还可以广泛用于数字签名、防盗门开启、银行信用卡支付等诸多领域，前景广阔。

Claims

1.一种计算机人声识别方法，其特征在于：在包括CPU、音频—数字信号转换卡、存储器的计算机中，采用以下步骤工作：

1).将可以从音频数字信号中提取特征向量信号、建立数学分布模型的训练程序以及可以从音频数字信号中提取特征向量信号、并与数学分布模型比较、算出概率结果的识别程序分别存入计算机的存储器中，建立训练模块和识别模块；

2).启动计算机后，音频—数字信号转换卡将首次输入的音频信号转换成数字信号；

3).CPU读取经转换的音频数字信号，并调取存储器训练模块中的训练程序；

4).CPU根据训练程序，提取上一步音频数字信号中的特征向量信号；

5).CPU根据上一步特征向量信号建立数学分布模型数据；

6).将数学分布模型数据及与之对应的结果信息数据存入外部存储器，形成数据库；

7).音频—数字信号转换卡将再次输入的音频信号转换成数字信号；

8).CPU读取经转换的上一步音频数字信号，并调取存储器识别模块中的识别程序；

9).CPU根据识别程序，提取上一步音频数字信号中的特征向量信号；

10).CPU将上一步特征向量信号代入外部存储器中的各数学分布模型，得出相应的概率值；

11).CPU比较各概率值，从外部存储器数据库中选出最大的N(N＝1-10)个概率值所对应的结果信息数据，送显示器显示。

2.根据权利要求1所述的计算机人声识别方法，其特征在于：所述步骤4)中CPU根据训练程序，用多频谱系数、线性预测系数算法提取上一步音频数字信号中的特征向量信号；所述步骤5)中CPU根据上一步特征向量信号用高斯混合模型建立混合高斯分布模型数据。

3.一种具有人声识别功能的电话通讯系统，包括自动呼叫分配器(ACD)、接线员终端话机和计算机，其特征在于：还包括按照权利要求1所述步骤工作的说话人识别服务器(SR Server)，其中自动呼叫分配器(ACD)的外通讯端直接或经过网络接入设备外接通讯网络，内通讯端接接线员终端话机和计算机以及说话人识别服务器(SR Server)。

4.根据权利要求3所述的具有人声识别功能的电话通讯系统，其特征在于：含有交互人声应答装置(IVR)，所述自动呼叫分配器(ACD)的外通讯端外接共电话网(PSTN)，内通讯端接接线员终端话机和计算机、交互人声应答装置(IVR)，以及说话人识别服务器(SR Server)。

5.根据权利要求3所述的具有人声识别功能的电话通讯系统，其特征在于：还含有媒体网关(IP Gateway)和客服服务器(Fine Support Server)，所述自动呼叫分配器(ACD)的外通讯端经过客服服务器(Fine Support Server)接互联网，同时再通过媒体网关(IP Gateway)接共电话网(PSTN)，所述自动呼叫分配器(ACD)内通讯端接接线员终端话机和计算机、以及说话人识别服务器(SR Server)。