CN109273011A

CN109273011A - 一种可自动更新模型的操作人员身份识别系统及方法

Info

Publication number: CN109273011A
Application number: CN201811027510.2A
Authority: CN
Inventors: 王健; 舒乔晔; 秦康平; 史济全; 王铮; 曹杰; 傅山
Original assignee: Shanghai Jiaotong University; East China Grid Co Ltd
Current assignee: Shanghai Jiaotong University; East China Grid Co Ltd
Priority date: 2018-09-04
Filing date: 2018-09-04
Publication date: 2019-01-25

Abstract

本发明公开了一种可自动更新模型的操作人员身份识别系统及方法，所述系统包括：语音输入单元，用于获取说话人的语音数据；说话人识别模块，用于利用预先建立的语音识别模型进行说话人身份识别；识别结果处理单元，用于根据所述说话人识别模块的识别结果确定说话人的身份识别是否通过，通过本发明，可实现一种安全可靠、简单易用、可满足实际应用场景需求并确保长期的识别准确率的操作人员身份识别技术。

Description

一种可自动更新模型的操作人员身份识别系统及方法

技术领域

本发明涉及身份识别技术领域，特别是涉及一种可自动更新模型的操作人员身份识别系统及方法。

背景技术

近年来，随着国民经济发展，电网的复杂性和重要性也得到迅速的提高。然而，目前在很多电网调度任务操作中，都缺乏有效的操作人员身份认证技术。考虑到电网在国民经济中的基础性作用，这种缺失给国家安全带来了重大隐患。

同时，考虑到实际应用情况中可以一次性获取的训练数据有限及说话人语音特征会随时间自然改变，一般的识别系统识别率会随着时间的推移有所降低，因此实有必要提出一种可自动更新模型的人员身份识别系统及方法，以解决上述问题。

发明内容

为克服上述现有技术存在的不足，本发明之目的在于提供一种可自动更新模型的操作人员身份识别系统及方法，以实现一种安全可靠、简单易用、可满足实际应用场景需求并确保长期的识别准确率的操作人员身份识别技术，解决当前系统操作复杂、系统训练要求高、维护效果差的问题。

为达上述及其它目的，本发明提出一种可自动更新模型的操作人员身份识别系统，包括：

语音输入单元，用于获取说话人的语音数据；

说话人识别模块，用于利用预先建立的语音识别模型进行说话人身份识别；

识别结果处理单元，用于根据所述说话人识别模块的识别结果确定说话人的身份识别是否通过。

优选地，所述系统还包括：

语音识别模型建立单元，用于对用户输入的语音进行模型训练，并根据模型训练结果与输入的用户信息建立用户信息数据库。

优选地，所述语音识别模型建立单元包括：

用户信息获取单元，用于获取身份允许的用户的用户信息；

语音信息获取单元，用于获取用户的语音数据；

模型训练单元，用于提取训练语音数据的身份特征，对其统计分布进行拟合，为每一个用户生成一个说话人模型作为模型训练结果保留；

存储单元，用于于模型训练完成后，将模型训练结果及对应的用户基本信息一起储存到用户信息数据库中。

优选地，所述系统还包括模型更新单元，于预设的更新时间到达时，利用新获取的语音数据依照后验概率最大准则调整当前模型参数。

优选地，所述系统还包括数据库管理单元，用于负责管理用户信息、语音识别模型以及与其他模块的数据传输。

优选地，所述语音识别模型由其所有者的用户编号命名，并根据用户编号将语音识别模型和用户信息关联在一起存储于所述用户信息数据库中。

优选地，所述系统还包括信息浏览模块，用于提供管理用户浏览用户信息、测试信息。

为达到上述目的，本发明还提供一种可自动更新模型的操作人员身份识别方法，包括如下步骤：

步骤S1，获取操作人员的语音数据；

步骤S2，利用预先建立的语音识别模型进行说话人身份识别；

步骤S3，根据步骤S2的识别结果确定身份识别是否通过。

优选地，于步骤S1之前还包括：

步骤S0，对用户输入的语音进行模型训练，并根据模型训练结果与输入的用户信息建立用户信息数据库。

优选地，步骤S0进一步包括：

获取身份允许的用户的用户信息；

获取用户的语音信息；

提取训练语音数据的身份特征，对其统计分布进行拟合，为每一个用户生成一个说话人模型作为模型训练结果保留；

于模型训练完成后，将模型训练结果及对应的用户基本信息一起储存到用户信息数据库中。

与现有技术相比，本发明一种可自动更新模型的操作人员身份识别系统及方法通过实现完整的说话人身份识别系统，解决了电网调度及类似操作环境下的人员身份认证问题，又利用系统模型的自动更新特性，解决了实际训练语音信息不足及系统识别率随时间下降的问题。整个系统结构清晰明了，并且安全可靠，执行效率高，操作和维护简单。

附图说明

图1为本发明一种可自动更新模型的操作人员身份识别系统一实施例的系统架构图；

图2为本发明一种可自动更新模型的操作人员身份识别系统另一实施例的系统架构图

图3为本发明具体实施例语音识别模型建立单元的细部结构图；

图4为本发明一种可自动更新模型的操作人员身份识别方法一实施例的步骤流程图；

图5为本发明一种可自动更新模型的操作人员身份识别方法另一实施例的步骤流程图；

图6为本发明具体实施例之可自动更新模型的操作人员身份识别系统的实例图。

具体实施方式

以下通过特定的具体实例并结合附图说明本发明的实施方式，本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用，本说明书中的各项细节亦可基于不同观点与应用，在不背离本发明的精神下进行各种修饰与变更。

图1为本发明一种可自动更新模型的操作人员身份识别系统的系统架构图。如图1所示，本发明一种可自动更新模型的操作人员身份识别系统，包括：

语音输入单元101，用于获取操作人员的语音数据。在本发明具体实施例中，当操作人员欲进行电网调度任务操作时，通过语音输入装置，例如麦克风进行语音输入，获取说话人的语音数据。

说话人识别模块102，用于利用预先建立的语音识别模型进行说话人身份识别。在本发明具体实施例中，说话人识别模块102提取当前语音数据的身份特征，计算当前语音分别来自预先建立的语音识别模型中各说话人识别模型的概率，得分最高的说话人模型即当前语音数据对应的用户。当说话人识别完成后，相应的用户信息在交互界面上予以显示。

具体地，身份特征向量可采用梅尔频率倒谱系数(MFCC)及其一阶差分拼接而成。MFCC获取过程如下：对语音数据加汉明窗后的短时信号进行傅里叶变换得对应频谱，该频谱送入梅尔滤波器组，对所得梅尔频谱取对数进行傅里叶反变换即得MFCC。

说话人识别模块102将特征向量视为由高斯混合模型(GMM)生成的数据，进而利用期望最大(EM)算法估计出模型各极大似然参数，包括各高斯分量的权重、均值向量和协方差矩阵，为每一个说话人用户建立一个GMM。

这样，给定一段测试语音，系统计算的就是该语音来自各说话人用户对应GMM的概率，将得分最高的说话人模型视为对应当前语音数据的用户。

识别结果处理单元103，用于根据说话人识别模块102的识别结果确定身份识别是否通过，即是否允许当前语音输入者进行电网调度任务操作。具体地说,当利用预先建立的语音识别模型识别出于用户信息数据库中具有当前语音输入对象的身份信息时，则输出对应的用户信息，并予以身份通过，否则则身份不合法，不予通过。

优选地，如图2所示，本发明一种可自动更新模型的人员身份识别系统还包括：语音识别模型建立单元100，用于对用户输入的语音进行模型训练，并根据模型训练结果与输入的用户信息建立用户信息数据库。

具体地，如图3所示，所述语音识别模型建立单元进一步包括：

用户信息获取单元1001，用于获取身份允许的用户的用户信息，例如姓名、工号等，在本发明具体实施例中，当用户想要注册到系统时，则要求用户输入用户信息，例如姓名、工号等，用户信息获取单元1001则可获取到用户输入的该用户信息。

语音信息获取单元1002，用于获取用户的语音信息，在本发明具体实施例中，当用户想用注册到系统时，除了要求用户输入用户信息，还要求用户输入语音信息，这里的语音信息可以wav格式存储。

模型训练单元1003，提取训练语音数据的身份特征，对其统计分布进行拟合，为每一个用户生成一个说话人模型作为模型训练结果保留，不必保留语音特征。

模型训练结果保留的是对应每一个说话人用户的GMM，具体来说，就是各个GMM参数，原始的语音数据以及MFCC特征向量均不需要保留。

存储单元1004，用于于模型训练完成后，将模型训练结果及对应的用户基本信息一起储存到用户信息数据库中。优选地，语音识别模型可由它所有者的用户编号命名，可根据用户编号把语音识别模型和用户信息关联在一起。

优选地，本发明一种可自动更新模型的操作人员身份识别系统还包括模型更新单元，于预设的更新时间到达时，利用新获取的语音数据依照后验概率最大准则调整当前模型参数，这里调整的模型参数即GMM中的各个参数，包括各高斯分量的权重、均值向量和协方差矩阵，以实现语音识别模型的更新。具体来说，对于待估参数，利用模型估计出一个隐函数，进而通过将隐函数最大化来获得新的模型估计，多次迭代至收敛。在本发明具体实施例中，本发明中会预先设定模型更新训练的时间，而为不影响电网的正常工作，模型更新训练的时间一般设定在午夜，当预设的更新时间到达时，则利用模型训练函数对语音识别模型重新进行训练，在本发明具体实施例中，模型更新训练纳入身份验证时输入的语音与注册时输入的语音混合训练而成，这样做的理由是，一、一般在识别时采集的语音都过短，不能达到模型训练的要求，二、纳入身份验证时输入的语音进行训练会更有效地表达用户特征。

优选地，本发明一种可自动更新模型的操作人员身份识别系统还包括数据库管理单元，用于负责管理用户信息、语音识别模型以及与其他模块的数据传输。另外，该数据库管理单元还提供了测试时间查询、工作时间计算等功能。更一般地，数据库管理单元还实现了添加、删除和修改用户信息功能。

优选地，本发明一种可自动更新模型的操作人员身份识别系统还包括信息浏览模块，用于提供管理用户浏览用户信息、测试信息等。

图4为本发明一种可自动更新模型的操作人员身份识别方法的步骤流程图。如图4所示，本发明一种可自动更新模型的操作人员身份识别方法，包括如下步骤：

步骤S1，获取操作人员的语音数据。在本发明具体实施例中，当操作人员欲进行电网调度任务操作时，通过语音输入装置，例如麦克风进行语音输入，获取说话人的语音数据。

步骤S2，利用预先建立的语音识别模型进行说话人身份识别。在本发明具体实施例中，于步骤S2中，提取当前语音数据的身份特征，计算当前语音来自预先建立的语音识别模型中各说话人识别模型的概率，得分最高的说话人模型即当前语音对应的用户，当说话人识别完成后，相应的用户信息在交互界面上予以显示。

具体地，于步骤S2中，身份特征向量可采用梅尔频率倒谱系数(MFCC)及其一阶差分拼接而成。MFCC获取过程如下：对语音数据加汉明窗后的短时信号进行傅里叶变换得对应频谱，该频谱送入梅尔滤波器组，对所得梅尔频谱取对数进行傅里叶反变换即得MFCC。

将特征向量视为由高斯混合模型(GMM)生成的数据，进而利用期望最大(EM)算法估计出模型各极大似然参数，包括各高斯分量的权重、均值向量和协方差矩阵，为每一个说话人用户建立一个GMM。

这样，给定一段测试语音，系统计算的就是该语音来自各说话人用户对应GMM的概率，将得分最高的说话人模型视为对应当前语音数据的用户

步骤S3，根据步骤S2的识别结果确定身份识别是否通过，即是否允许当前语音输入者进行电网调度任务操作。具体地说,当利用预先建立的语音识别模型识别出于用户信息数据库中具有当前语音输入对象的身份信息时，则输出对应的用户信息，并予以身份通过，否则则身份不合法，不予通过。

优选地，如图5所示，于步骤S1之前，本发明一种可自动更新模型的操作人员身份识别方法还包括如下步骤：

具体地，步骤S0进一步包括：

步骤S001，获取身份允许的用户的用户信息，例如姓名、工号等，在本发明具体实施例中，当用户想要注册到系统时，则要求用户输入用户信息，例如姓名、工号等，步骤S001则可获取到用户输入的该用户信息。

步骤S002，获取用户的语音信息，在本发明具体实施例中，当用户想用注册到系统时，除了要求用户输入用户信息，还要求用户输入语音信息，这里的语音信息可以wav格式存储。

步骤S003，利用模型训练函数进行语音识别模型的训练。具体来说，首先提取训练语音数据的身份特征，进而对其统计分布进行拟合，为每一个用户生成一个说话人模型作为模型训练结果保留，不必保留语音特征。

于步骤S003中，模型训练结果保留的是对应每一个说话人用户的GMM，具体来说，就是各个GMM参数，原始的语音数据以及MFCC特征向量均不需要保留。

步骤S004，于模型训练完成后，将模型训练结果及对应的用户基本信息一起储存到用户信息数据库中。优选地，语音识别模型可由它所有者的用户编号命名，可根据用户编号把语音识别模型和用户信息关联在一起。

优选地，本发明一种可自动更新模型的操作人员身份识别方法，还包括如下步骤：

于预设的更新时间到达时，利用模型训练函数对多次获取的语音进行混合训练，以实现语音识别模型的更新。也就是说，本发明中会预先设定模型更新训练的时间，为不影响电网的正常工作，模型更新训练的时间一般设定在午夜，当预设的更新时间到达时，则利用模型训练函数对语音识别模型重新进行训练，在本发明具体实施例中，模型更新训练纳入身份验证时新输入的语音与当前模型中已囊括的语音信息混合训练而成，这样做的理由是，一、一般在识别时采集的语音都过短，不能达到模型训练的要求，二、纳入身份验证时新输入的语音进行训练会更有效地表达用户特征。

图6为本发明具体实施例之可自动更新模型的操作人员身份识别系统的实例图。在本发明具体实施例中，该可自动更新模型的操作人员身份识别系统可包括：用户交互模块、语音识别模型建立模块、说话人识别模块、数据库管理模块和信息浏览模块。

所述用户交互包括用户注册和说话人识别两个主要过程。如果用户想要注册到系统中，先要输入用户信息，比如姓名和工号。同时，需要输入以wav格式存储的语音，然后，语音识别模型建立模块调用模型训练函数进行用户模型的训练，在用户模型训练完成后，用户模型的编号连同用户的基本信息一起储存到用户信息数据库中。当用户完成注册后，则进入识别测试阶段。当用户通过用户交互语音输入后，系统调用说话人识别函数进行说话人识别。当说话人识别完成后，相应的用户信息在交互界面上显示。

在用户注册阶段，模块的输入是用户语音和用户编号，输出的是用户的说话人模型。在说话人确认阶段，输入是用户语音，输出是识别出的用户编号。当用户模型更新函数被调用时，系统启动用户语音模型进行重新训练。模型重新训练的时间被定在午夜，最久没有更新的模型有最高的优先级进行训练。新模型用新、旧语音混合训练而成。这样做的第一个理由是，一般在识别时采集的语音都过短，不能达到模型训练的要求。第二个理由是，纳入身份验证时新输入的语音进行训练会更有效地表达用户特征。

所述数据库管理模块负责管理用户信息、说话人模型以及它们与其他模块数据传输。另外，该模块提供了测试时间查询、工作时间计算等功能。更一般地，数据库管理模块实现了添加、删除和修改用户信息功能。说话人模型由它所有者的用户编号命名。系统根据用户编号把说话人模型和用户信息关联在一起。

所述信息浏览模块允许管理用户浏览用户信息、测试信息等。

综上所述，本发明一种可自动更新模型的操作人员身份识别系统及方法通过实现完整的说话人身份识别系统，解决了电网调度及类似操作环境下的人员身份认证问题，又利用系统模型的自动更新特性，解决了实际训练语音信息不足及系统识别率随时间下降的问题。整个系统结构清晰明了，并且安全可靠，执行效率高，操作和维护简单。

与现有技术相比，本发明具有如下优点：

第一，利用语音认证识别是最经济的认证方法之一，由于现在个人计算机和麦克风的普及，系统的成本仅仅是软件开发方面的成本；第二，说话人识别的数据收集方法是非接触式，比指纹和虹膜识别更容易让被试人员接受；第三，识别系统包括了时间管理等功能，融合了数据库、网络和说话人识别技术，有利于实现办公自动化。实验结果表明：本发明安全高效、结构合理、简单易用，利用本发明可以有效实现电网调度及类似环境人员的身份识别认证。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下，对上述实施例进行修饰与改变。因此，本发明的权利保护范围，应如权利要求书所列。

Claims

1.一种可自动更新模型的操作人员身份识别系统，包括：

语音输入单元，用于获取说话人的语音数据；

2.如权利要求1所述的一种可自动更新模型的操作人员身份识别系统，其特征在于，所述系统还包括：

3.如权利要求2所述的一种可自动更新模型的操作人员身份识别系统，其特征在于，所述语音识别模型建立单元包括：

用户信息获取单元，用于获取身份允许的用户的用户信息；

语音信息获取单元，用于获取用户的语音数据；

4.如权利要求3所述的一种可自动更新模型的操作人员身份识别系统，其特征在于：所述系统还包括模型更新单元，于预设的更新时间到达时，利用新获取的语音数据依照后验概率最大准则调整当前模型参数。

5.如权利要求3所述的一种可自动更新模型的操作人员身份识别系统，其特征在于：所述系统还包括数据库管理单元，用于负责管理用户信息、语音识别模型以及与其他模块的数据传输。

6.如权利要求3所述的一种可自动更新模型的操作人员身份识别系统，其特征在于：所述语音识别模型由其所有者的用户编号命名，并根据用户编号将语音识别模型和用户信息关联在一起存储于所述用户信息数据库中。

7.如权利要求3所述的一种可自动更新模型的操作人员身份识别系统，其特征在于：所述系统还包括信息浏览模块，用于提供管理用户浏览用户信息、测试信息。

8.一种可自动更新模型的操作人员身份识别方法，包括如下步骤：

步骤S1，获取操作人员的语音数据；

步骤S3，根据步骤S2的识别结果确定身份识别是否通过。

9.如权利要求8所述的一种可自动更新模型的操作人员身份识别方法，其特征在于，于步骤S1之前还包括：

10.如权利要求9所述的一种可自动更新模型的操作人员身份识别方法，其特征在于步骤S0进一步包括：

获取身份允许的用户的用户信息；

获取用户的语音信息；