CN115100701A

CN115100701A - 一种基于人工智能技术的会议发言人身份识别方法

Info

Publication number: CN115100701A
Application number: CN202110248888.0A
Authority: CN
Inventors: 侯英东; 陈路标; 张仕玉; 贾玉强; 尹继超; 蔡菀睿; 刘杨; 宋承成; 刘清宇; 王凯彬
Original assignee: CNNC Fujian Nuclear Power Co Ltd; China Nuclear Power Operation Technology Corp Ltd
Current assignee: CNNC Fujian Nuclear Power Co Ltd; China Nuclear Power Operation Technology Corp Ltd
Priority date: 2021-03-08
Filing date: 2021-03-08
Publication date: 2022-09-23
Anticipated expiration: 2041-03-08
Also published as: CN115100701B

Abstract

本发明涉及智能监测技术领域，尤其涉及一种基于人工智能技术的会议发言人身份识别方法。所述方法为：扫描参会人员的人脸信息，得到人脸图像特征数据；将人脸图像特征数据在人脸样本数据库中进行检索及对比分析，将相似度最高的人员信息作为识别结果输出，识别所有参会人员身份信息；将参会人员信息与音频通道按照编号进行绑定；会议过程中，若有人发言，则通过音频通道识别初步判断当前发言人的身份；同时，会议过程中，若有人发言，采集发言人的声纹信息，则通过声纹识别初步判断当前发言人的身份；结合音频通道识别和声纹识别的结果，进行综合性分析，给出最终的发言人身份识别结果。本发明提高会了议智能监测系统识别发言人身份信息的准确度。

Description

一种基于人工智能技术的会议发言人身份识别方法

技术领域

本发明涉及智能监测技术领域，尤其涉及一种基于人工智能技术的会议发言人身份识别方法。

背景技术

工前会是核电厂常用的人因工具之一，工前会质量对后续工作开展尤其是作业风险控制起到关键作用。

目前，核电厂高风险作业工前会逐步采用智能会议监测系统来对会议的各种信息，如参会人员签到、会议迟到早退等异常情况、发言人身份、发言内容、发言次序等，进行采集、分析、记录，最终以智能数据的形式进行展示，以辅助工作会议更高效地召开。因此，智能会议监测系统需要采取一定的技术手段，在有人发言时，能够快速、准确地识别当前发言人的身份信息。

发明内容

本发明要解决的技术问题是：提供一种基于人工智能技术的会议发言人身份识别方法，以提高会议智能监测系统识别发言人身份信息的准确度。

本发明提供了一种基于人工智能技术的会议发言人身份识别方法，包括以下步骤：

步骤S1：扫描所有参会人员的人脸信息，得到人脸图像特征数据；将所述人脸图像特征数据在人脸样本数据库中进行检索及对比分析，将相似度最高的人员信息作为识别结果输出，依次识别所有参会人员身份信息；

步骤S2：根据现场情况，将参会人员信息与音频通道按照编号进行绑定，形成发言人与音频通道的一一对应关系；会议过程中，若有人打开音频通道发言，则通过音频通道识别初步判断当前发言人的身份；

同时，会议过程中，若有人发言，采集发言人的声纹信息，则通过声纹识别初步判断当前发言人的身份；

步骤S3：结合音频通道识别和声纹识别的结果，进行综合性分析判断，

若音频通道识别结果与声纹识别结果一致，则按此结果输出；

若音频通道识别结果与声纹识别结果不一致，分为以下情况：

当音频通道识别和声纹识别任意一个存在无识别结果的情况，则：

若声纹识别结果为陌生人，音频通道有识别结果，则按音频通道识别结果输出；

若音频通道识别无识别结果，则按声纹识别结果输出；

当音频通道识别或声纹识别均存在识别结果，则：

若音频通道识别结果与声纹识别结果不一致，则根据音频信号强度是否高于设定阈值的判断结果分析，若高于设定阈值，则按音频通道识别结果输出；反之，若低于设定阈值，则按声纹识别结果输出；

步骤S4：根据输出结果，给出最终的发言人身份识别结果。

优选地，所述步骤S2中：

会议过程中，若有人打开音频通道发言，则同步分析判断所有音频通道传输的信号强度，识别出音频信号最强的音频通道编号，判断音频信号强度是否高于设定阈值，同时根据音频通道的同时根据音频通道与参会人员身份绑定对照信息，初步识别出当前发言人身份；

优选地，所述步骤S2中：

会议过程中，若有人打开音频通道发言，块根据采集到的音频信息进行同步分析，将发言人声纹特征数据在声纹样本数据集中进行比对分析，得出相似度概率前2～5个人员身份识别结果，再根据步骤S1中得到的所有参会人员身份信息，进行综合判断，初步确定发言人身份识别结果。

优选地，所述步骤S2中，会议过程中，若有人打开麦克风发言，利用声纹识别模块根据采集到的音频信息进行同步分析，将发言人声纹特征数据在声纹样本数据集中进行比对分析，得出相似度概率前三的3个人员身份识别结果，再根据步骤S1中得到的所有参会人员身份信息，进行综合判断，初步确定发言人身份识别结果。

优选地，所述步骤S3中，若音频通道识别结果与声纹识别结果一致，分为以下两种情况：

若音频通道识别无识别结果，声纹识别结果为陌生人，则判断识别结果为陌生人；

若音频通道识别与声纹识别均有识别结果，则按此识别结果输出。

优选地，所述人脸样本数据库的建立方法为：

采集人脸样本数据，通过人工智能算法模型进行处理和训练，

进行人脸检测；

采用基于神经网络的深度学习算法进行人脸特征提取；

将提取到的特征向量分类构建样本数据集，形成算法模型数据库；

采集后续待识别人员的人脸信息，进行注册。

优选地，所述人脸检测包括判断人脸图像区域，剔除无用数据。

优选地，所述步骤S2中，进行声纹识别时，利用收集的声音信息与声纹数据库进行比对，所述声纹数据库的建立方法具体为：

采集声纹样本数据，通过人工智能算法模型进行处理和训练，

进行声纹信号预处理；

采用基于神经网络的深度学习算法进行声纹特征提取；

采集后续待识别人员的声纹信息，进行注册。

优选地，所述声纹信号预处理包括切除静音，消除造影，并且增强信道。

优选地，所述步骤S2中，音频通道识别或者声纹识别时，利用线性判别式分析，或者PLDA算法进行分类识别。

与现有技术相比，本发明的基于人工智能技术的会议发言人身份识别方法，具有如下有益效果：

(1)通过各种人工智能算法技术的合理运用，可以显著提高发言人身份识别的准确性；

(2)在会议进程中，自动、快速、动态地给出识别结果。

附图说明

图1表示本发明所述的一种基于人工智能技术的工前会发言人身份识别方法流程图。

具体实施方式

为了进一步理解本发明，下面结合实施例对本发明的实施方案进行描述，但是应当理解，这些描述只是为进一步说明本发明的特征和优点，而不是对本发明的限制。

本发明的实施例公开了一种基于人工智能技术的会议发言人身份识别方法，如图1所示，包括以下步骤：

若音频通道识别无识别结果，则按声纹识别结果输出；

当音频通道识别或声纹识别均存在识别结果，则：

步骤S4：根据输出结果，给出最终的发言人身份识别结果。

本发明的整个方法中，均由计算机自动化执行，在会议有人发言时快速、动态地反馈识别结果。

以下按照步骤，具体说明所述基于人工智能技术的会议发言人身份识别方法。

所述人脸样本数据库的建立方法为：

进行人脸检测；所述人脸检测包括判断人脸图像区域，剔除无用数据；

采用基于神经网络的深度学习算法进行人脸特征提取；

采集后续待识别人员的人脸信息，进行注册。

步骤S2：根据现场情况，将参会人员信息与音频通道按照编号进行随机绑定，形成发言人与音频通道的一一对应关系；会议过程中，若有人打开音频通道发言，则通过音频通道识别，初步判断当前发言人的身份；

具体地：

会议过程中，若有人打开音频通道发言，根据采集到的音频信息进行同步分析，将发言人声纹特征数据在声纹样本数据集中进行比对分析，得出相似度概率前2～5个人员身份识别结果，再根据步骤S1中得到的所有参会人员身份信息，进行综合判断，初步确定发言人身份识别结果。

优选地，会议过程中，若有人打开音频通道发言，利用声纹识别模块根据采集到的音频信息进行同步分析，将发言人声纹特征数据在声纹样本数据集中进行比对分析，得出相似度概率前三的3个人员身份识别结果，再根据步骤S1中得到的所有参会人员身份信息，进行综合判断，初步确定发言人身份识别结果。

进行声纹识别时，利用收集的声音信息与声纹数据库进行比对，所述声纹数据库的建立方法具体为：

进行声纹信号预处理；所述声纹信号预处理包括切除静音，消除造影，并且增强信道；

采用基于神经网络的深度学习算法进行声纹特征提取；

采集后续待识别人员的声纹信息，进行注册。

音频通道识别或者声纹识别时，利用线性判别式分析(LDA)，或者PLDA算法进行分类识别。

所述神经网络的深度学习算法可以选用MFCC、Filterbank、或者TDNN算法。

若音频通道识别结果与声纹识别结果一致，分为以下两种情况：

当音频通道识别或声纹识别任意一个存在无识别结果的情况，则：

若音频通道识别无识别结果，则按声纹识别结果输出；

当音频通道识别或声纹识别均存在识别结果，则：

若音频通道识别结果与声纹识别结果不一致，则根据音频信号强度是否高于设定阈值的判断结果分析，若高于设定阈值，则按音频通道识别结果输出；反之，若低于设定阈值，则按声纹识别结果输出。

步骤S4：根据输出结果，给出最终的发言人身份识别结果。

基于人工智能技术的工前会发言人身份识别方法主要利用三个模块：人脸识别模块、音频通道识别模块和声纹识别模块。通过人脸识别模块确认所有与会人员身份信息，可大致锁定发言人身份范围；通过音频通道识别模块，可在会议过程中动态识别打开的麦克风是否有音频信号传输，同时结合参会人员与麦克风对应关系表信息(会议开始时根据签到信息，将参会人员与其对应的麦克风编号进行绑定)，使用音频通道识别的方法实时判断当前发言人员身份；通过声纹识别模块，可对采集到的音频信息进行声纹识别，以实时判断当前发言人身份；最后，结合音频通道识别、声纹识别两种方法的识别结果，综合性判断发言人身份，作为最终识别结果输出。

以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于人工智能技术的会议发言人身份识别方法，其特征在于，包括以下步骤：

若音频通道识别无识别结果，则按声纹识别结果输出；

当音频通道识别或声纹识别均存在识别结果，则：

步骤S4：根据输出结果，给出最终的发言人身份识别结果。

2.根据权利要求1所述的基于人工智能技术的会议发言人身份识别方法，其特征在于，所述步骤S2中：

会议过程中，若有人打开音频通道发言，则同步分析判断所有音频通道传输的信号强度，识别出音频信号最强的音频通道编号，判断音频信号强度是否高于设定阈值，同时根据音频通道的同时根据音频通道与参会人员身份绑定对照信息，初步识别出当前发言人身份。

3.根据权利要求2所述的基于人工智能技术的会议发言人身份识别方法，其特征在于，所述步骤S2中，会议过程中，若有人打开音频通道发言，根据采集到的音频信息进行同步分析，将发言人声纹特征数据在声纹样本数据集中进行比对分析，得出相似度概率前2～5个人员身份识别结果，再根据步骤S1中得到的所有参会人员身份信息，进行综合判断，初步确定发言人身份识别结果。

4.根据权利要求3所述的基于人工智能技术的会议发言人身份识别方法，其特征在于，所述步骤S2中，会议过程中，若有人打开音频通道发言，利用声纹识别模块根据采集到的音频信息进行同步分析，将发言人声纹特征数据在声纹样本数据集中进行比对分析，得出相似度概率前三的3个人员身份识别结果，再根据步骤S1中得到的所有参会人员身份信息，进行综合判断，初步确定发言人身份识别结果。

5.根据权利要求1所述的基于人工智能技术的会议发言人身份识别方法，其特征在于，所述步骤S3中，若音频通道识别结果与声纹识别结果一致，分为以下两种情况：

6.根据权利要求1所述的基于人工智能技术的会议发言人身份识别方法，其特征在于，所述人脸样本数据库的建立方法为：

进行人脸检测；

采用基于神经网络的深度学习算法进行人脸特征提取；

采集后续待识别人员的人脸信息，进行注册。

7.根据权利要求6所述的基于人工智能技术的会议发言人身份识别方法，其特征在于，所述人脸检测包括判断人脸图像区域，剔除无用数据。

8.根据权利要求1所述的基于人工智能技术的会议发言人身份识别方法，其特征在于，所述步骤S2中，进行声纹识别时，利用收集的声音信息与声纹数据库进行比对，所述声纹数据库的建立方法具体为：

进行声纹信号预处理；

采用基于神经网络的深度学习算法进行声纹特征提取；

采集后续待识别人员的声纹信息，进行注册。

9.根据权利要求8所述的基于人工智能技术的会议发言人身份识别方法，其特征在于，所述声纹信号预处理包括切除静音，消除造影，并且增强信道。

10.根据权利要求1所述的基于人工智能技术的会议发言人身份识别方法，其特征在于，所述步骤S2中，音频通道识别或者声纹识别时，利用线性判别式分析，或者PLDA算法进行分类识别。