CN110853646B

CN110853646B - 会议发言角色的区分方法、装置、设备及可读存储介质

Info

Publication number: CN110853646B
Application number: CN201911145906.1A
Authority: CN
Inventors: 周楠楠; 杨海军; 徐倩
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2019-11-20
Filing date: 2019-11-20
Publication date: 2023-11-03
Anticipated expiration: 2039-11-20
Also published as: CN110853646A

Abstract

本发明公开了一种会议发言角色的区分方法、装置、设备及可读存储介质，该方法包括以下步骤：采集各参会人员所参与会议中的当前语音信息，并识别所述当前语音信息，生成第一文本信息；采集各所述参会人员的人脸信息和唇语信息，并在各所述人脸信息和各所述唇语信息之间形成关联关系；识别各所述唇语信息，生成第二文本信息；计算所述第一文本信息和各所述第二文本信息之间的相似度值，并根据各所述相似度值和所述关联关系，确定各所述参会人员中的当前发言角色。本发明由第一文本信息和各第二文本信息之间的相似度大小，来确定当前发言角色；有利于未采集声纹的临时参会人员参与会议，可对随时参会的各人员进行发言角色的区分。

Description

会议发言角色的区分方法、装置、设备及可读存储介质

技术领域

本发明涉及金融科技(Fintech)技术领域，尤其涉及一种会议发言角色的区分方法、装置、设备及可读存储介质。

背景技术

随着金融科技(Fintech)，尤其是互联网科技金融的不断发展，智能会议系统在金融领域中的应用越来越广泛，智能会议系统可对参会人员的发言进行记录，并生成为会议纪要。

在会议中具有多个参会人员的情况下，对参会人员发言的记录必然需要对发言的角色进行区分，当前的角色区分方式主要涉及到两种，其一通过麦克风区分信道的方式，其二通过声纹识别的方式。

其中，对于麦克风区分信道的方式需要参会人员各佩戴一个麦克风，这种方式智能化低且用户体验较差；而对于声纹识别的方式虽然智能化较高，但是一般需要提前采集参会人员的声纹，不利于未采集声纹的临时参会人员的参会，区分范围没有全面覆盖到该类临时参会人员。

发明内容

本发明的主要目的在于提供一种会议发言角色的区分方法、装置、设备及可读存储介质，旨在解决现有技术中区分会议发言角色的方式不能全面覆盖未采集声纹的临时参会人员的技术问题。

为实现上述目的，本发明提供一种会议发言角色的区分方法，所述会议发言角色的区分方法包括以下步骤：

采集各参会人员所参与会议中的的当前语音信息，并识别所述当前语音信息，生成第一文本信息；

采集各所述参会人员的人脸信息和唇语信息，并在各所述人脸信息和各所述唇语信息之间形成关联关系；

识别各所述唇语信息，生成第二文本信息；

计算所述第一文本信息和各所述第二文本信息之间的相似度值，并根据各所述相似度值和所述关联关系，确定各所述参会人员中的当前发言角色。

可选地，所述根据各所述相似度值和所述关联关系，确定各所述参会人员中的当前发言角色的步骤包括：

将各所述相似度值进行对比，确定各所述相似度值中的最大值，并将与所述最大值对应的唇语信息确定为目标唇语信息；

根据所述关联关系，确定与所述目标唇语信息对应的目标人脸信息，并将与所述目标人脸信息对应的参会人员确定为当前发言角色。

可选地，所述计算所述第一文本信息和各所述第二文本信息之间的相似度值的步骤包括：

将所述第一文本信息和各所述第二文本信息均传输到预设模型中，生成第一文本向量和第二文本向量组；

根据预设算法，将所述第二文本向量组中的各元素逐一和所述第一文本向量进行计算，生成所述第一文本信息和各所述第二文本信息之间的相似度值。

可选地，所述采集各所述参会人员所参与会议中的的当前语音信息的步骤包括：

采集各所述参会人员所参与会议中的的声音信号，并将各所述声音信号和预设阈值对比，确定各所述声音信号中大于所述预设阈值的目标声音信号；

监测各所述目标声音信号的持续时长，对所述持续时长小于预设时长的目标声音信号进行过滤，并将所述持续时长大于或等于预设时长的目标声音信号确定为当前语音信息进行采集。

可选地，所述采集各参会人员的人脸信息和唇语信息的步骤包括：

获取各所述参会人员的视频信息，并从各所述视频信息中提取出各所述参会人员的人脸信息；

识别各所述人脸信息中的唇部位置，并从所述视频信息中提取与各所述唇部位置对应的唇部图像作为唇语信息。

可选地，所述确定各所述参会人员中的当前发言角色的步骤之后包括：

读取所述当前发言角色的身份信息，并从所述当前语音信息中提取声纹信息；

将所述身份信息和所述声纹信息进行关联，生成身份声纹对，并将所述身份声纹对保存到预设声纹库中。

可选地，所述识别所述当前语音信息，生成第一文本信息的步骤之前包括：

提取所述当前语音信息中的待识别声纹信息，并判断预设声纹库中是否存在与所述待识别声纹信息对应的身份声纹对；

若存在与所述待识别声纹信息对应的身份声纹对，则根据对应的身份声纹对，确定各所述参会人员中的当前发言角色；

所述识别所述当前语音信息，生成第一文本信息，包括：

若不存在与所述待识别声纹信息对应的身份声纹对，则识别所述当前语音信息，生成第一文本信息。

进一步地，为实现上述目的，本发明还提供一种会议发言角色的区分装置，所述会议发言角色的区分装置包括：

识别模块，用于采集各参会人员所参与会议中的当前语音信息，并识别所述当前语音信息，生成第一文本信息；

采集模块，用于采集各所述参会人员的人脸信息和唇语信息，并在各所述人脸信息和各所述唇语信息之间形成关联关系；

生成模块，用于识别各所述唇语信息，生成第二文本信息；

确定模块，用于计算所述第一文本信息和各所述第二文本信息之间的相似度值，并根据各所述相似度值和所述关联关系，确定各所述参会人员中的当前发言角色。

进一步地，为实现上述目的，本发明还提供一种会议发言角色的区分设备，所述会议发言角色的区分设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的会议发言角色的区分程序，所述会议发言角色的区分程序被所述处理器执行时实现如上述所述的会议发言角色的区分方法的步骤。

进一步地，为实现上述目的，本发明还提供一种可读存储介质，所述可读存储介质上存储有会议发言角色的区分程序，所述会议发言角色的区分程序被处理器执行时实现如上所述的会议发言角色的区分方法的步骤。

本发明的会议发言角色的区分方法，先采集各参会人员的当前语音信息，并对该采集的当前语音信息进行识别，生成第一文本信息；再采集各参会人员的人脸信息和唇语信息，在各人脸信息和各所述唇语信息之间形成关联关系，并识别各唇语信息，生成第二文本信息；此后，对第一文本信息和各第二文本信息之间的相似度值进行计算，以依据计算的各相似度值和关联关系，确定各参会人员中的当前发言角色。因第一文本信息反映了会议中的当前说话内容，第二文本信息反映了参会人员各自的说话内容，第一文本信息和各第二文本信息之间的相似度大小，表征了各参会人员与当前说话内容的相关性大小，由此确定当前发言角色；避免了会议受提前采集参会人员声纹信息的限制，有利于未采集声纹的临时参会人员参与会议，可对随时参会的各人员进行发言角色的区分。

附图说明

图1为本发明会议发言角色的区分设备实施例方案涉及的设备硬件运行环境的结构示意图；

图2为本发明会议发言角色的区分方法第一实施例的流程示意图；

图3为本发明会议发言角色的区分装置较佳实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明提供一种会议发言角色的区分设备，参照图1，图1为本发明会议发言角色的区分设备实施例方案涉及的设备硬件运行环境的结构示意图。

如图1所示，该会议发言角色的区分设备可以包括：处理器1001，例如CPU，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。

本领域技术人员可以理解，图1中示出的会议发言角色的区分设备的硬件结构并不构成对会议发言角色的区分设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及会议发言角色的区分程序。其中，操作系统是管理和控制会议发言角色的区分设备与软件资源的程序，支持网络通信模块、用户接口模块、会议发言角色的区分程序以及其他程序或软件的运行；网络通信模块用于管理和控制网络接口1004；用户接口模块用于管理和控制用户接口1003。

在图1所示的会议发言角色的区分设备硬件结构中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；处理器1001可以调用存储器1005中存储的会议发言角色的区分程序，并执行以下操作：

采集各参会人员所参与会议中的当前语音信息，并识别所述当前语音信息，生成第一文本信息；

识别各所述唇语信息，生成第二文本信息；

进一步地，所述根据各所述相似度值和所述关联关系，确定各所述参会人员中的当前发言角色的步骤包括：

进一步地，所述计算所述第一文本信息和各所述第二文本信息之间的相似度值的步骤包括：

进一步地，所述采集各所述参会人员所参与会议中的当前语音信息的步骤包括：

采集各所述参会人员所参与会议中的声音信号，并将各所述声音信号和预设阈值对比，确定各所述声音信号中大于所述预设阈值的目标声音信号；

进一步地，所述采集各参会人员的人脸信息和唇语信息的步骤包括：

进一步地，所述确定各所述参会人员中的当前发言角色的步骤之后，处理器1001可以调用存储器1005中存储的会议发言角色的区分程序，并执行以下操作：

进一步地，所述识别所述当前语音信息，生成第一文本信息的步骤之前，处理器1001可以调用存储器1005中存储的会议发言角色的区分程序，并执行以下操作：

所述识别所述当前语音信息，生成第一文本信息，包括：

本发明会议发言角色的区分设备的具体实施方式与下述会议发言角色的区分方法各实施例基本相同，在此不再赘述。

本发明还提供一种会议发言角色的区分方法。

参照图2，图2为本发明会议发言角色的区分方法第一实施例的流程示意图。

本发明实施例提供了会议发言角色的区分方法的实施例，需要说明的是，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。具体地，本实施例中的会议发言角色的区分方法包括：

步骤S10，采集各参会人员所参与会议中的当前语音信息，并识别所述当前语音信息，生成第一文本信息。

本实施例中的会议发言角色的区分方法可应用于智能会议系统，智能会议系统设置有视频装置、语音装置、人脸识别模块、唇语识别模块、语音识别模块和控制装置。控制装置与视频装置、语音装置、人脸识别模块、唇语识别模块、语音识别模块均通信连接；通过控制装置的统一控制，由视频装置和语音装置分别采集会议中各参会人员的视频信息和语音信息，并由人脸识别模块和唇语识别模块对视频信息进行识别处理，由语音识别模块对语音信息进行识别处理，控制装置依据处理结果来区分会议参会人员中的当前发言人员。具体地，当具有开会需求时，由会议主持人启动智能会议系统，控制装置在检测到该启动操作后，激活视频装置和语音装置。当侦测到会议中任意参会人员的发言声音时，控制语音装置将该发言声音采集为各参会人员所参与会议中的当前语音信息，并由语音识别模块对该采集的当前语音信息进行识别，将当前语音信息转化为第一文本信息。其中，识别转化可通过预先训练的声音文字库实现；预先设定表达各种文字含义的声音，并针对各声音标记文字，形成声音与文字之间的训练样本，依据该训练样本进行训练，形成声音文字库。识别时将采集的当前语音信息进行分段处理，得到声音片段，将各声音片段和声音文字库对比，确定与各声音片段对应的文字片段，再将各文字片段进行合并，生成与当前语音信息对应的第一文本信息。

考虑到会议中可能存在多个参会人员同时说话的情况，此时需要从同时说话的多个声音中区分出主声音作为当前语音信息进行采集，而将其他声音过滤掉。具体地，采集各参会人员所参与会议中的当前语音信息的步骤包括：

步骤S11，采集各所述参会人员所参与会议中的声音信号，并将各所述声音信号和预设阈值对比，确定各所述声音信号中大于所述预设阈值的目标声音信号；

步骤S12，监测各所述目标声音信号的持续时长，对所述持续时长小于预设时长的目标声音信号进行过滤，并将所述持续时长大于或等于预设时长的目标声音信号确定为当前语音信息进行采集。

进一步地，预先设定有表征声音大小的预设阈值，在采集到各参会人员在所参与会议中的声音信号之后，将各声音信号和该预设阈值对比，判断各声音信号和预设阈值之间的大小关系，将各声音信号中大于预设阈值的声音信号确定为目标声音信号。其中，目标声音信号可能来源于多个参会人员，如会议中的分组讨论阶段；也可能来源于单个参会人员，如会议中的单独成员发言阶段。

可理解地，通常参会人员的发言时长会超过一定时长，预先设定有判定时间长短的预设时长；若参会人员的发言时长大于该预设时长，则将该发言的声音作为主声音，若参会人员的发言时长不大于该预设时长，则将该发言的声音作为杂音过滤。在确定出满足声音大小要求的目标声音信号后，对各目标声音信号的持续时长进行监控，其中持续时长依据说话的停顿点确定，即当检测到目标声音信号中出现停顿点时，则将该目标声音信号开始的时间点到该停顿点之间的时长作为目标声音信号的持续时长。

将各目标声音信号的持续时长和预设时长对比，判断各持续时长和预设时长之间的大小关系；若持续时长小于或等于预设时长，则该持续时长对应的目标声音信号为无效的声音信号，而对其进行过滤剔除操作；若持续时长大于预设时长，则该持续时长对应的目标声音信号为有效的声音信号，而将其确定为当前语音信息进行采集。由此所采集的当前语音信息可能来源于多个参会人员，也可能来源于单个参会人员；对于多个参会人员的当前语音信息均进行识别，生成多个第一文本信息。

步骤S20，采集各所述参会人员的人脸信息和唇语信息，并在各所述人脸信息和各所述唇语信息之间形成关联关系；

进一步地，控制装置控制摄像装置对各参会人员的视频信息进行采集，并从采集的视频信息中提取出各参会人员的人脸信息和唇语信息。此后对各人脸信息和唇语信息进行关联，形成关联关系，表征各参会人员具有的人脸信息和唇语信息。其中，采集各所述参会人员的人脸信息和唇语信息的步骤包括：

步骤S21，获取各所述参会人员的视频信息，并从各所述视频信息中提取出各所述参会人员的人脸信息；

步骤S22，识别各所述人脸信息中的唇部位置，并从所述视频信息中提取与各所述唇部位置对应的唇部图像作为唇语信息。

更进一步地，摄像装置将采集的各参会人员的视频信息发送到控制装置，由控制装置将各项视频信息发送到人脸识别模块进行处理，或者调用人脸识别模块对该各项视频信息进行处理。人脸识别模块将各视频信息进行分帧操作，将各视频信息均划分为多个视频帧，此后针对各视频信息的视频帧进行识别，确定各视频信息的视频帧中完整、清晰体现人脸特征的目标帧。各视频信息的目标帧即为从各视频信息中提取出各参会人员的人脸信息，表征参与会议的各个参会人员。

进一步地，人脸识别模块还对各人脸信息中的唇部位置进行识别，在确定各参会人员的唇部位置后，调用唇语识别模块提取唇部位置在视频信息中的唇部图像作为唇语信息。将各参会人员的视频信息分解为多个视频帧，按照各视频帧在视频信息的时间先后顺序，截取各视频帧中唇部位置的唇部图像；将各唇部图像按照时间先后顺序排列组合形成唇语信息，表征各参会人员发言时通过唇部所反映的语言信息，该反映的语言信息和各参会人员的发言内容具有一致性。

步骤S30，识别各所述唇语信息，生成第二文本信息；

更进一步地，唇语识别模块中预先训练有用于对唇语进行识别的识别模型，预先设定表达各种文字含义的的唇形图片，并针对各唇形图片标记文字，形成唇形图片与文字之间的训练样本；将该训练样本传输到初始模型进行训练，形成识别模型。识别时将作为唇语信息的多张唇部图像传输到识别模型中，由识别模型进行识别，得到各唇部图像对应的文字，再将各文字依据各唇部图像的排列顺序组合，形成与唇语信息对应的第二文本信息。其中每个参会人员的唇语信息均对应各自的第二文本信息，对于参会人员中未发言的人员，作为其唇语信息的多张唇部图片之间没有变化，且不存在对应的文字，而使得其第二文本信息为空值。

步骤S40，计算所述第一文本信息和各所述第二文本信息之间的相似度值，并根据各所述相似度值和所述关联关系，确定各所述参会人员中的当前发言角色。

可理解地，第一文本信息体现了会议中当前发言者的发言内容，而第二文本信息体现了会议中所有参会人员的发言内容；当所有参会人员的发言内容中某一参会人员的发言内容和当前发言者的发言内容一致，则说明该参会人员即为当前发言角色。为了确定发言内容的一致性，计算第一文本信息和各第二文本信息之间的相似度值，相似度值越大表征第一文本信息和第二文本信息之间的相似程度越高，第二文本信息体现的发言内容与第一文本信息体现的发言内容越一致。

其中，对于存在多个第一文本信息的情形，逐一将各第一文本信息和各第二文本信息进行相似度值计算；在计算得到第一文本信息与各第二文本信息之间的相似度值后，读取下一个第一文本信息进行计算，得到该第一文本信息和各第二文本信息之间的相似度值，直到各第一文本信息均和各第二文本信息计算完成。具体地，计算第一文本信息和各第二文本信息之间的相似度值的步骤包括：

步骤S41，将所述第一文本信息和各所述第二文本信息均传输到预设模型中，生成第一文本向量和第二文本向量组；

步骤S42，根据预设算法，将所述第二文本向量组中的各元素逐一和所述第一文本向量进行计算，生成所述第一文本信息和各所述第二文本信息之间的相似度值。

本实施例中预先设置有对文本信息进行处理的预设模型，该预设模型可以是以Word2vec为基础的词向量模型。Word2vec是一个计算word vector的开源工具，可在百万数量级的词典和上亿的数据集上进行高效地训练得到词向量(word embedding)，以度量词与词之间的相似性。本实施例基于预设模型对第一文本信息和各第二文本信息进行分词处理，得到第一文本信息的第一分词和各第二文本信息的第二分词，进而对第一分词和各第二分词进行向量化，得到第一文本信息和各第二文本信息在预设维度上的向量值；将第一文本信息的向量值作为第一文本向量，将各第二文本信息的向量值作为向量元素形成为第二文本向量组。如第一文本信息为Ts，各第二文本信息为Ti(i＝1、2、3···)，经预设模型分词处理Ts＝[A0、B0、C0]，T1＝[A1、B1、C1]、T2＝[A2、B2、C2]···，预设模型中的向量化函数为W＝g(x)，预先维度为3，经该函数分别对第一分词A0、B0、C0进行向量化处理，得到对应的词向量分别为A＝[-0.2 0.9 0.7]，B＝[-0.5 0.7 0.6],C＝[0.2-0.3 0.5]，进而对该各项词向量进行均值处理，得到第一文本信息Ts的向量值，即第一文本向量。同样以此方式得到各第二文本信息T1、T2、T3···的向量值，并将各第二文本信息的向量值作为向量元素形成集合，该集合即为第二文本向量组。

需要说明的是，对词向量的均值处理可以是加权平均处理，针对不同的分词设定不同权重，以表征文本中各分词的重要程度差异；其中权重可通过预先设定，也可以通过TF-IDF算法求得。TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术，TF意思是词频(Term Frequency)，IDF意思是逆文本频率指数(Inverse Document Frequency)；用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度，字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

进一步地，预先设定有用于计算相似度的预设算法，该预设算法可以是欧式距离、余弦相似度、汉明距离等算法中的任意一项，本实施例以余弦相似度算法为例加以说明。

具体地，余弦相似度算法以公式表征，该公式中si表示各相似度值，Ws表示第一文本向量，Wi(i＝1、2、3···)表示各第二文本向量，cos表示余弦函数。

将确定的第一文本向量和各第二文本向量中的各元素逐一传输到该预设公式中，经过计算即可生成第一文本信息和各第二文本信息之间的相似度值。该相似度值表征了第一文本信息和各第二文本信息之间的相似程度，确定其中表征相似度程度最高的相似度值，由该相似程度最高的相似度值与当前语音信息最为一致的唇语信息，进而由人脸信息和唇语信息之间的关联关系，来确定当前发言角色。具体地，根据各相似度值和关联关系，确定各参会人员中的当前发言角色的步骤包括：

步骤S43，将各所述相似度值进行对比，确定各所述相似度值中的最大值，并将与所述最大值对应的唇语信息确定为目标唇语信息；

步骤S44，根据所述关联关系，确定与所述目标唇语信息对应的目标人脸信息，并将与所述目标人脸信息对应的参会人员确定为当前发言角色。

在各相似度值之间进行对比，确定其中的最大值，查找生成该最大值的第二文本信息，再查找生成该第二文本信息的唇语信息，将其作为目标唇语信息。进而将目标唇语信息和关联关系对比，确定目标唇语信息在关联关系中所对应的目标人脸信息，该目标人脸信息所来源的参会人员即为各参会人员中进行发言的当前发言角色，实现对当前发言角色的区分。

进一步地，基于本发明会议发言角色的区分方法的第一实施例，提出本发明会议发言角色的区分方法第二实施例。

所述会议发言角色的区分方法第二实施例与所述会议发言角色的区分方法第一实施例的区别在于，所述确定各所述参会人员中的当前发言角色的步骤之后包括：

步骤S50，读取所述当前发言角色的身份信息，并从所述当前语音信息中提取声纹信息；

步骤S60，将所述身份信息和所述声纹信息进行关联，生成身份声纹对，并将所述身份声纹对保存到预设声纹库中。

本实施例为了提高发言角色的区分效率，在从各参会人员中区分出当前发言角色之后，对当前发言角色的身份信息进行读取，该身份信息至少包括姓名、职位、邮箱、人脸图像等。同时对当前声音信息中的声纹信息进行提取，当前声音信息来源于当前发言角色，从当前声音信息中提取表征当前发言角色区别于其他人的声纹特征，作为其声纹信息。

进一步地，将身份信息和声纹信息进行关联绑定，生成身份声纹对，表征当前发言角色所具有的身份信息和声纹信息。将该身份声纹对存储到预先设置的预设声纹库中，以便于后续依据预设声纹库中的身份声纹对来区分发言角色。

更进一步地，本实施例识别当前语音信息，生成第一文本信息的步骤之前，还包括：

步骤a，提取所述当前语音信息中的待识别声纹信息，并判断预设声纹库中是否存在与所述待识别声纹信息对应的身份声纹对；

步骤b，若存在与所述待识别声纹信息对应的身份声纹对，则根据对应的身份声纹对，确定各所述参会人员中的当前发言角色；

所述识别所述当前语音信息，生成第一文本信息，包括：

步骤c，若不存在与所述待识别声纹信息对应的身份声纹对，则识别所述当前语音信息，生成第一文本信息。

可理解地，本实施例中的预设声纹库中所存储的身份声纹对可直接通过声纹对身份进行识别，从而在采集到各参会人员所参与会议中的当前语音信息后，优先通过预设声纹库对当前发言角色进行区分。具体地，控制装置在接收到语音装置所采集的当前语音信息后，从其中提取出待识别声纹信息，并将提取的待识别声纹信息和预设声纹库的各项身份声纹进行对比，判断预设声纹库中是否存在与待识别声纹信息对应的身份声纹对。若预设声纹库中某一身份声纹对的声纹信息和该待识别声纹信息一致，则判定预设声纹库中存在与待识别声纹信息对应的身份声纹对，读取组成该身份声纹对中的身份信息。同时对参会人员的人脸图像进行采集，将读取的身份信息中的人脸图像和采集的各人脸图像进行对比，经对比一致的人脸图像所来源的参会人员即为与待识别语音信息对应的发言角色。由此确定各参会人员中的当前发言角色，对其发言内容进行记录；在会议结束后，将记录的各项发言内容形成会议纪要，并通过用户信息中的邮箱发送到相应的参会人员。

更进一步地，若经判断确定预设声纹库中不存在与待识别声纹信息对应的身份声纹对，则说明该当前语音信息所来源的参会人员此前尚未通过智能会议系统参加过会议，预设声纹库中没有记录其声纹信息。此时对当前语音信息进行识别，生成第一文本信息，并采集各参会人员的人脸信息和唇语信息形成关联信息，对各唇语信息进行识别生成第二文本信息；通过第一文本信息和各第二文本信息之间的相似度值，以及关联关系，来确定与当前语音信息对应的发言角色，即各参会人员中的当前发言角色。此后对当前发言角色的发言内容进行记录，并在会议结束后，将记录的各项发言内容形成为会议纪要。

本实施通过将从当前语音信息提取的声纹信息和身份信息关联保存到预设声纹库中，便于后续通过预设声纹库进行发言角色区分；关联保存的声纹信息不需要特定的事先采集操作，方便了参会人员的使用；在实现对未采集声纹的参会人员进行全面区分同时，提高了区分的效率。

本发明还提供一种会议发言角色的区分装置。

参照图3，图3为本发明会议发言角色的区分装置第一实施例的功能模块示意图。所述会议发言角色的区分装置包括：

识别模块10，用于采集各参会人员所参与会议中的当前语音信息，并识别所述当前语音信息，生成第一文本信息；

采集模块20，用于采集各所述参会人员的人脸信息和唇语信息，并在各所述人脸信息和各所述唇语信息之间形成关联关系；

生成模块30，用于识别各所述唇语信息，生成第二文本信息；

确定模块40，用于计算所述第一文本信息和各所述第二文本信息之间的相似度值，并根据各所述相似度值和所述关联关系，确定各所述参会人员中的当前发言角色。

进一步地，所述确定模块40包括：

对比单元，用于将各所述相似度值进行对比，确定各所述相似度值中的最大值，并将与所述最大值对应的唇语信息确定为目标唇语信息；

确定单元，用于根据所述关联关系，确定与所述目标唇语信息对应的目标人脸信息，并将与所述目标人脸信息对应的参会人员确定为当前发言角色。

进一步地，所述确定模块40还包括：

传输单元，用于将所述第一文本信息和各所述第二文本信息均传输到预设模型中，生成第一文本向量和第二文本向量组；

计算单元，用于根据预设算法，将所述第二文本向量组中的各元素逐一和所述第一文本向量进行计算，生成所述第一文本信息和各所述第二文本信息之间的相似度值。

进一步地，所述识别模块10包括：

采集单元，用于采集各所述参会人员所参与会议中的声音信号，并将各所述声音信号和预设阈值对比，确定各所述声音信号中大于所述预设阈值的目标声音信号；

监测单元，用于监测各所述目标声音信号的持续时长，对所述持续时长小于预设时长的目标声音信号进行过滤，并将所述持续时长大于或等于预设时长的目标声音信号确定为当前语音信息进行采集。

进一步地，所述采集模块20包括：

获取单元，用于获取各所述参会人员的视频信息，并从各所述视频信息中提取出各所述参会人员的人脸信息；

识别单元，用于识别各所述人脸信息中的唇部位置，并从所述视频信息中提取与各所述唇部位置对应的唇部图像作为唇语信息。

进一步地，所述会议发言角色的区分装置还包括：

读取模块，用于读取所述当前发言角色的身份信息，并从所述当前语音信息中提取声纹信息；

保存模块，用于将所述身份信息和所述声纹信息进行关联，生成身份声纹对，并将所述身份声纹对保存到预设声纹库中。

进一步地，所述会议发言角色的区分装置还包括：

提取模块，用于提取所述当前语音信息中的待识别声纹信息，并判断预设声纹库中是否存在与所述待识别声纹信息对应的身份声纹对；

判断模块，用于若存在与所述待识别声纹信息对应的身份声纹对，则根据对应的身份声纹对，确定各所述参会人员中的当前发言角色；

所述识别模块，还用于若不存在与所述待识别声纹信息对应的身份声纹对，则识别所述当前语音信息，生成第一文本信息。

本发明会议发言角色的区分装置具体实施方式与上述会议发言角色的区分方法各实施例基本相同，在此不再赘述。

此外，本发明实施例还提出一种可读存储介质。

可读存储介质上存储有会议发言角色的区分程序，会议发言角色的区分程序被处理器执行时实现如上所述的会议发言角色的区分方法的步骤。

本发明可读存储介质具体实施方式与上述会议发言角色的区分方法各实施例基本相同，在此不再赘述。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，这些均属于本发明的保护之内。

Claims

1.一种会议发言角色的区分方法，其特征在于，所述会议发言角色的区分方法包括以下步骤：

识别各所述唇语信息，生成第二文本信息；

计算所述第一文本信息和各所述第二文本信息之间的相似度值，并根据各所述相似度值和所述关联关系，确定各所述参会人员中的当前发言角色；

所述根据各所述相似度值和所述关联关系，确定各所述参会人员中的当前发言角色的步骤包括：

2.如权利要求1所述的会议发言角色的区分方法，其特征在于，所述计算所述第一文本信息和各所述第二文本信息之间的相似度值的步骤包括：

3.如权利要求1所述的会议发言角色的区分方法，其特征在于，所述采集各所述参会人员所参与会议中的当前语音信息的步骤包括：

4.如权利要求1所述的会议发言角色的区分方法，其特征在于，所述采集各参会人员的人脸信息和唇语信息的步骤包括：

5.如权利要求1-4任一项所述的会议发言角色的区分方法，其特征在于，所述确定各所述参会人员中的当前发言角色的步骤之后包括：

6.如权利要求1-4任一项所述的会议发言角色的区分方法，其特征在于，所述识别所述当前语音信息，生成第一文本信息的步骤之前包括：

所述识别所述当前语音信息，生成第一文本信息，包括：

7.一种会议发言角色的区分装置，其特征在于，所述会议发言角色的区分装置包括：

生成模块，用于识别各所述唇语信息，生成第二文本信息；

确定模块，用于计算所述第一文本信息和各所述第二文本信息之间的相似度值，并根据各所述相似度值和所述关联关系，确定各所述参会人员中的当前发言角色；

其中，所述确定模块包括：

8.一种会议发言角色的区分设备，其特征在于，所述会议发言角色的区分设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的会议发言角色的区分程序，所述会议发言角色的区分程序被所述处理器执行时实现如权利要求1-6中任一项所述的会议发言角色的区分方法的步骤。

9.一种可读存储介质，其特征在于，所述可读存储介质上存储有会议发言角色的区分程序，所述会议发言角色的区分程序被处理器执行时实现如权利要求1-6中任一项所述的会议发言角色的区分方法的步骤。