CN113327619A

CN113327619A - 一种基于云—边缘协同架构的会议记录方法及系统

Info

Publication number: CN113327619A
Application number: CN202110570403.XA
Authority: CN
Inventors: 周晓天; 翟华振; 张海霞; 袁东风
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2021-02-26
Filing date: 2021-05-25
Publication date: 2021-08-31
Anticipated expiration: 2041-05-25
Also published as: CN113327619B

Abstract

本发明涉及一种基于云—边缘协同架构的会议记录方法及系统，该系统包括云服务器、边缘服务器和多个客户端；会议前首先构建参与者音频数据集，训练声纹识别模型。会议时客户端录制会议视频或音频，然后上传音频到边缘服务器，边缘服务器使用声纹识别结果对音频进行分割，然后上传到云服务器进行语音识别，最终由边缘服务器汇总识别结果并整理为ASS或SRT标准字幕文件和文本文件并返回客户端，实现会议记录。该记录方法可以提高会议记录的准确率、安全性和隐私性。

Description

一种基于云—边缘协同架构的会议记录方法及系统

技术领域

本发明涉及一种基于云—边缘协同架构的会议记录方法及系统，属于人工智能技术领域。

背景技术

会议是一个团队交流思想的重要过程，许多重要的会议需要完整记录下来，记录方法是一道难题。人工整理文字虽然能最大限度保证准确性但是费时费力，录制音频或视频存储可以保证记录的完备性但是不方便检索。

在会议中往往有多位角色发言，说话人的识别问题又给会议记录人员带来了很大的挑战。此外，在会议中经常出现说话被打断的情况，通常语音识别不能处理这种情况，而会当作同一句话，从而导致识别结果出现错误。

说话人识别技术又称声纹识别，是根据语音对说话人进行区分，从而进行说话人身份识别和认证的一种生物识别技术。声纹是指通过特性算法从音频中提取出的一段数字摘要，可以反映说话人声音的许多特征，甚至可以由声纹还原说话人的声音，因此在会议记录中对于声纹的隐私保护也非常重要。

现有的智能会议记录系统多采用云—端架构，即用户需要上传带标签的语音数据到云服务器，而近年来网络数据泄露事件数见不鲜，数据安全性难以保证。

中国专利文献CN112468761A公开了一种智能会议记录系统，包括控制模块，包括布置会议现场的会议装置；会议装置包括音频录入模块，存储模块还包括用于传输远程会议数据的远程连接模块；还包括声纹识别模块，声纹识别模块用于识别声纹信息，生成声纹标签；还包括视频采集模块，视频采集模块用于采集通过无线或视频接口投放的视频音频数据；还包括会议纪要处理模块，会议纪要处理模块接收声纹识别模块输出的声纹标签，会议纪要处理模块接收音频录入模块语音信息转化成文字信息并记录在对应身份标签之后，会议纪要处理模块接收视频采集模块视频数据存储并进行图像抓取并记录在不同声纹标签后生成会议纪要。但是，该专利中声纹识别模块依赖于声源定位模块，当说话人位置发生变化时可能会影响声纹识别效果。另外，该专利采用的是云—端架构，会议视频会议录音以及所生成的会议纪要内容以及声纹标签存储在云端数据库，数据安全方面存在潜在的风险。

发明内容

针对现有技术的不足，本发明提供了一种基于云—边缘协同架构的会议记录方法，该方法基于云—边缘协同架构，在边缘服务器进行声纹识别，让数据隐私保护变得更具操作性。语音录制在本地的客户端，计算量较小、隐私要求较高的声纹识别在边缘服务器，而不经过云服务器，避免了潜在的数据劫持风险，提高了隐私性和安全性。

本发明还提供了一种基于云—边缘协同架构的会议记录系统。

术语解释：

1.ResNet-34网络：一种用于特征提取的深度学习网络，多用于图像识别。

2.UIS-RNN网络：无界交叉状态递归神经网络的简称，解决了序列数据的分段和聚类问题，可以将序列数据的特征提取为与时间无关的数据。

本发明的技术方案为：

一种基于云—边缘协同架构的会议记录方法，用于会议记录，得到视频文件或音频文件、字幕文件和记录说话人及说话内容的文本文件；具体步骤包括：

(1)在客户端，录制并存储会议的音频或视频，并将音频或视频提取得到的音频上传到边缘服务器；

(2)在边缘服务器中，将上传的音频分割为音频片段；

(3)在边缘服务器中，使用预训练的声纹提取模型从音频片段的中提取出声纹特征，得到每一个音频片段的声纹特征向量d-vector；

(4)使用训练好的声纹识别模型识别每个音频片段的说话人；

(5)基于识别出的说话人，再将原始音频分割为对应说话人的音频片段；

(6)将步骤(5)分割得到的音频片段上传到云服务器进行语音识别，云服务器再将语音识别的结果传输给边缘服务器；

(7)边缘服务器结合步骤(6)得到的语音识别的结果和步骤(4)得到的声纹识别的结果，生成标准字幕文件和文本文件，得到会议记录；然后将会议记录传输到客户端；文本文件实时返回到客户端，标准字幕文件在会议记录结束后返回给客户端；标准字幕文件的文件格式为ASS或SRT。

(8)客户端存储会议记录。

根据本发明优选的，步骤(1)中，当在客户端录制的是视频时，则使用ffmpeg提取音频，再将提取得到的音频上传到边缘服务器。

根据本发明优选的，步骤(3)中，声纹提取模型的预训练过程为：

3-1、构建声纹提取模型；声纹提取模型包括依次连接的ResNet-34网络、NetVLAD层、全连接(Dense)层和softmax层，

ResNet-34网络是残差网络，输入依次经过一个卷积核大小为7的卷积层、一个池化层，3个尺寸为32、卷积核大小为3的残差块，4个尺寸为64卷积核、大小为3的残差块，6个尺寸为128、卷积核大小为3的残差块，3个尺寸为256、卷积核大小为3的残差块，总计34层；两个卷积层构成所述残差块；

NetVLAD层的网络层输出V(j,k)的计算方法如式(I)所示：

式(I)中，j是样本索引，k是类别索引，i,k'是求和索引，K是样本说话人总数，x_i表示NetVLAD层的输入，a_k,b_k,c_k均为本层网络待训练的参数；

3-2、构建语音样本数据集：语音样本数据集包括说话人音频和标签；音频长度不必相同，说话人也不必为会议参与者，这部分数据仅用于训练声纹特征提取模型；语音样本数据集通过网络公开的VoxCeleb1或者VoxCeleb2数据集组成语音样本数据集，或通过收集说话人音频和标签得到语音样本数据集；所述语音样本数据集包含大量说话人音频和标签，音频长度不必相同，说话人也不必为会议参与者，这部分数据仅用于训练声纹特征提取模型。

3-3、将音频进行傅里叶变换得到频谱数据；

3-4、训练声纹提取模型：

将步骤3-3得到的频谱数据和标签输入ResNet-34网络提取特征，得到包含声纹特征的时间序列数据，再经过NetVLAD层提取时间序列特征，从时间序列数据中得到与时间无关的特征数据，NetVLAD层将时间序列数据特征提取问题转化为分类问题，然后再经过全连接层融合特征，再经过softmax层做归一化处理，得到长度为512的包含声纹特征的向量即d-vector；

使用Adam或随机梯度下降法训练声纹提取模型，即更新网络层中所有权重参数使损失函数值减小，当声纹提取模型判断准确率达到90％时，停止训练。

所述声纹特征提取网络的结构基于ResNet-34网络，加入音频数据预处理和时间序列特征提取使其更适合处理音频数据。

根据本发明优选的，步骤(4)中，声纹识别模型的训练过程为：

4-1、构建声纹识别模型数据集，具体包括：

a、客户端录制会议参与者的音频，并标注说话者，音频内容可以是任意读新闻或者文章中的一段文字，每位参与者音频样本的内容无需一致，长度也无需一致；

b、客户端压缩并加密音频，然后上传到边缘服务器；

c、分割音频数据：将音频分割为设定采样长度的片段，当最后片段的长度不足采样的长度，则末尾加0补足；例如，设定采样长度为400采样，也可以取其他值；采样是数字音频长度的最小单位，通常说的采样率16000表示每秒采样16000次，在此采样率下，400采样即为400/16000＝0.025秒；

4-2、先将分割后的音频数据进行傅里叶变换得到频谱数据；

4-3、使用训练好的声纹提取模型进行提取得到对应的声纹特征向量d-vector；

4-4、构建声纹识别模型，声纹识别模型为UIS-RNN网络，UIS-RNN网络含两层GRU循环神经网络；

4-5、训练声纹识别模型：将步骤4-3得到的声纹特征向量d-vector作为声纹识别模型的输入，标签即说话人作为声纹识别模型的输出；使用梯度下降算法进行训练，当识别准确率达到90％时，停止训练。

根据本发明优选的，步骤(6)中，使用PocketSphinx库实现语音识别，将边缘服务器上传的音频片段识别为文字，并返回边缘服务器。

根据本发明优选的，步骤(8)还包括：根据需要选择是否将声纹识别模型加密存储在边缘服务器中。

一种基于云—边缘协同架构的会议记录系统，用于实现基于云—边缘协同架构的会议记录方法，该系统包括云服务器、边缘服务器和若干个客户端；客户端与边缘服务器相连接，边缘服务器与云服务器相连接；

客户端用于录制会议的音频或视频，然后将录制会议的音频或视频存储在客户端，已将音频或提取得到的音频上传到边缘服务器；

边缘服务器包括音频处理模块、声纹提取模块、声纹识别模块、模型构建模块、模型存储模块和记录构建模块；

模型构建模块用于训练的声纹提取模型和声纹识别模型，并将训练的声纹提取模型和声纹识别模型传输给模型存储模块；

模型存储模块用于加密并存储训练好的声纹提取模型和声纹识别模型；

音频处理模块用于对上传的音频分割为音频片段；

声纹提取模块用于从模型存储模块获取声纹提取模型，然后利用声纹提取模型从音频处理模块分割的音频片段中取出声纹特征，得到每个音频片段的声纹特征向量d-vector；

声纹识别模块用于从模型存储模块获取声纹识别模型，然后利用声纹识别模型从音频处理模块分割的音频片段中识别每个片段的说话人；

记录构建模块用于基于声纹识别模块识别出的说话人，将原始音频分割为对应说话人的音频片段；然后将分割的音频片段输出到云服务器；

云服务器包括语音识别模块，语音识别模块用于将记录构建模块上传的音频片段进行语音识别，将语音转化为文字。

根据本发明优选的，所述客户端为计算机或树莓派，客户端上还连接有麦克风或摄像设备，用于获取会议的音频或视频；

计算机使用Windows系统，包括Anaconda和Python运行环境，用于进行会议录制和会议记录的存储；

树莓派使用Linux系统，包括Python运行环境，用于进行会议录制和会议记录的存储。

根据本发明优选的，所述边缘服务器位于客户端所在的局域网内，例如会议室内、学校内或公司内，且为了保证数据安全，不能从局域网外部访问。

根据本发明优选的，云服务器为搭建的语音识别服务器或第三方语音识别服务提供的服务器；

第三方语音识别服务提供的服务器为科大讯飞云服务器；

所述搭建的语音识别服务器为购买的云服务器，安装Windows系统或Linux系统，同时安装Python运行环境，用于运行语音识别程序，同时能够被边缘服务器访问并返回语音识别结果。

本发明的有益效果为：

1.本发明提供的基于云—边缘协同架构的会议记录方法及系统，相比于传统的语音识别会议记录系统，本发明引入声纹识别模块，由计算机自动识别并整理为带说话人的文本，大大减少了人工劳动。

2.针对会议中经常出现说话被打断的情况，常规语音识别方法不能正确进行断句，从而导致识别结果出现错误；本发明提出的方法中首先使用声纹识别，根据说话人对音频分割后再进行语音识别，能够有效避免这种错误。对于同一段具有四位说话人的音频片段，只使用语音识别的准确率为95％，且存在所述断句问题，而使用本发明所述方法识别准确率为97％，断句问题得到正确的处理。

3.本发明提出在边缘服务器进行声纹识别，让数据隐私保护变得更具操作性。语音录制在本地的客户端，计算量较小、隐私要求较高的声纹识别在边缘服务器，而不经过云服务器，避免了潜在的数据劫持风险，提高了隐私性和安全性。

4.本发明提供的声纹提取模型中设置有NetVLAD层，NetVLAD层将时间序列数据特征提取问题转化为分类问题，通过计算局部特征在各个分类的差值分布得到全局特征，从而得到与时间无关的特征数据。

附图说明

图1为本发明提供的一种基于云—边缘协同架构的会议记录系统的示意图；

图2为本发明提供的一种基于云—边缘协同架构的会议记录系统的具体结构图；

图3为本发明提供的一种基于云—边缘协同架构的会议记录方法的过程示意图；

图4为声纹提取模型的结构示意图；

图5为声纹识别模型构建过程示意图。

具体实施方式

下面结合实施例和说明书附图对本发明做进一步说明，但不限于此。

实施例1

一种基于云—边缘协同架构的会议记录方法，如图3所示，用于会议记录，得到视频文件或音频文件、字幕文件和记录说话人及说话内容的文本文件；具体步骤包括：

步骤(1)中，当在客户端录制的是视频时，则使用ffmpeg提取音频，再将提取得到的音频上传到边缘服务器。

(2)在边缘服务器中，将上传的音频分割为音频片段；

步骤(3)中，声纹提取模型的预训练过程为：

3-1、构建声纹提取模型；如图4所示，声纹提取模型包括依次连接的ResNet-34网络、NetVLAD层、全连接(Dense)层和softmax层，

ResNet-34网络是残差网络，输入依次经过一个卷积核大小为7的卷积层、一个池化层，3个尺寸为32、卷积核大小为3的残差块，4个尺寸为64卷积核、大小为3的残差块，6个尺寸为128、卷积核大小为3的残差块，3个尺寸为256、卷积核大小为3的残差块，总计34层；两个卷积层构成残差块；

NetVLAD层的网络层输出V(j,k)的计算方法如式(I)所示：

3-2、构建语音样本数据集：语音样本数据集包括说话人音频和标签；音频长度不必相同，说话人也不必为会议参与者，这部分数据仅用于训练声纹特征提取模型；语音样本数据集通过网络公开的VoxCeleb1或者VoxCeleb2数据集组成语音样本数据集，或通过收集说话人音频和标签得到语音样本数据集；语音样本数据集包含大量说话人音频和标签，音频长度不必相同，说话人也不必为会议参与者，这部分数据仅用于训练声纹特征提取模型。

3-3、将音频进行傅里叶变换得到频谱数据；

3-4、训练声纹提取模型：

将步骤3-3得到的频谱数据和标签输入ResNet-34网络提取特征，得到包含声纹特征的时间序列数据，再经过NetVLAD层提取时间序列特征，从时间序列数据中得到与时间无关的特征数据，NetVLAD层将时间序列数据特征提取问题转化为分类问题，然后再经过全连接层融合特征，再经过softmax层做归一化处理，得到长度为512的包含声纹特征的向量即d-vector。

声纹特征提取网络的结构基于ResNet-34网络，加入音频数据预处理和时间序列特征提取使其更适合处理音频数据。

(4)使用训练好的声纹识别模型识别每个音频片段的说话人；

4-1、构建声纹识别模型数据集，具体包括：

b、客户端压缩并加密音频，然后上传到边缘服务器；

4-2、先将分割后的音频数据进行傅里叶变换得到频谱数据；

4-4、构建声纹识别模型，声纹识别模型为UIS-RNN网络，UIS-RNN网络含两层GRU循环神经网络；如图5所示，该网络包含两层GRU循环神经网络，网络结构实际上是程序运行过程中根据算法自动建立的。其中h_t为音频片段t时刻与说话人对应的GRU循环神经网络状态，t从0开始递增，m_t为t时刻GRU循环神经网络的输出，x_t为t时刻GRU循环神经网络的输入。以图5为例，GRU循环神经网络初始状态为h₀，从x₀中识别到说话人甲后状态改变为h₁，当输入新样本时，将新样本和说话人对应的状态(这里是x₂,h₁,m₁)输入GRU循环神经网络，计算状态转移概率，如果小于0.5，则为同一说话人，否则是新的说话人。2时刻说话人仍为甲，对应说话人甲的状态h₁改变为h₂。类似的，h₃为3时刻说话人乙对应的状态，h₄为4时刻说话人丙对应的网络状态。5时刻为说话人乙，将乙最新的状态h₃改变为h₅，6时刻也为说话人乙，将乙最新的状态h₅改变为h₆。图中重复出现的符号相同的向量为同一个向量，例如x₀，为了避免曲线过多交叉因此没有循环连接。

(5)基于识别出的说话人，将原始音频分割为对应说话人的音频片段；

步骤(6)中，使用PocketSphinx库实现语音识别，将边缘服务器上传的音频片段识别为文字，并返回边缘服务器。

(8)客户端存储会议记录；步骤(8)还包括：根据需要选择是否将声纹识别模型加密存储在边缘服务器中。

针对会议中经常出现说话被打断的情况，常规语音识别方法不能正确进行断句，从而导致识别结果出现错误；本发明提出的方法中首先使用声纹识别，根据说话人对音频分割后再进行语音识别，能够有效避免这种错误。对于同一段具有四位说话人的音频片段，只使用语音识别的准确率为95％，且存在断句问题，而使用本发明方法识别准确率为97％，断句问题得到正确的处理。例如甲说“以上是我们提出……(的试验方案)”，同时乙提出疑问“等一下，方案的第二步再解释一下”，语音识别的结果为“以上是我们提出第一下方案的第二步，再解释一下”，而本发明提出的方法识别结果为“甲：以上是我们提出的……。乙：等一下，方案的第二步再解释一下”。

实施例2

一种基于云—边缘协同架构的会议记录系统，用于实现实施例1提供的一种基于云—边缘协同架构的会议记录方法，如图1和2所示，该系统包括云服务器、边缘服务器和若干个客户端；客户端与边缘服务器相连接，边缘服务器与云服务器相连接；

音频处理模块用于对上传的音频分割为音频片段；音频处理模块使用Python和librosa编写；

记录构建模块使用Python编写，记录构建模块用于基于声纹识别模块识别出的说话人，将原始音频分割为对应说话人的音频片段；然后将分割的音频片段输出到云服务器；

云服务器包括语音识别模块，语音识别模块用于将记录构建模块上传的音频片段进行语音识别，将语音转化为文字。语音识别模块使用Python编写，使用PocketSphinx库实现语音识别，在收到边缘服务器上传的音频片段后识别为文字并返回边缘服务器。

客户端为计算机。

客户端上还连接有麦克风或摄像设备，用于获取会议的音频或视频；

边缘服务器位于客户端所在的局域网内，例如会议室内、学校内或公司内，且为了保证数据安全，不能从局域网外部访问。

云服务器为搭建的语音识别服务器；搭建的语音识别服务器为购买的云服务器，云服务器可以为公司或学校内的服务器；安装Windows系统或Linux系统，同时安装Python运行环境，用于运行语音识别程序，同时能够被边缘服务器访问并返回语音识别结果。

实施例3

一种基于云—边缘协同架构的会议记录系统，与实施例2提供的会议记录系统的区别在于：

客户端为树莓派，使用Linux系统，包括Python运行环境，用于运行本发明的会议录制和会议记录存储的程序。还包括麦克风，用于会议录音。

云服务器为科大讯飞云服务器，即语音识别使用科大讯飞提供的语音识别服务，语音识别服务在收到边缘服务器上传的音频片段后识别为文字并返回边缘服务器。

Claims

1.一种基于云—边缘协同架构的会议记录方法，其特征在于，用于会议记录，具体步骤包括：

(2)在边缘服务器中，将上传的音频分割为音频片段；

(4)使用训练好的声纹识别模型识别每个音频片段的说话人；

(7)边缘服务器结合步骤(6)得到的语音识别的结果和步骤(4)得到的声纹识别的结果，生成标准字幕文件和文本文件，得到会议记录；然后将会议记录传输到客户端；

(8)客户端存储会议记录。

2.根据权利要求1所述的一种基于云—边缘协同架构的会议记录方法，其特征在于，步骤(1)中，当在客户端录制的是视频时，则使用ffmpeg提取音频，再将提取得到的音频上传到边缘服务器。

3.根据权利要求1所述的一种基于云—边缘协同架构的会议记录方法，其特征在于，步骤(3)中，声纹提取模型的预训练过程为：

NetVLAD层的网络层输出V(j,k)的计算方法如式(I)所示：

3-2、构建语音样本数据集：语音样本数据集包括说话人音频和标签；

3-3、将音频进行傅里叶变换得到频谱数据；

3-4、训练声纹提取模型：

将步骤3-3得到的频谱数据和标签输入ResNet-34网络提取特征，得到包含声纹特征的时间序列数据，再经过NetVLAD层提取时间序列特征，然后再经过全连接层融合特征，再经过softmax层做归一化处理，得到长度为512的包含声纹特征的向量即d-vector；

4.根据权利要求3所述的一种基于云—边缘协同架构的会议记录方法，其特征在于，步骤(4)中，声纹识别模型的训练过程为：

4-1、构建声纹识别模型数据集，具体包括：

a、客户端录制会议参与者的音频，并标注说话者；

b、客户端压缩并加密音频，然后上传到边缘服务器；

c、分割音频数据：将音频分割为设定采样长度的片段，当最后片段的长度不足采样的长度，则末尾加0补足；

4-2、先将分割后的音频数据进行傅里叶变换得到频谱数据；

5.根据权利要求1所述的一种基于云—边缘协同架构的会议记录方法，其特征在于，步骤(6)中，使用PocketSphinx库实现语音识别，将边缘服务器上传的音频片段识别为文字，并返回边缘服务器。

6.一种基于云—边缘协同架构的会议记录系统，其特征在于，用于实现权利要求1-5任一项所述的一种基于云—边缘协同架构的会议记录方法，该系统包括云服务器、边缘服务器和若干个客户端；客户端与边缘服务器相连接，边缘服务器与云服务器相连接；

音频处理模块用于对上传的音频分割为音频片段；

7.根据权利要求6所述的一种基于云—边缘协同架构的会议记录系统，其特征在于，所述客户端为计算机或树莓派，客户端上还连接有麦克风或摄像设备，用于获取会议的音频或视频；

8.根据权利要求6所述的一种基于云—边缘协同架构的会议记录系统，其特征在于，所述边缘服务器位于客户端所在的局域网内。

9.根据权利要求6所述的一种基于云—边缘协同架构的会议记录系统，其特征在于，云服务器为搭建的语音识别服务器或第三方语音识别服务提供的服务器；

第三方语音识别服务提供的服务器为科大讯飞云服务器；

所述搭建的语音识别服务器安装Windows系统或Linux系统，同时安装Python运行环境，用于运行语音识别程序，同时能够被边缘服务器访问并返回语音识别结果。