CN113129898B

CN113129898B - 一种机器辅助的会议记录系统及方法

Info

Publication number: CN113129898B
Application number: CN202110378334.2A
Authority: CN
Inventors: 田金钊; 程帆; 符鸿飞
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2021-04-08
Filing date: 2021-04-08
Publication date: 2023-06-30
Anticipated expiration: 2041-04-08
Also published as: CN113129898A

Abstract

本发明涉及一种机器辅助的会议记录系统，包括：麦克风收音阵列：用以实时拾取会议的音频数据；音频预处理模块：对录入的音频数据进行分割和预处理，并且将预处理过的音频数据分别送入声纹识别模块以及语音处理系统模块中；声纹识别模块：用以判断音频数据中每句话所属说话人身份信息，并且为每句话匹配说话人身份标签；语音识别模块：用以将音频数据转换为文字信息；综合处理模块：用以组合声纹识别模块与语音识别模块的输出内容，并发送给终端界面；可实时交互处理的终端界面：用以实时进行操作处理，显示会议记录信息，依据机器生成的内容，实时进行纠错改正。与现有技术相比，本发明实时检错、自动生成，避免二次审查造成时间浪费。

Description

一种机器辅助的会议记录系统及方法

技术领域

本发明涉及人工智能领域，尤其是涉及一种机器辅助的会议记录系统及方法。

背景技术

在一些企业会议和法庭中常常需要用文字的方式记录下每个人所陈述的话语，这部分的工作往往需要人工进行记录，但是人的注意力是有限的，使用人工的方式往往会出现记录不全，错记漏记的情况。所以可能常常需要再进行人工返工和审核，但在二次修改时可能需要对录像和录音重新定位搜寻，反复确认，才能准确的记录，在此期间耗费大量的时间和精力。

为了解决人工进行会议记录会造成的错误，以及减少二次返工所造成的时间消耗问题，需要一种机器辅助的会议记录系统及方法。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种机器辅助的会议记录系统及方法。

本发明的目的可以通过以下技术方案来实现：

一种机器辅助的会议记录系统，该系统包括：

麦克风收音阵列：用以实时拾取会议的音频数据；

音频预处理模块：对录入的音频数据进行分割和预处理，并且将预处理过的音频数据分别送入声纹识别模块以及语音处理系统模块中；

声纹识别模块：用以判断音频数据中每句话所属说话人身份信息，并且为每句话匹配说话人身份标签；

语音识别模块：用以将音频数据转换为文字信息；

综合处理模块：用以组合声纹识别模块与语音识别模块的输出内容，并发送给终端界面；

可实时交互处理的终端界面：用以实时进行操作处理，显示会议记录信息，依据机器生成的内容，实时进行纠错改正。

所述的声纹识别模块包括依次连接的帧级特征提取器、注意力统计池化层和话语级别特征提取器，所述的帧级特征提取器用以提取分为多帧后的音频数据的帧级特征，注意力统计池化层用以根据帧级特征输出帧级特征的权重平均值和权重标准差，所述的话语级别特征提取器将帧级特征权重平均值作为话语级特征并输入，生成表示说话人身份的数值向量。

所述的帧级特征提取器和话语级特征处理器采用基于CNN、LSTM或Transformer结构的深度神经网络模型。

所述的语音识别模块包括：

编码器网络：由多个块堆叠形成，每个块依次包含layer norm、multi-headattention、feed-forward network和ResNet connection，所述的feed-forward network由多层全连接串联而成，其激活函数为ReLU，所述的ResNet connection用于深度提取特征信息；

预测网络：除multi-head attention使用特定的掩码外，在结构上与编码器相同；

联合网络：接收编码器网络和预测网络输出的线性组合，由多层全连接层组成，其中，最后一层为softmax层，输出概率分布，根据概率分布生成相应的文字。

所述的语音识别模块中的网采用的Loss函数为标签序列所有对齐的概率和，则有：

其中，loss为损失，p(y_i|x_i)为第i个样本的标签序列对应的所有可能对齐的概率和，α(T_i,U_i)为采用前向算法计算得到的对齐路径的概率和，T_i表示时间，U_i表示状态。

所述的终端界面包括：

说话人管理组件：用以实时标注说话人的身份标签，替换临时生成的说话人身份标签；

文字操作组件：用以实时修改根据语音自动生成的文字；

导出模块：依据选定的保存格式，将会议记录进行导出存档。

一种机器辅助的会议记录方法，包括以下步骤：

1)通过麦克风收音阵列实时拾取会议的音频数据；

2)通过音频预处理模块对录入的音频数据进行分割和预处理，并且将预处理过的音频数据分别送入声纹识别模块以及语音处理系统模块中；

3)通过声纹识别模块判断音频数据中每句话所属说话人身份信息，并且为每句话匹配说话人身份标签；

4)通过语音识别模块将音频数据转换为文字信息；

5)通过综合处理模块组合声纹识别模块与语音识别模块的输出内容，并发送给终端界面；

6)在终端界面实时显示会议记录信息，依据机器生成的内容，进行纠错改正。

所述的步骤2)具体包括以下步骤：

21)将音频分成若干帧，利用帧级特征提取器提取不同的帧级特征；

22)将帧级特征输入注意力统计池化层，输出帧级特征的权重平均值以及权重标准差；

23)将帧级特征权重平均值作为话语级特征，输入话语级别特征提取器中，生成表示说话人身份的数值向量。

所述的步骤5)具体包括以下步骤：

51)控制音频输入预处理模块，划分句子逻辑；

52)接收声纹识别模块以及语音处理模块的输出，判断句子所属说话人标签；

53)生成文字信息，输出给用户逻辑界面；

54)截取语音片段，使得每句话均有相对应的语音片段；

55)接收修改反馈信息，修改文字逻辑输出；

56)依据选定要求，生成存档信息。

所述的步骤54)具体为：

依据声纹识别模块输出的说话人身份标识信息，在身份发生转变的时刻，记录音频起始时间和结束时间，在进行查询时，依据已记录的信息，输出起始时间到结束时间的音频部分。

与现有技术相比，本发明具有以下优点：

一、该机器辅助会议记录方法可以通过拾取的音频，通过声纹识别和语音识别自动化进行说话人识别与文本生成，并通过交互界面实时进行检错修改，避免了二次审查所造成的时间资源的浪费。

二、声纹识别模块无需提前录入所有说话人信息即可使用，在生成数值向量之后，将该数值向量与已保存的身份信息对比，若身份信息不在库内，则分配给一个临时身份信息，该身份信息对应了一个数值向量，并且该临时身份信息可替换为交互终端界面接受到的身份信息输入，转变成为固定身份标识。

附图说明

图1为本发明的流程图。

图2为本发明的系统结构图。

具体实施方式

为了使本领域的人员更容易的理解本发明中的技术方案，下面将结合本发明的实施例以及附图说明，对本发明实施例中的技术方案进行详细，完整的描述。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。

实施例

如图1和2所示，本发明提供一种机器辅助的会议记录系统及方法，该系统包括：

一个麦克风收音阵列装置：用以实时拾取音频数据；

音频预处理模块：处理录入的音频数据，该模块将音频数据逐片段的进行分割，然后进行数据预处理，最后将预处理过的音频数据分别送入声纹识别模块以及语音处理系统模块中；

语音识别模块：实现将音频数据转换为文字信息；

综合处理模块：用以组合声纹识别模块与语音识别模块的输出内容，并呈现给交互界面；

一个可实时交互处理终端界面：用以实时进行操作处理，该界面显示会议记录信息，可依据机器生成的内容，实时进行纠错改正，方便，在审查之后可以导出文件。

数据预处理的方式主要为预加重、分帧和加窗，其中，预加重是使用数据滤波器人为的对采集语音信号的高频部分进行提升；分帧是依据语音信号的短时不变性，将一段长语音进行分成若干段，每段称为帧，帧的长度一般是10ms，便于分析每一帧语音的特征参数；加窗是为了对抽样附近的语音波形加以强调，对其余部分进行减弱，以突出具有特征的部分。这些操作的目的都是为了消除由于人类器官发声，或者设备采集所带来的声音的混叠、高频等问题，使语音处理后的信号更加均匀，平滑。

上述的声纹识别模块的数据处理过程包括：

21)将音频分成若干帧，利用帧级特征提取器提取不同的帧的特征；

22)帧级特征进入注意力统计池化层，输出帧级特征的权重平均值以及权重标准差；

23)将这些帧级特征权重平均值作为话语级特征，输入到话语级别特征提取器中，最终生成表示说话人身份的数值向量。

声纹识别模块不需要提前录入所有说话人信息才能够使用，在模型生成的数值向量之后，将该数值向量与已保存的身份信息对比，若身份信息不在库内，则将分配给一个临时身份信息，该身份信息对应了一个数值向量，并且该临时身份信息可替换为交互终端界面接受到的身份信息输入，转变成为固定身份标识。

对于帧级特征提取器和话语级特征处理器，本例中可以采用基于CNN、LSTM或者Transformer结构的深度神经网络模型，可用于端到端的提取出音频数据的特征。

上述语音识别模块的内部结构包括：

31)编码器网络，由多个块堆叠而成，每个块依次包含layer norm、multi-headattention、feed-forward network和ResNet connection，feed-forward network由多层全连接串联而成，激活函数为ReLU，ResNet connection深度提取特征信息。

32)预测网络，结构与编码器类似，不过attention使用特定的掩码，使其只能利用前面的信息。

33)联合网络，接受编码器网络和预测网络的输出的线性组合，由多层全连接层组成，其中最后一层为softmax层，输出概率分布。

语音识别模块网络所使用的Loss函数，是标签序列所有对齐的概率和：

其中，p(y_i|x_i)代表第i个样本的标签序列对应的所有可能对齐的概率和；α(T_i,U_i)是采用前向算法计算得到的对齐路径的概率和，前向算法在每个时间步上对路径进行合并并更新累计概率变量α(t,u)，在实现高效概率计算过程中，α(t,u)表示为在时间t，经过状态u的所有路径的概率和。

上述综合处理模块的主要功能通过以下步骤实现：

41)控制音频输入进预处理模块，划分句子逻辑。

42)接受声纹识别模块以及语音处理模块的输出，判断句子所属说话人标签。

43)生成文字信息，输出给用户逻辑界面。

44)截取语音片段，使每句话均有相对应的语音片段，便于查找。

45)接受修改反馈信息，改善文字逻辑输出。

46)依据选定要求，生成存档信息。

在步骤44)中，具体实现方法为：

依据声纹识别模块所输出的说话人身份标识信息，在身份发生转变的时刻，记录音频起始时间和结束时间，在进行查询时，依据已记录的信息，输出起始时间到结束时间的音频部分。

上述终端界面主要包括以下部分：

51)说话人管理组件，可实时标注说话人的身份标签，替换临时生成的说话人身份标签。

52)文字操作组件，可实时修改根据语音自动生成的文字。

53)导出模块，依据选定的保存格式，将会议记录进行导出存档。

终端界面的呈现方式，可以是软件，也可以是硬件。对于软件的部分，需要配合必要的硬件进行使用，具体包括计算机，麦克风阵列，语音输出装置等。对于硬件部分，可设置专用的嵌入式集成设备，设备至少应该具有显示器，麦克风阵列，处理器相关装置，输出装置等。

以上所述的实施例，只是本发明的实施例中的一种。本领域技术人员应当理解，本公开所涉及的发明范围，并不限于上述技术特征的特征组合而成的技术方案。

Claims

1.一种机器辅助的会议记录系统，其特征在于，该系统包括：

麦克风收音阵列：用以实时拾取会议的音频数据；

语音识别模块：用以将音频数据转换为文字信息；

可实时交互处理的终端界面：用以实时进行操作处理，显示会议记录信息，依据机器生成的内容，实时进行纠错改正；

所述的声纹识别模块包括依次连接的帧级特征提取器、注意力统计池化层和话语级别特征提取器，所述的帧级特征提取器用以提取分为多帧后的音频数据的帧级特征，注意力统计池化层用以根据帧级特征输出帧级特征的权重平均值和权重标准差，所述的话语级别特征提取器将帧级特征权重平均值作为话语级特征并输入，生成表示说话人身份的数值向量；

所述的帧级特征提取器和话语级特征处理器采用基于CNN、LSTM或Transformer结构的深度神经网络模型；

所述的语音识别模块包括：

联合网络：接收编码器网络和预测网络输出的线性组合，由多层全连接层组成，其中，最后一层为softmax层，输出概率分布，根据概率分布生成相应的文字；

所述的语音识别模块中的网络采用的Loss函数为标签序列所有对齐的概率和，则有：

其中，loss为损失P(y_i|x_i)为第i个样本的标签序列对应的所有可能对齐的概率和，α(T_i,U_i)为采用前向算法计算得到的对齐路径的概率和，T_i表示时间，U_i表示状态；

所述的终端界面包括：

文字操作组件：用以实时修改根据语音自动生成的文字；

2.一种机器辅助的会议记录方法，其特征在于，基于如权利要求1所述的机器辅助的会议记录系统实现，所述方法包括以下步骤：

1)通过麦克风收音阵列实时拾取会议的音频数据；

4)通过语音识别模块将音频数据转换为文字信息；

6)在终端界面实时显示会议记录信息，依据机器生成的内容，进行纠错改正；

所述的步骤2)具体包括以下步骤：

23)将帧级特征权重平均值作为话语级特征，输入话语级别特征提取器中，生成表示说话人身份的数值向量；

所述的语音识别模块包括：

其中，loss为损失，P(y_i|x_i)为第i个样本的标签序列对应的所有可能对齐的概率和，α(T_i,U_i)为采用前向算法计算得到的对齐路径的概率和，T_i表示时间，U_i表示状态；

所述的步骤5)具体包括以下步骤：

51)控制音频输入预处理模块，划分句子逻辑；

53)生成文字信息，输出给用户逻辑界面；

54)截取语音片段，使得每句话均有相对应的语音片段；

55)接收修改反馈信息，修改文字逻辑输出；

56)依据选定要求，生成存档信息；

所述的步骤54)具体为：