CN112017632A

CN112017632A - 一种自动化会议记录生成方法

Info

Publication number: CN112017632A
Application number: CN202010908631.9A
Authority: CN
Inventors: 邓博; 蔡卫卫
Original assignee: Inspur Cloud Information Technology Co Ltd
Current assignee: Inspur Cloud Information Technology Co Ltd
Priority date: 2020-09-02
Filing date: 2020-09-02
Publication date: 2020-12-01

Abstract

本发明特别涉及一种自动化会议记录生成方法。该自动化会议记录生成方法，收集音频数据，对音频数据进行预处理，采用DNN算法模型对处理后的数据进行声纹识别，识别说话人；采用翻译模型对处理后的数据进行语音识别，将语音转换为文字，获取文本数据；采用TextRank算法对文本信息进行文本摘要；采用了DCNN模型对文本信息进行句子级情感识别；最后生成会议记录。该自动化会议记录生成方法，可以对会议的音频数据进行音频预处理，通过声纹识别算法识别说话人，然后通过语音识别算法将语音转换成文字，并通过文本摘要算法生成会议摘要，同时通过情绪识别算法识别说话人的情绪，最后生成会议记录，大大节省了人力资源，提高了效率。

Description

一种自动化会议记录生成方法

技术领域

本发明涉及人工智能技术领域，特别涉及一种自动化会议记录生成方法。

背景技术

会议是企业成长的重要组成部分，每天都要针对不同的议题展开大大小小的各种会议，而每次会议都要有大量时间用于会议的记录以及会后的分析。性格不同的人在会议上的表现也不相同，他们的情绪可以通过观察文字来进行分析和衡量，这样可以看出他们对待问题的态度，以及分析会后可能采取的行动。

在日常会议中，传统的人工记录方式会存在各种问题，比如漏记和有主观感情色彩的记录。同样人工记录也有可能会出现各种错误。随着经济的快速增长，很多忙碌的高管不再倾向于参加传统会议，利用无处不在的通信召开的虚拟的线上会议成为更多企业的选择。

为了解决传统人工记录方式存在的记录效率低、错误率高的问题，本发明提出了一种自动化会议记录生成方法。

发明内容

本发明为了弥补现有技术的缺陷，提供了一种简单高效的自动化会议记录生成方法。

本发明是通过如下技术方案实现的：

一种自动化会议记录生成方法，其特征在于：包括以下步骤：

1)通过麦克风或者手机录音收集音频数据；

2)对音频数据进行预处理，包括音频数据预加重，组帧和加窗；

3)采用DNN(Deep Neural Networks，深度神经网络)算法模型对处理后的数据进行声纹识别，识别说话人；

4)采用翻译模型对处理后的数据进行语音识别，将语音转换为文字，获取文本数据；

5)采用TextRank算法对文本信息进行文本摘要；

6)采用了DCNN(Dynamic Convolutional Neural Network，深度卷积神经网络)模型对文本信息进行句子级情感识别；

7)生成会议记录。

所述步骤2)中，音频数据预加重是在噪声引入之前采用预加重网络，人为地加重发射机输入调制信号的高频分量；然后在接收机鉴频器的输出端进行相反的处理，即采用去加重网络把高频分量去加重，恢复原来的信号功率分布；其目的是将音频信号保留在一定的频率范围内；

所述步骤2)中，使用VAD噪声抑制算法来检测信号是否包含语音或噪声，将长会议记录将分成若干短音频，并对每个短音频进行MFCC(Mel Frequency CepstralCoefficents，梅尔频率倒谱系数)转换，将原始语音的参数提取到特征向量序列中，获取音频特征向量。

所述步骤3)中，声纹识别流程包的具体实现步骤如下：

S1.利用DNN分类器提取音频数据的帧级特征，所述DNN分类器是一个多层感知器，具有两个以上的隐藏层；

S2.在将每个帧级特征通过神经网络传递后，将其分配给一个声音单元；

S3.对在所有声音单元中构建的每个句子进行统计分析，然后为每个句子输出一个高维特征向量；

S4.通过有监督的学习，训练出声纹识别模型，用于声纹识别。

所述步骤S4中，声纹识别模型采用人工神经网络中的深度神经网络，深度神经网络可以直接学习原始音频数据作为模型的输入。

所述步骤4)中，采用端到端的翻译模型作为语音识别模型，所述翻译模型是利用LSTM(Long Short-Term Memory，长短期记忆网络)构建的，以音频特征作为输入，输出的是识别出来的文本信息。

所述步骤5)中，循环计算任意两个节点之间的相似度，根据阈值Y去掉两个节点之间相似度较低的边连接，构建出节点连接图，然后计算TextRank值，最后对所有TextRank值排序，选出TextRank值最高的m个节点对应的句子作为摘要；所述阈值Y和自然数m均由用户设定。

所述步骤5)中，每个句子都被视为图中的一个节点，如果两个句子之间存在相似性，则认为对应的两个节点之间存在间接联系，权重即为相似度；

TextRank权重算法公式如下所示：

其中，WS表示句子权重，V_i表示第i个句子节点，d为阻尼因子，是一个常数，用于函数曲线的平滑，ω表示两节点之间关联的权重。

所述步骤5)中，两个句子相似度的计算公式，如下：

其中，Si,Sj分别表示两个句子词的个数总数，W_k表示句子中的词，分子部分表示同时出现在两个句子中的同一个词的个数，分母则是对句子中词的个数求对数之和。

所述步骤6)中，DCNN模型卷积层为动态k-max卷积(k-max-pooling)算法，允许不同长度的输入进入模型；k-max最大值池化不返回单个池化结果的最大值，而是前k个池化结果的最大值；

池化算法中的参数k是一个动态函数，具体值取决于网络的输入长度和网络深度，计算公式如下：

其中，l表示当前位于卷积网络的第l层，L是神经网络的总层数，s是步长是一个常数，k_top为顶层k值也是一个常数。

本发明的有益效果是：该自动化会议记录生成方法，可以对会议的音频数据进行音频预处理，通过声纹识别算法识别说话人，然后通过语音识别算法将语音转换成文字，并通过文本摘要算法生成会议摘要，同时通过情绪识别算法识别说话人的情绪，最后生成会议记录，大大节省了人力资源，提高了效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

附图1为本发明自动化会议记录生成方法示意图。

具体实施方式

为了使本技术领域的人员更好的理解本发明中的技术方案，下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚，完整的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

该自动化会议记录生成方法，包括以下步骤：

1)通过麦克风或者手机录音收集音频数据；

5)采用TextRank算法对文本信息进行文本摘要；

7)生成会议记录。

在音频数据去加重过程中，同时也减小了噪声的高频分量，但是预加重对噪声并没有影响，因此有效地提高了输出信噪比。预加重的目的是将信号保留在一定的频率范围内。该过程实际上是一个高通滤波器。

数字信号是随时间变化的随机序列，它不是平稳的随机过程。但是，在短时间内，可以将其视为近似平稳的随机过程。在离散序列的分组中，每个组都被视为一个帧。窗口用于组帧。对于每一帧，选择一个窗口函数。因此，窗口的宽度被认为是帧长。

所述步骤3)中，声纹识别流程包的具体实现步骤如下：

如果可以从原始数据中选择特征并提取特征，则可以将特征用作输入以改善模型的性能。因此所述步骤S4中，声纹识别模型采用人工神经网络中的深度神经网络，深度神经网络可以直接学习原始音频数据作为模型的输入。

翻译模型本质上是将语音翻译成了文本，是RNN(循环神经网络)模型的一个变种。LSTM模型会对成词规则进行学习，即我们要说的单词之前之后是那些单词的概率大一些。和前馈型神经网络DNN相比，RNN模型更加适合具有时序性的数据，比如语言，语音等。

TextRank权重算法公式如下所示：

所述步骤5)中，两个句子相似度的计算公式，如下：

其中，Si,Sj分别表示两个句子词的个数总数，W_k表示句子中的词，分子部分表示同时出现在两个句子中的同一个词的个数，分母则是对句子中词的个数求对数之和。分母这样设计可以遏制较长的句子在相似度计算上的优势。

句子级别的情感识别，用于量化单个句子中所表达的情绪。在现有的深度学习模型中，情感分类通常是一个三分类问题，即积极，中性，消极。运用到的分类器是CNN(卷积神经网络)的一个变种，它不再使用词袋模型来构建单词的表示方法，而是通过一种嵌入式词向量的方式表示单词。本文使用Dynamic Convolutional Neural Network(DCNN)动态卷积神经网络作为情感识别的分类器，和传统卷积神经网络相比较，动态卷积神经网络使用了一种动态k-max池化算法。

所述步骤6)中，DCNN模型卷积层为动态k-max卷积(k-max-pooling)算法，允许不同长度的输入进入模型，也契合了输入句子长度不同的特点；k-max最大值池化不返回单个池化结果的最大值，而是前k个池化结果的最大值；

以上所述的实施例，只是本发明具体实施方式的一种，本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。

Claims

1.一种自动化会议记录生成方法，其特征在于：包括以下步骤：

1)通过麦克风或者手机录音收集音频数据；

3)采用DNN算法模型对处理后的数据进行声纹识别，识别说话人；

5)采用TextRank算法对文本信息进行文本摘要；

6)采用了DCNN模型对文本信息进行句子级情感识别；

7)生成会议记录。

2.根据权利要求1所述的自动化会议记录生成方法，其特征在于：所述步骤2)中，音频数据预加重是在噪声引入之前采用预加重网络，人为地加重发射机输入调制信号的高频分量；然后在接收机鉴频器的输出端进行相反的处理，即采用去加重网络把高频分量去加重，恢复原来的信号功率分布；其目的是将音频信号保留在一定的频率范围内；

所述步骤2)中，使用VAD噪声抑制算法来检测信号是否包含语音或噪声，将长会议记录将分成若干短音频，并对每个短音频进行MFCC转换，将原始语音的参数提取到特征向量序列中，获取音频特征向量。

3.根据权利要求1或2所述的自动化会议记录生成方法，其特征在于：所述步骤3)中，声纹识别流程包的具体实现步骤如下：

4.根据权利要求3所述的自动化会议记录生成方法，其特征在于：所述步骤S4中，声纹识别模型采用人工神经网络中的深度神经网络，深度神经网络可以直接学习原始音频数据作为模型的输入。

5.根据权利要求1或2所述的自动化会议记录生成方法，其特征在于：所述步骤4)中，采用端到端的翻译模型作为语音识别模型，所述翻译模型是利用LSTM构建的，以音频特征作为输入，输出的是识别出来的文本信息。

6.根据权利要求1所述的自动化会议记录生成方法，其特征在于：所述步骤5)中，循环计算任意两个节点之间的相似度，根据阈值Y去掉两个节点之间相似度较低的边连接，构建出节点连接图，然后计算TextRank值，最后对所有TextRank值排序，选出TextRank值最高的m个节点对应的句子作为摘要；所述阈值Y和自然数m均由用户设定。

7.根据权利要求6所述的自动化会议记录生成方法，其特征在于：所述步骤5)中，每个句子都被视为图中的一个节点，如果两个句子之间存在相似性，则认为对应的两个节点之间存在间接联系，权重即为相似度；

TextRank权重算法公式如下所示：

8.根据权利要求7所述的自动化会议记录生成方法，其特征在于：所述步骤5)中，两个句子相似度的计算公式，如下：

9.根据权利要求1所述的自动化会议记录生成方法，其特征在于：所述步骤6)中，DCNN模型卷积层为动态k-max卷积(k-max-pooling)算法，允许不同长度的输入进入模型；k-max最大值池化不返回单个池化结果的最大值，而是前k个池化结果的最大值；