CN117235619A

CN117235619A - 会议纪要分类方法、装置、计算机设备和存储介质

Info

Publication number: CN117235619A
Application number: CN202311020694.0A
Authority: CN
Inventors: 金征雷; 周创; 张俊; 汪致伦
Original assignee: Hangzhou Ruicheng Information Technology Co ltd
Current assignee: Hangzhou Ruicheng Information Technology Co ltd
Priority date: 2023-08-14
Filing date: 2023-08-14
Publication date: 2023-12-15

Abstract

本申请涉及文本分类领域，特别是涉及一种会议纪要分类方法、装置、计算机设备和存储介质。所述方法包括：提取会议纪要样本的句级特征，得到句级特征集合；获取所述句级特征集合中所述会议纪要样本的各板块所分别对应的句级特征子集合，并基于各所述句级特征子集合，分别生成对应板块的文档表示；基于各所述文档表示，将所述会议纪要样本的各类别权重的交叉熵作为训练优化的目标函数进行模型训练，得到会议纪要分类模型；利用所述会议纪要分类模型对待分类会议纪要进行分类，得到分类结果。本发明通过训练会议纪要分类模型，实现会议纪要分类的自动化。

Description

会议纪要分类方法、装置、计算机设备和存储介质

技术领域

本申请涉及文本分类领域，特别是涉及一种会议纪要分类方法、装置、计算机设备和存储介质。

背景技术

会议纪要是根据会议的宗旨、议程、决议等整理而成的公文，是对会议基本情况的纪实，便于向上级汇报或向有关人员传达及分发。

现有技术中，通过人工阅读会议纪要的方式对会议纪要进行分类。当会议纪要的数量较大时，人工分类的效率低且成本高。

发明内容

基于此，有必要针对上述技术问题，提供一种会议纪要分类方法、装置、计算机设备和存储介质。

第一方面，本发明实施例提出一种会议纪要分类方法，所述方法包括：

提取会议纪要样本的句级特征，得到句级特征集合；

获取所述句级特征集合中所述会议纪要样本的各板块所分别对应的句级特征子集合，并基于各所述句级特征子集合，分别生成对应板块的文档表示；

基于各所述文档表示，将所述会议纪要样本的各类别权重的交叉熵作为训练优化的目标函数进行模型训练，得到会议纪要分类模型；

利用所述会议纪要分类模型对待分类会议纪要进行分类，得到分类结果。

在一实施例中，所述提取会议纪要样本的句级特征，得到句级特征集合包括：

利用预训练模型提取所述会议纪要样本的字级语意特征；

基于所述字级语意特征，得到所述句级特征；

基于所述句级特征，得到所述句级特征集合。

在一实施例中，所述基于各所述句级特征子集合，分别生成对应板块的文档表示包括：

构建改进的多层Transformer模型，所述改进的多层Transformer模型包括多个依次连接的改进的Transformer层和第一前馈神经网络层FFNN1，各所述改进的Transformer层包括依次连接的添加了多头稀疏注意力机制的SPAttention层、第二前馈神经网络层FFNN2、线性层Linear和归一化层LayerNorm；

各所述句级特征子集合依次经过各所述改进的多层Transformer层和所述第一前馈神经网络层，分别生成对应板块的文档表示。

在一实施例中，所述文档表示S的计算公式为：

S＝Tanh(Avg(Z)×W^t)

其中，表示线性变换的权重矩阵，/>表示多个改进的Transformer层的输出，Avg表示平均池化处理，/>d_e表示所述句级特征的维度。

在一实施例中，所述基于各所述文档表示，将所述会议纪要样本的各类别权重的交叉熵作为训练优化的目标函数进行模型训练，得到会议纪要分类模型包括：

冻结预训练模型的权重，并基于各所述文档表示、权重矩阵及偏置矩阵，使用Softmax函数计算所述会议纪要样本属于各类别的概率值；

根据所述概率值结合各类别的分布比例计算加权交叉熵损失，直到其收敛。

在一实施例中，所述会议纪要分类模型包括：

其中，y∈[0,1，...，z]是会议纪要类别数的下标，t_y第y类的未归一化分数，weight[y]表示对第y类损失的加权。

在一实施例中，所述方法还包括：

根据所述会议纪要样本的先验数据分布，优化所述优化结果。

第二方面，本发明实施例提出一种会议纪要分类装置，所述装置包括：

提取模块，用于提取会议纪要样本的句级特征，得到句级特征集合；

生成模块，用于获取所述句级特征集合中所述会议纪要样本的各板块所分别对应的句级特征子集合，并基于各所述句级特征子集合，分别生成对应板块的文档表示；

训练模块，用于基于各所述文档表示，将所述会议纪要样本的各类别权重的交叉熵作为训练优化的目标函数进行模型训练，得到会议纪要分类模型；

分类模块，用于利用所述会议纪要分类模型对待分类会议纪要进行分类，得到分类结果。

第三方面，本发明实施例提出一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行第一方面所述的步骤。

第四方面，本发明实施例提出一种计算机可读存储介质，其上存储有计算机程序，所述处理器执行所述计算机程序时实现第一方面所述的步骤。

相比于现有技术，上述方法、装置、计算机设备和存储介质，通过提取会议纪要样本的句级特征，得到句级特征集合，获取所述句级特征集合中所述会议纪要样本的各板块所分别对应的句级特征子集合，并基于各所述句级特征子集合，分别生成对应板块的文档表示，基于各所述文档表示，将所述会议纪要样本的各类别权重的交叉熵作为训练优化的目标函数进行模型训练，得到会议纪要分类模型，利用所述会议纪要分类模型对待分类会议纪要进行分类，得到分类结果。本发明通过训练会议纪要分类模型，实现会议纪要分类的自动化。

附图说明

图1为一实施例中终端的结构示意图；

图2为一实施例中会议纪要分类方法的流程示意图；

图3为一实施例中句级特征集合获取方法的流程示意图；

图4为一实施例中会议纪要分类模型的结构示意图；

图5为一实施例中文档表示生成方法的流程示意图；

图6为一实施例中改进的多层Transformer模型的结构示意图；

图7为一实施例中模型训练方法的流程示意图

图8为一实施例中会议纪要分类装置的模块连接示意图；

图9为一实施例中计算机设备的结构示意图。

具体实施方式

为了更清楚地说明本发明的实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本发明的一些示例或实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图将本发明应用于其他类似情景。除非从语言环境中显而易见或另做说明，图中相同标号代表相同结构或操作。

如本发明和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其他的步骤或元素。

虽然本发明对根据本发明的实施例的装置中的某些模块做出了各种引用，然而，任何数量的不同模块可以被使用并运行在计算设备和/或处理器上。模块仅是说明性的，并且装置和方法的不同方面可以使用不同模块。

应当理解的是，当单元或模块被描述为“连接”、“耦接”其它单元、模块或块时，其可以指直接连接或耦接，或者与其它单元、模块或块通信，或者可以存在中间的单元、模块或块，除非上下文明确指明其它方式。本文所使用的术语“和/或”可包括一个或多个相关列出项目的任意与所有组合。

本申请提供的会议纪要分类方法，可以应用于如图1所示的终端中，所述终端获取目标检测图像，所述目标检测图像中包含输电复合绝缘子；将所述目标检测图像输入训练完成的目标检测模型，得到所述输电复合绝缘子的目标区域图像；将所述目标区域图像输入训练完成的对比学习网络模型，得到所述输电复合绝缘子的污秽识别结果。如图1所示，终端可以包括一个或两个(图1中仅示出一个)处理器102和用于存储数据的存储器104，其中，处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置。上述终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图2所示的结构仅为示意，其并不对上述终端的结构造成限制。例如，终端还可包括比图1中所示更多或者更少的组件，或者具有与图1所示出的不同配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如在本实施例中的会议纪要分类方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输设备106用于经由一个网络接收或者发送数据。上述的网络包括终端的通信供应商提供的无线网络。在一个实例中，传输设备106包括一个网络适配器(NetworkInterfaceController，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备106可以为射频(RadioFrequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

如图2所示，本发明实施例提供了一种会议纪要分类方法，以该方法应用于图1中的终端为例进行说明，包括以下步骤：

S202：提取会议纪要样本的句级特征，得到句级特征集合；

S204：获取所述句级特征集合中所述会议纪要样本的各板块所分别对应的句级特征子集合，并基于各所述句级特征子集合，分别生成对应板块的文档表示；

S206：基于各所述文档表示，将所述会议纪要样本的各类别权重的交叉熵作为训练优化的目标函数进行模型训练，得到会议纪要分类模型；

S208：利用所述会议纪要分类模型对待分类会议纪要进行分类，得到分类结果。

基于上述步骤S202-S208，通过提取会议纪要样本的句级特征，得到句级特征集合，获取所述句级特征集合中所述会议纪要样本的各板块所分别对应的句级特征子集合，并基于各所述句级特征子集合，分别生成对应板块的文档表示，基于各所述文档表示，将所述会议纪要样本的各类别权重的交叉熵作为训练优化的目标函数进行模型训练，得到会议纪要分类模型，利用所述会议纪要分类模型对待分类会议纪要进行分类，得到分类结果。本发明通过训练会议纪要分类模型，实现会议纪要分类的自动化。

在步骤S202中，如图3-4所示，所述提取会议纪要样本的句级特征，得到句级特征集合包括：

S302：利用预训练模型提取所述会议纪要样本的字级语意特征。

具体的，使用学习了广泛通用语意的预训练模型RoBERTa-wwm提取字级语意特征，通过预训练模型解决由于训练数据较少而导致模型收敛效果差的问题。

S304：基于所述字级语意特征，得到所述句级特征。

S306：基于所述句级特征，得到所述句级特征集合。

将会议纪要样本各板块的文本分句处理，以[cls]作为语义提取位，以[sep]作为分句标识，提取会议纪要样本的句级特征E_m，得到句级特征集合D，其中，

D ＝ (E₁,E₂,...,E_m) 公式(1)

在步骤S204中，如图5所示，所述基于各所述句级特征子集合，分别生成对应板块的文档表示包括：

S502：构建改进的多层Transformer模型。

如图6所示，所述改进的多层Transformer模型包括多个依次连接的改进的Transformer层和第一前馈神经网络层FFNN1(tanh)，各所述改进的Transformer层包括依次连接的增加了多头稀疏注意力机制的SPAttention层、第二前馈神经网络层FFNN2、线性层Linear和归一化层LayerNorm；

S504：各所述句级特征子集合依次经过各所述改进的多层Transformer层和所述第一前馈神经网络层，分别生成对应板块的文档表示。

按照会议纪要样本的不同内容板块提取句级特征子集合D_n送入改进的多层Transformer模型，其中n表示不同的板块。通过对句子层语意的抽取，可以较大提高模型的句级抽象理解能力。进一步的，通过改进的包含的多头稀疏注意力机制的Transformer层和第一前馈神经网络层FFNN1提取句子结构信息，生成文档表示S。

多头稀疏注意力机制层SPAttention可以在少量损失模型预测性能的同时，极大提升模型的计算效率。进一步的，通过对会议纪要中不同内容板块的数据进行自动赋权学习，可以让模型自动学习到不同内容板块(如：会议背景、目的要求、主要议题、决议共识等)对分类结果的的权重占比，让模型自动发现分类权重点，进一步提高模型识别准确性。具体计算如下：

多头稀疏注意力机制层SPAttention计算如下：

SPAttention(D_n) ＝ LayerNorm (D_n+ MultiHead(D_n)) 公式(2)

MultiHead(D_n) ＝ Concat(head₁, head₂, . . . , head_h) ×W^O 公式(3)

其中，h为多头稀疏注意力机制层SPAttention的注意力头数，LayerNorm为归一化层，W^O为权重矩阵，R代表实数数集，d_e为句级特征的维度。

head_m是第m个头的注意力，每个头的稀疏注意力计算机制如下：

head_i＝head_1i+head_2i 公式(6)

其中，k表示句与句之间的距离，Q_i＝D×W_i ^Q,代表稀疏注意力机制层中的查询向量；K_i＝D×W_i ^K,代表稀疏注意力机制层中的键向量；V_i＝D×W_i ^V,代表稀疏注意力机制层中的值向量,均是第i个头的权重矩阵作为待学习的参数，是一个m×m矩阵，其中第a行和第j列的值表示第a句对第j句的注意权重，V_i包含来自句子的特征，head_1i代表当前句与相距为nk的注意力，n∈{1,2,...,m/k}，head_2i代表当前句与其他句相对距离不超过k的注意力。

多头稀疏注意力机制层SPAttention的输出通过第二前馈神经网络层FFNN2(Relu)、线性层和归一化层计算，其结果为：

D’＝LayerNorm(SPAttention(D)+Relu(SPAttention(D)×W^r)×W^s)公式

(7)

其中W^r、W^s均为权重矩阵作为待学习的参数。

将D’送入多个相同的改进的Transformer层，形成用于计算各板块的文档表示S的矩阵Z，文档表示S计算公式为：

S＝Tanh(Avg(Z)×W^t) 公式(8)

其中，表示线性变换的权重矩阵，/>表示多个连续的改进的Transformer层的输出，Avg表示平均池化处理，/>d_e表示所述句级特征的维度。

在步骤S206中，如图7所示，所述基于各所述文档表示，将所述会议纪要样本的各类别权重的交叉熵作为训练优化的目标函数进行模型训练，得到会议纪要分类模型包括：

S702：冻结预训练模型的权重，并基于各所述文档表示、权重矩阵及偏置矩阵，使用Softmax函数计算所述会议纪要样本属于各类别的概率值；

S704：根据所述概率值结合各类别的分布比例计算加权交叉熵损失，直到其收敛。

在训练阶段，冻结预训练模型RoBERTa-wwm权重，将各板块文本表示S_n(如会议背景表示S₁、目的要求表示S₂、主要议题表示S₃、决议共识表示S₄)堆叠为一列，并乘权重矩阵w_i、加偏置矩阵b_i，采用根据会议纪要样本数据分布情况增加各类别权重的交叉熵作为训练优化的目标函数进行训练，得到训练完成的会议纪要分类模型。计算方法如下：

其中y∈[0,1，...，z]是会议纪要类别数的下标，t_y第y类的未归一化分数，weight[y]表示对第y类损失的加权。

其中加权交叉熵损失具体方法为给少数类交叉熵添加大于1的惩罚系数用于增大分错该类别的成本。在训练过程中，每轮结束后(或N轮后)，在验证集上获取测试结果，记录目前为止最好的验证集精度,而随着训练轮数的增加，如果经过多轮训练，模型在验证集上的测试误差反而上升，则停止训练

在步骤S208中，在获得待分类会议纪要后对其进行数据清洗，去除其中格式占位符包括但不限于“\t”、“\r”、“\n”、“\s”等不可见但起到占位及格式控制作用的字符。

进一步地，对待分类会议纪要中的时间、非主要参会人员姓名进行数据增强，将时间、非主要参会人员姓名进行随机替换以产生更多样本用于模型训练。

在一实施例中，所述方法还包括：

借助会议纪要样本的先验分布优化其预测结果，自动学习不同应用场景中的会议纪要类别的不同数据分布特点，只需增加极小计算量的情况下即可提高会议纪要分类准确率。

具体步骤如下：

S802：选定阈值α，若会议纪要预测结果P小于α则该结果可视为高置信度，若会议纪要预测结果P大于或等于α则该结果视为低置信度。

S804：将会议纪要预测数据中属于高置信度的结果置为前n个，剩下N-n个结果属于低置信度，对于低置信度的结果，采用高置信度部分作为参考对其进行校正。具体有：

将低置信度结果P^(j)与高置信度结果P^(1,2,3...,n)进行标准化，即使所有新的P^(k)的平均向量等于先验分布P_ave；

P^(k)←P^(k)/P_ave×P_last 公式(11)

其中，k∈{1,2,...,n}∪{j}，j∈{n+1,n+2,...,N}，N为待预测总数据量，n为置信度高的数据量，P^(k)为低置信度结果集合中的某一结果概率分布。

S806：为保证归一性，再次将P^(k)进行标准化，即：

其中，m为标签类别数，P_i ^(k)为P^(k)其中某一标签概率。

S808：交替迭代执行步骤S804-S806，直到结果收敛，保留最新的P^(j)作为原来第j个会议纪要样本的预测结果。根据公式(11)、(14)对P^(k)迭代更新，直到得到稳定的P^(k)。

应该理解的是，虽然上述流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一实施例中，如图8所示，本发明提供了一种会议纪要分类装置，所述装置包括：

提取模块802，用于提取会议纪要样本的句级特征，得到句级特征集合；

生成模块804，用于获取所述句级特征集合中所述会议纪要样本的各板块所分别对应的句级特征子集合，并基于各所述句级特征子集合，分别生成对应板块的文档表示；

训练模块806，用于基于各所述文档表示，将所述会议纪要样本的各类别权重的交叉熵作为训练优化的目标函数进行模型训练，得到会议纪要分类模型；

分类模块808，用于利用所述会议纪要分类模型对待分类会议纪要进行分类，得到分类结果。

在一实施例中，所述提取模块具体用于：

利用预训练模型提取所述会议纪要样本的字级语意特征；

基于所述字级语意特征，得到所述句级特征；

基于所述句级特征，得到所述句级特征集合。

在一实施例中，所述生成模块具体用于：

改进的多层Transformer模型，所述改进的多层Transformer模型包括多个依次连接的改进的Transformer层和第一前馈神经网络层，各所述改进的Transformer层包括依次连接的增加了多头稀疏注意力机制的SPAttention层、第二前馈神经网络层、线性层和归一化层；

各所述句级特征子集合依次经过各所述改进的Transformer层和所述第一前馈神经网络层，分别生成对应板块的文档表示。

在一实施例中，所述文档表示S的计算公式为：

S＝Tanh(Avg(Z)×W^t)

其中，表示线性变换的权重矩阵，/>表示改进的多层Transformer层的输出，Avg表示平均池化处理，/>d_e表示所述句级特征的维度。

在一实施例中，所述训练模块具体用于：

在一实施例中，所述会议纪要分类模型包括：

在一实施例中，所述装置还包括：

优化模块，用于根据所述会议纪要样本的先验数据分布，优化所述优化结果。

关于会议纪要分类装置的具体限定可以参见上文中对于会议纪要分类方法的限定，在此不再赘述。上述会议纪要分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，本发明实施例提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图9所示。该计算机设备包括通过装置总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作装置、计算机程序和数据库。该内存储器为非易失性存储介质中的操作装置和计算机程序的运行提供环境。该计算机设备的数据库用于存储动作检测数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述任一项会议纪要分类方法实施例中的步骤。

本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一实施例中，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述任一项会议纪要分类方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种会议纪要分类方法，其特征在于，所述方法包括：

提取会议纪要样本的句级特征，得到句级特征集合；

2.根据权利要求1所述的方法，其特征在于，所述提取会议纪要样本的句级特征，得到句级特征集合包括：

利用预训练模型提取所述会议纪要样本的字级语意特征；

基于所述字级语意特征，得到所述句级特征；

基于所述句级特征，得到所述句级特征集合。

3.根据权利要求1所述的方法，其特征在于，所述基于各所述句级特征子集合，分别生成对应板块的文档表示包括：

4.根据权利要求3所述的方法，其特征在于，

所述文档表示S的计算公式为：

S＝Tanh(Avg(Z)×W^t)

5.根据权利要求1所述的方法，其特征在于，所述基于各所述文档表示，将所述会议纪要样本的各类别权重的交叉熵作为训练优化的目标函数进行模型训练，得到会议纪要分类模型包括：

6.根据权利要求5所述的方法，其特征在于，所述会议纪要分类模型包括：

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

8.一种会议纪要分类装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时，实现权利要求1至权利要求7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现权利要求1至权利要求7中任一项所述的方法的步骤。