CN112905793B

CN112905793B - 一种基于Bilstm+Attention文本分类的案例推荐方法及系统

Info

Publication number: CN112905793B
Application number: CN202110203054.8A
Authority: CN
Inventors: 王守义; 张涛; 朱骞
Original assignee: Shanxi Tongfang Zhiwang Digital Publishing Technology Co ltd
Current assignee: Shanxi Tongfang Zhiwang Digital Publishing Technology Co ltd
Priority date: 2021-02-23
Filing date: 2021-02-23
Publication date: 2023-06-20
Anticipated expiration: 2041-02-23
Also published as: CN112905793A

Abstract

本发明公开了一种基于Bilstm+Attention文本分类的案例推荐方法及系统，所述方法包括：分别对事由分类模型及行为分类模型进行预训练；对待测案例使用ALBert进行句子向量表征；使用对应的预训练模型去掉最后一层分类层输出事由和行为特征向量；融合事由和行为特征向量进行案例推荐。所述系统包括：事由分类模型训练层、行为分类模型训练层、语义表征层、特征融合层和类案推荐层。通过文本分类模型可以筛选相同类型的候选案例集减少计算成本、时间成本，且获取文本分类模型分类层之前一层输出向量能够表征文本语义信息使得推荐案例更加准确。

Description

一种基于Bilstm+Attention文本分类的案例推荐方法及系统

技术领域

本发明涉及计算机技术领域，尤其涉及一种基于Bilstm+Attention文本分类的案例推荐方法及系统。

背景技术

早期的案例推荐都是基于统计的方法实现，与此同时伴随着机器学习算法的不断深入发展，已有基于文本分类的方式来实现案例推荐，例如使用设计特征工程和传统分类器方法对案例进行预测分类。近年来，随着深度学习的不断发展，基于深度神经网络的方法在文本分类、推荐等领域得到应用与发展。

文本分类是指给定文本P，将文本分类为n个类别中的一个或多个。文本特征工程分为文本预处理、特征提取、文本表示三个部分，目的就是把文本转换成计算机可理解的形式。文本表示常用词袋模型或向量空间模型，词袋模型就是把文本(段落或者文档)看作是无序的词汇集合，忽略语法甚至是单词的顺序，把每一个单词都进行统计，同时计算每个单词出现的次数，而向量空间模型就是把单词变成固定维度的特殊向量，其中意思相近的词被映射到向量空间中相近的位置，经过降维，在二维向量中，相似的单词在空间中的距离也很接近；文本分类常用的深度神经网络模型有卷积神经网络和循环神经网络，卷积神经网络是由输入层、卷积层、池化层、全连接层组成的多层前馈神经网络，而循环神经网络是一类以序列数据为输入，在序列的演进方向进行递归且所有节点(循环单元)按链式连接的递归神经网络。

现有技术的技术方案：

现有文本表示技术用One-Hot模型或Word2Vec词向量空间模型，对应本发明使用Albert+Bilstm+Attention文本分类预训练模型获取分类层之前一层特征向量来表征文本。

One-Hot编码是指通过文本(段落或者文档)看作是无序的词汇集合，把每一个单词都进行统计，通过设置阈值构建词典库，向量的维度也就是词典库的长度，单词在句子中出现了，那么向量中对应位置的元素是1，否则是 0，也就是说对于向量的第k个元素，如果词典库中的第k个词出现在句子中，那么其值为1，否则是0。

Word2Vec词向量空间模型是简单化的神经网络，主要包括两种词训练模型：CBOW模型和Skip-gram模型。CBOW模型根据中心词周围的词来预测中心词；Skip-gram模型根据中心词预测周围的词。CBOW模型的第一层是输入层，输入的值是周围每个词的One-Hot编码形式，隐藏层只是对输出值做了权值加法，没有激活函数进行非线性的转换，输出值的维度和输入值的维度是一致的。而Skip-gram模型的第一层是输入层，输入值是中心词的 One-Hot编码形式，隐藏层只是做线性转换，输出的是输出值的softmax转换后的概率。训练模型的隐藏层的输出就是每个输入单词的嵌入词向量。句子的向量表示通过分词，将词向量拼接来表征句子。

现有技术一的缺点

One-Hot模型或Word2Vec词向量空间模型最大的不足是忽略上下文关系，每个词之间彼此独立，并且无法准确地表征语义信息。One-Hot模型有两个最大的问题：数据稀疏性非常高，维度很大，很容易造成维度灾难。

发明内容

为解决上述技术问题，本发明的目的是提供一种基于Bilstm+Attention 文本分类的案例推荐方法及系统，该方法通过文本分类模型可以筛选相同类型的候选案例集减少计算成本、时间成本，且获取文本分类模型分类层之前一层输出向量能够表征文本语义信息使得推荐案例更加准确。

本发明的目的通过以下的技术方案来实现：

一种基于Bilstm+Attention文本分类的案例推荐方法，包括：

步骤A分别对事由分类模型及行为分类模型进行预训练；

步骤B对待测案例使用ALBert进行句子向量表征；

步骤C使用对应的预训练模型去掉最后一层分类层输出事由和行为特征向量；

步骤D融合事由和行为特征向量进行案例推荐。

一种基于Bilstm+Attention文本分类的案推荐系统，包括：

事由分类模型训练层、行为分类模型训练层、语义表征层、特征融合层和类案推荐层；所述

事由分类模型训练层与行为分类模型训练层；分别对事由分类模型及行为分类模型进行预训练；

语义表征层，用于对待测案例使用ALBert进行句子向量表征；使用对应的预训练模型去掉最后一层分类层输出事由和行为特征向量；

特征融合层，用于融合事由和行为特征向量；

类案推荐层，将融合后的事由和行为特征向量进行案例推荐。

与现有技术相比，本发明的一个或多个实施例可以具有如下优点：

使用ALBert预训练嵌入模型可以解决one-hot编码高维度、高稀疏问题；Bilstm+Attention事由和行为网络识别模型可以解决需要领域有经验专家设计手工特征问题，同时能够使用事由和行为识别模型获取分类层之前一层的事由特征向量和行为特征向量，此特征可以更好地表征文本描述上下文信息；通过事由和行为识别模型识别待测案例，从案例库中筛选相同事由和行为的候选案例来解决计算相似案例成本大、耗时多问题；本发明用于帮助人员快速查找和分析相似案例，节省时间，提高工作效率，进行公正判决。

附图说明

图1是基于Bilstm+Attention文本分类的案例推荐方法流程图；

图2是事由、行为分类模型图；

图3是案例相似性推荐类图；

图4是基于Bilstm+Attention文本分类的案例推荐系统框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合实施例及附图对本发明作进一步详细的描述。

如图1所示，为基于Bilstm+Attention文本分类的案例推荐方法流程，包括以下步骤：

步骤10分别对事由分类模型及行为分类模型进行预训练；

步骤20对待测案例使用ALBert进行句子向量表征；

步骤30使用对应的预训练模型去掉最后一层分类层输出事由和行为特征向量；

步骤40融合事由和行为特征向量进行案例推荐。

事由分类网络模型和行为分类网络模型见图2，两个模型相同只是数据不同，下面以事由为例，包括步骤如下：

将结构化后标签数据集按7:3的比例划分为训练数据集和测试数据集；数据预处理利用jieba对内容进行分词，如果为停用词，就放弃该词，否则将其加入分词结果中，构成新的文本内容；

将预处理后的事由文本描述的每个字利用ALBert映射成固定维度的向量，每个字都有一个单独的向量表示，例如，[x₁，x₂，x₃，…x_n]代表一个字，其中每个x代表一个数字，n为312；事由文本描述长度不同，将其长度统一为 200，如果大于200截断，否则向量补齐，事由文本描述的向量为200*312 二维矩阵。

将映射层输出的特征向量输入双向Bilstm层，其原理是学习字之间前向和后向序列语义信息，输出形式为200*256。

将双向Bilstm层输出的特征向量输入Attention层，其原理是每个字的表示都与其他字有关，且贡献权重不同，经过计算将其压缩成一维向量，可以更好的表达事由文本的语义信息。

将Attention层输出的一维特征向量输入分类层softmax，输出与数据标签一样维度的向量，累计计算最大值位置的误差。

反向传播更新网络参数采用自适应梯度下降策略，学习率会自动更新，根据前一个状态学习的步长情况，对应调整学习率的大小，使得模型向梯度下降最快的方向收敛，从而快速找到全局最优解。

如图3所示为相似案例推荐过程，包括：

(1)将待测案例进行jieba分词去除停用词得到预处理之后的文本描述，通过ALBert获取文本描述向量矩阵；

(2)将待测案例描述向量输入事由分类预训练模型获取事由类别，以及获取事由预训练模型分类层前一层特征输出作为事由语义表示向量 M(m₁，…m₂₅₆)_1*256；

(3)将待测案例描述向量输入行为分类预训练模型获取行为类别，以及获取行为预训练模型分类层前一层特征输出作为行为语义表示向量 N(n₁，…n₂₅₆)_1*256；

(4)在案例库中首先以待测案例事由类型筛选相同的候选案例，进一步筛选相同行为的候选案例，如果筛选结果为0，通过计算事由M分类特征向量相似度并排序；反之，通过Concat拼接融合事由M和行为N分类特征向量计算相似度并排序。

相似度计算采用余弦相似度，计算结果的值越大，表明相似度越大；反之则相似度越小。余弦相似度是计算向量与向量之间的夹角的余弦值，来衡量两个向量之间的距离及相似性。X和Y分别表示待测案例特征向量、候选案例特征向量，其计算方法如公式(1)。由于cosθ的取值范围为-1到1，在实际中更希望其归一化到0到1，因此通常在计算余弦相似度的时候，变换公式如(2)。

其中

是指计算两个向量之间的点积，/>

是指向量的模。

如图4所示，本实施例还提供了一种基于Bilstm+Attention文本分类的案例推荐系统，所述系统包括：事由分类模型训练层、行为分类模型训练层、语义表征层、特征融合层和类案推荐层；所述事由分类模型训练层与行为分类模型训练层；分别对事由分类模型及行为分类模型进行预训练；语义表征层，用于对待测案例使用ALBert进行句子向量表征；使用对应的预训练模型去掉最后一层分类层输出事由和行为特征向量；特征融合层，用于融合事由和行为特征向量；类案推荐层，将融合后的事由和行为特征向量进行案例推荐。所述语义表征层包括：事由分类特征层和行为分类特征层；所述事由分类特征层，用于输出事由特征向量；所述行为分类特征层，用于输出行为特征向量。

虽然本发明所揭露的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种基于Bilstm+Attention文本分类的案例推荐方法，其特征在于，所述方法包括以下步骤：

步骤A分别对事由分类模型及行为分类模型进行预训练；

步骤B对待测案例使用ALBert进行句子向量表征；

步骤D融合事由和行为特征向量进行案例推荐；

所述步骤D中案例推荐过程包括：

1)将待测案例进行jieba分词去除停用词得到预处理之后的文本描述，通过ALBert获取文本描述向量矩阵；

2)将待测案例描述向量输入事由分类预训练模型获取事由类别，以及获取事由预训练模型分类层前一层特征输出作为事由语义表示向量M(m₁，…，m₂₅₆)_1*256；

3)将待测案例描述向量输入行为分类预训练模型获取行为类别，以及获取行为预训练模型分类层前一层特征输出作为行为语义表示向量N(n₁，…，n₂₅₆)_1*256；

4)在案例库中首先以待测案例事由类型筛选相同的候选案例，进一步筛选相同行为的候选案例；如果筛选结果为0，通过计算事由M分类特征向量相似度并排序；反之，通过拼接融合事由M和行为N分类特征向量计算相似度并排序；

所述步骤A中事由分类模型预训练包括：

1)将结构化后标签数据集划分为训练数据集和测试数据集，并利用jieba分词对数据内容分词进行数据预处理；

2)将预处理后的事由文本描述的每个字利用ALBert映射成固定维度的向量；其中，每个字都有一个单独的向量表示；

3)将映射层输出的特征向量输入双向Bilstm层，并输出特征向量；

4)将双向Bilstm层输出的特征向量输入Attention层，并输出一维特征向量；

5)将Attention层输出的一维特征向量输入分类层softmax，输出与数据标签一样维度的向量，累计计算最大值位置的误差。

2.如权利要求1所述的基于Bilstm+Attention文本分类的案例推荐方法，其特征在于，如果分词为停用词就放弃该词，否则将其加入分词结果中，构成新的文本内容。

3.如权利要求1所述的基于Bilstm+Attention文本分类的案例推荐方法，其特征在于，所述相似度计算采用余弦相似度，计算结果的值越大，表明相似度越大；反之则相似度越小；余弦相似度是计算向量与向量之间的夹角的余弦值，来衡量两个向量之间的距离及相似性；相似度计算公式为：

其中，X和Y分别表示待测案例特征向量、候选案例特征向量；X*Y是指计算两个向量之间的点积，||X||是指向量的模。

4.用于权利要求1-3任一项所述方法的基于Bilstm+Attention文本分类的案例推荐系统，其特征在于，所述系统包括：事由分类模型训练层、行为分类模型训练层、语义表征层、特征融合层和类案推荐层；所述

特征融合层，用于融合事由和行为特征向量；

5.如权利要求4所述的基于Bilstm+Attention文本分类的案例推荐系统，其特征在于，所述语义表征层包括：事由分类特征层和行为分类特征层；所述事由分类特征层，用于输出事由特征向量；所述行为分类特征层，用于输出行为特征向量。