CN117251574B

CN117251574B - 一种基于多特征数据融合的文本分类提取方法及系统

Info

Publication number: CN117251574B
Application number: CN202311450732.6A
Authority: CN
Inventors: 邓峰; 杨敬敬; 陈世强
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2023-11-02
Filing date: 2023-11-02
Publication date: 2024-04-26
Anticipated expiration: 2043-11-02
Also published as: CN117251574A

Abstract

本发明提供一种基于多特征数据融合的文本分类提取方法及系统，其中方法包括：对待处理数据进行预处理，获取第一数据；基于预设的数据嵌入规则，对第一数据进行数据嵌入处理，获取第二数据；对第二数据进行特征提取，获取多个特征数据；基于预设的评分模型，确定各个特征数据的权重；基于多个特征数据和权重，确定特征向量矩阵和权重矩阵；基于特征向量矩阵和权重矩阵，确定分类层的输入。本发明的基于多特征数据融合的文本分类提取方法，以词为最小单元特征进行文本分类任务，将深度学习算法与文本的表示方法结合起来，可以有效提高文本分类的精确度。

Description

一种基于多特征数据融合的文本分类提取方法及系统

技术领域

本发明涉及计算机技术领域，特别涉及一种基于多特征数据融合的文本分类提取方法及系统。

背景技术

文本分类是自然语言处理任务中的一个重要分支领域，已成功应用到推荐系统、垃圾邮件过滤系统、新闻文本分类系统以及情感分析任务中。在大数据时代，如何对大量的文本信息进行高效的分类极具研究价值。

发明内容

本发明目的之一在于提供了一种基于多特征数据融合的文本分类提取方法，以词为最小单元特征进行文本分类任务，将深度学习算法与文本的表示方法结合起来，可以有效提高文本分类的精确度。

本发明实施例提供的一种基于多特征数据融合的文本分类提取方法，包括：

对待处理数据进行预处理，获取第一数据；

基于预设的数据嵌入规则，对第一数据进行数据嵌入处理，获取第二数据；

对第二数据进行特征提取，获取多个特征数据；

基于预设的评分模型，确定各个特征数据的权重；

基于多个特征数据和权重，确定特征向量矩阵和权重矩阵；

基于特征向量矩阵和权重矩阵，确定分类层的输入。

优选的，预处理包括：分词、去除停用词。

优选的，基于预设的数据嵌入规则，对第一数据进行数据嵌入处理，获取第二数据，包括：

基于第一数据的各个数据，确定各个数据的词嵌入数据和位置嵌入数据；

基于词嵌入数据和位置嵌入数据，确定第二数据的各个数据。

优选的，对第二数据进行特征提取，获取多个特征数据，包括：

基于第一卷积层，对第二数据进行处理，获取多个第一输出数据；

对第一输出数据进行池化操作，获取至少一个第一特征数据；

基于第二卷积层，对第二数据进行处理，获取多个第二输出数据；

对第二输出数据进行池化操作，获取至少一个第二特征数据；

基于第三卷积层，对第二数据进行处理，获取多个第三输出数据；

对第三输出数据进行池化操作，获取至少一个第三特征数据；

将第一特征数据、第二特征数据和第三特征数据，作为特征数据。

优选的，基于多个特征数据和权重，确定特征向量矩阵和权重矩阵，包括：

将权重小于预设的权重阈值所对应的特征数据删除；

基于权重大于等于预设的权重阈值所对应的特征数据，构建特征向量矩阵；

基于特征向量矩阵中各个特征数据对应的权重，构建特征向量矩阵。

本发明还提供一种基于多特征数据融合的文本分类提取系统，包括：

预处理模块，用于对待处理数据进行预处理，获取第一数据；

嵌入模块，用于基于预设的数据嵌入规则，对第一数据进行数据嵌入处理，获取第二数据；

特征提取模块，用于对第二数据进行特征提取，获取多个特征数据；

权重分析模块，用于基于预设的评分模型，确定各个特征数据的权重；

第一确定模块，用于基于多个特征数据和权重，确定特征向量矩阵和权重矩阵；

第二确定模块，用于基于特征向量矩阵和权重矩阵，确定分类层的输入。

优选的，预处理包括：分词、去除停用词。

优选的，嵌入模块基于预设的数据嵌入规则，对第一数据进行数据嵌入处理，获取第二数据，执行如下操作：

优选的，特征提取模块对第二数据进行特征提取，获取多个特征数据，执行如下操作：

基于第二积层，对第二数据进行处理，获取多个第二输出数据；

基于第三积层，对第二数据进行处理，获取多个第三输出数据；

优选的，基于预设的评分模型，确定各个特征数据的权重，包括：

基于评分模型的查询向量、键向量和值向量，对第二数据中各个数据进行处理，分别获取第一中间向量、第二中间向量和第三中间向量；

计算第二中间向量转置后与第一中间向量的内积，基于计算结果构建第二数据对应的评分矩阵；

对评分矩阵进行归一化处理，获取概率分布矩阵；

基于概率分布矩阵和第三中间向量，确定各个特征数据的权重。

优选的，第一确定模块基于多个特征数据和权重，确定特征向量矩阵和权重矩阵，执行如下操作：

将权重小于预设的权重阈值所对应的特征数据删除；

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种基于多特征数据融合的文本分类提取方法的示意图；

图2为本发明实施例中一种基于多特征数据融合的文本分类提取系统的示意图；

图3为本发明实施例中特征提取过程的示意图；

图4为本发明实施例中一种评分模型的工作示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明实施例提供了一种基于多特征数据融合的文本分类提取方法，如图1所示，包括：

步骤S1：对待处理数据进行预处理，获取第一数据；

步骤S2：基于预设的数据嵌入规则，对第一数据进行数据嵌入处理，获取第二数据；

步骤S3：对第二数据进行特征提取，获取多个特征数据；

步骤S4：基于预设的评分模型，确定各个特征数据的权重；

步骤S5：基于多个特征数据和权重，确定特征向量矩阵和权重矩阵；

步骤S6：基于特征向量矩阵和权重矩阵，确定分类层的输入。

其中，预处理包括：分词、去除停用词。

其中，基于预设的数据嵌入规则，对第一数据进行数据嵌入处理，获取第二数据，包括：

其中，对第二数据进行特征提取，获取多个特征数据，包括：

对第一输出数据进行池化操作，获取至少一个第一特征数据；所有的通过卷积层提取到的词向量特征(即第一输出数据)，如果都作为分类层的输入时，会造成计算机大量资源的浪费和降低效率，因此需要使用池化，减少资源浪费并提高效率；对于池化，可以使用1-max池化，就是每一条输入的文本序列在经过卷积池化后只留下了一个最能代表本条文本序列的词向量特征，这样一条文本序列映射到分类层的特征就只有一个，极大的降低了训练的资源和代价，也能保证训练出的模型具有良好的代表性；

其中，基于预设的评分模型，确定各个特征数据的权重，包括：

对评分矩阵进行归一化处理，获取概率分布矩阵；

其中，基于多个特征数据和权重，确定特征向量矩阵和权重矩阵，包括：

将权重小于预设的权重阈值所对应的特征数据删除；

上述技术方案的工作原理及有益效果为：

本发明的基于多特征数据融合的文本分类提取方法，首先对待处理数据进行简单的数据预处理，包括分词去停用词等；然后进行嵌入操作；其次，为特征选择层分别使用三层卷积提取文本特征，同时定义一种评分函数对输入的特征向量进行权重分配，通过设置权重因子剔除掉冗余特征，选择有效特征生成评分矩阵。通过调节权重因子可以提高模型在不同领域分类任务中的适用性。该部分将评分函数这一过程使用不同的参数计算很多次，最后把他们计算的结果加在一起；本方法具有并行计算能力，可以极大地缩短运行时间，提高训练效率。将特征提取后的特征向量矩阵及权重分配后的评分矩阵经线性变换后映射到特征空间中并为所有的输出类别添加一个基础得分。最后分类层的输入由分类层中softmax激活函数将向量映射到一个概率分布上，并使用交叉熵函数作为损失函数来评估模型预测的概率分布与真实标签的差异。其中，嵌入处理时，将word embedding数据与Positional Embedding数据求和的方法，加入了相对位置信息；任意位置的相对位置信息都可以表示为线性函数，对于pos+k位置的位置向量某一维2i或2i+1而言，可以表示为，pos与k位置向量的2i与2i+1维的线性组合(用三角函数计算)，这样的线性组合意味着位置向量中蕴含了相对位置信息。通过迭代计算可以使相对位置信息的表示适应比训练集里面所有句子更长的句子，如训练集里面最长的句子是有30个单词，当有一个长度为31的句子时，则使用公式计算的方法可以计算出第31位的Embedding。

使用三个卷积层进行特征提取，每层卷积核的尺寸分别为2，3，4。在提取特征过程时从输入的定长文本序列L中，先利用局部词序信息，提取初级的特征，最后将初级特征组合为高级特征，对模型的输入向量利用卷积层进行特征提取，可以最大程度将文本有用的特征留下来，其卷积过程如图3所示。

对于输入的文本序列L，在词嵌入层中得到每个词语的预训练词向量表示，组成一个形状为(N,L,d)的张量，其中d是词向量维度，N是批处理大小。输入到第一层卷积，卷积核大小为2，共有256个卷积核。对于大小为的输入，经过卷积操作后输出为(N,L-2,d)，卷积操作如式(2)，由于卷积核大小为2，在每个位置上都会生成1个输出，所以总共可以生成L-2+1个输出。然后进行池化操作，使用max pooling将每个卷积核在每个位置上的最大值保留，输出为(N,1,256)，其中1是由于max pooling将所有卷积核在所有位置上的最大值拼接在一起生成一个长度为256的向量。之后进行Dropout处理后，传入到第二层卷积，同理再到第三层卷积。最后将三层的输出进行张量拼接变成形状为(N,1,768)的特征向量矩阵E。定义一个特定的评分函数来计算注意力权重，该评分函数根据查询向量(Q)和键向量(K)之间的相似度来计算注意力权重并指导各个位置的信息被如何加权组合。在评分函数中，通过对K向量进行转置，将Q向量的维度与K向量的维度匹配，然后进行内积计算得到评分矩阵，最后通过归一化函数将评分矩阵压缩为概率分布，用于加权组合对应位置的值向量(V)。在计算注意力权重时，通过将评分函数中的内积结果除以一个缩放因子，可以避免内积结果过大或过小而导致模型难以优化或过拟合，同时缩放因子的值也可以通过实验确定。具体如图4所示，将特征选择层中通过卷积提取到的文本特征构建成一个特征向量矩阵E；设置权重因子,将经过权重分配后权重低于的特征视为冗余特征并进行有效剔除；经过权重分配后权重高于的特征视为有效特征并构建成一个权重矩阵C；将特征向量矩阵乘以权重矩阵再加上偏置向量B，最终融合成为分类层中softmax激活函数的输入。

为了适应不同的数据的分类，在一个实施例中，在基于多个特征数据和权重，确定特征向量矩阵和权重矩阵过程中使用的权重阈值通过如下步骤确定：

基于预设的关键词提取库，对待处理数据进行关键词提取，并对提取的关键词进行量化，获取量化值；其中，关键词提取库中规定了需要提取的关键词以及关键词对应的量化值；

对待处理数据进行特征提取，获取数据特征值；数据特征值包括：表示数据类型的特征值、表示数据长度的特征值等；

将量化值和数据特征值分别填入阈值确定参数集模板中对应的位置，形成阈值确定参数集；

将阈值确定参数集与预设的阈值确定库中各个阈值对应关联的标准参数集进行匹配，

提取与阈值确定参数集匹配的标准参数集对应的阈值。

其中，阈值确定库为事先由专业人员进行分析构建；在分析构建时由专业人员对多组待处理数据进采用不同的阈值进行处理的数据进行分析，给出阈值初始值以及阈值控制范围；阈值控制范围规定了阈值的上下限值；

此外，在阈值确定库的使用过程中还根据使用情况对阈值进行调整修正，具体修正步骤如下：

为每个阈值配置一个修正触发参数；修正触犯参数初始为零；

每次被调用时，修正触发参数加一；

当修正触发参数大于预设的触发值(例如：100至1000中任一数值)时，获取阈值使用记录；

基于阈值使用记录，确定第一分类准确率；

基于预设的修正规则对阈值进行修正，获取至少一个修正后的阈值；例如：采用多个预设的修正值对阈值进行修正，以此获取修正后的阈值，

采用修正后的阈值对阈值使用记录中的待处理数据进行重新分类，确定第二分类准确率；

将第一分类准确率、第二分类准确率及第一分类准确率对应的阈值、第二分类准确率对应的阈值，存储作为一条修正依据数据；

当修正依据数据的数量达到预设的数量阈值(2至10中任一数值)，确定第二分类准确率大于等于第一分类准确率的占比值是否大于预设的占比阈值；

当大于时，基于占比值最大的第二分类准确率对应的阈值对阈值确定库中的阈值进行更新修正。

其中，占比值为第二分类准确率大于等于第一分类准确率的修正依据数据数量与修正依据数据的总数的比值。

其中，第一分类准确率为分类准确的待处理数据的数量与数据总量的比值。

在一个实施例中，对第二数据进行特征提取，获取多个特征数据，包括：

将量化值和数据特征值分别特征提取参数确定集模板中对应的位置，形成特征提取参数确定集；

将特征提取参数确定集与预设的特征提取参数确定库中各个特征提取参数集对应关联的调取参数集进行匹配，

提取与特征提取参数确定集匹配的调取参数集对应的特征提取参数集；

解析特征提取参数集，确定卷积次数以及每次卷积对应的卷积核参数；

基于卷积次数以及每次卷积对应的卷积核参数，分别对第二数据进行处理，获取多个处理结果；

将多个处理结果作为特征数据。

本实施例根据待处理数据的特征，确定卷积次数以及卷积核，以便适应不同的数据的分类处理，提高数据分类的准确性。

本发明还提供一种基于多特征数据融合的文本分类提取系统，如图2所示，包括：

预处理模块1，用于对待处理数据进行预处理，获取第一数据；

嵌入模块2，用于基于预设的数据嵌入规则，对第一数据进行数据嵌入处理，获取第二数据；

特征提取模块3，用于对第二数据进行特征提取，获取多个特征数据；

权重分析模块4，用于基于预设的评分模型，确定各个特征数据的权重；

第一确定模块5，用于基于多个特征数据和权重，确定特征向量矩阵和权重矩阵；

第二确定模块6，用于基于特征向量矩阵和权重矩阵，确定分类层的输入。

其中，预处理包括：分词、去除停用词。

其中，嵌入模块基于预设的数据嵌入规则，对第一数据进行数据嵌入处理，获取第二数据，执行如下操作：

其中，特征提取模块对第二数据进行特征提取，获取多个特征数据，执行如下操作：

其中，第一确定模块基于多个特征数据和权重，确定特征向量矩阵和权重矩阵，执行如下操作：

将权重小于预设的权重阈值所对应的特征数据删除；

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于多特征数据融合的文本分类提取方法，其特征在于，包括：

对待处理数据进行预处理，获取第一数据；

基于预设的数据嵌入规则，对所述第一数据进行数据嵌入处理，获取第二数据；

对所述第二数据进行特征提取，获取多个特征数据；

基于预设的评分模型，确定各个特征数据的权重；

基于多个所述特征数据和所述权重，确定特征向量矩阵和权重矩阵；

基于所述特征向量矩阵和所述权重矩阵，确定分类结果；

其中，所述基于多个所述特征数据和所述权重，确定特征向量矩阵和权重矩阵，包括：

将所述权重小于预设的权重阈值所对应的所述特征数据删除；

基于所述权重大于等于预设的权重阈值所对应的所述特征数据，构建特征向量矩阵；

基于所述特征向量矩阵中各个所述特征数据对应的权重，构建所述特征向量矩阵；

其中，在基于多个特征数据和权重，确定特征向量矩阵和权重矩阵的过程中使用的权重阈值通过如下步骤确定：

基于预设的关键词提取库，对待处理数据进行关键词提取，并对提取的关键词进行量化，获取量化值；

对待处理数据进行特征提取，获取数据特征值；

提取与阈值确定参数集匹配的标准参数集对应的阈值；

其中，在阈值确定库的使用过程中还根据使用情况对阈值进行调整修正，具体修正步骤如下：

为每个阈值配置一个修正触发参数；

每次被调用时，修正触发参数加一；

当修正触发参数大于预设的触发值时，获取阈值使用记录；

基于阈值使用记录，确定第一分类准确率；

基于预设的修正规则对阈值进行修正，获取至少一个修正后的阈值；

当修正依据数据的数量达到预设的数量阈值，确定第二分类准确率大于等于第一分类准确率的占比值是否大于预设的占比阈值；

当大于时，基于占比值最大的第二分类准确率对应的阈值对阈值确定库中的阈值进行更新修正；

其中，占比值为第二分类准确率大于等于第一分类准确率的修正依据数据数量与修正依据数据的总数的比值；

2.如权利要求1所述的基于多特征数据融合的文本分类提取方法，其特征在于，所述预处理包括：分词、去除停用词。

3.如权利要求1所述的基于多特征数据融合的文本分类提取方法，其特征在于，基于预设的数据嵌入规则，对所述第一数据进行数据嵌入处理，获取第二数据，包括：

基于所述第一数据的各个数据，确定各个数据的词嵌入数据和位置嵌入数据；

基于所述词嵌入数据和所述位置嵌入数据，确定第二数据的各个数据。

4.如权利要求1所述的基于多特征数据融合的文本分类提取方法，其特征在于，所述对所述第二数据进行特征提取，获取多个特征数据，包括：

基于第一卷积层，对所述第二数据进行处理，获取多个第一输出数据；

对所述第一输出数据进行池化操作，获取至少一个第一特征数据；

基于第二卷积层，对所述第二数据进行处理，获取多个第二输出数据；

对所述第二输出数据进行池化操作，获取至少一个第二特征数据；

基于第三卷积层，对所述第二数据进行处理，获取多个第三输出数据；

对所述第三输出数据进行池化操作，获取至少一个第三特征数据；

将所述第一特征数据、所述第二特征数据和所述第三特征数据，作为所述特征数据。

5.如权利要求1所述的基于多特征数据融合的文本分类提取方法，其特征在于，所述基于预设的评分模型，确定各个特征数据的权重，包括：

基于所述评分模型的查询向量、键向量和值向量，对第二数据中各个数据进行处理，分别获取第一中间向量、第二中间向量和第三中间向量；

对评分矩阵进行归一化处理，获取概率分布矩阵；

6.一种基于多特征数据融合的文本分类提取系统，其特征在于，包括：

嵌入模块，用于基于预设的数据嵌入规则，对所述第一数据进行数据嵌入处理，获取第二数据；

特征提取模块，用于对所述第二数据进行特征提取，获取多个特征数据；

第一确定模块，用于基于多个所述特征数据和所述权重，确定特征向量矩阵和权重矩阵；

第二确定模块，用于基于所述特征向量矩阵和所述权重矩阵，确定分类层的输入；

将权重小于预设的权重阈值所对应的特征数据删除；

基于特征向量矩阵中各个特征数据对应的权重，构建特征向量矩阵；

对待处理数据进行特征提取，获取数据特征值；

提取与阈值确定参数集匹配的标准参数集对应的阈值；

为每个阈值配置一个修正触发参数；

每次被调用时，修正触发参数加一；

当修正触发参数大于预设的触发值时，获取阈值使用记录；

基于阈值使用记录，确定第一分类准确率；

7.如权利要求6所述的基于多特征数据融合的文本分类提取系统，其特征在于，所述预处理包括：分词、去除停用词。

8.如权利要求6所述的基于多特征数据融合的文本分类提取系统，其特征在于，嵌入模块基于预设的数据嵌入规则，对所述第一数据进行数据嵌入处理，获取第二数据，执行如下操作：

9.如权利要求6所述的基于多特征数据融合的文本分类提取系统，其特征在于，所述特征提取模块对所述第二数据进行特征提取，获取多个特征数据，执行如下操作：