CN116187419A

CN116187419A - 一种基于文本组块的层级体系自动构建方法

Info

Publication number: CN116187419A
Application number: CN202310455626.0A
Authority: CN
Inventors: 张勇东; 宋彦; 毛震东; 陈伟东; 田元贺
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2023-04-25
Filing date: 2023-04-25
Publication date: 2023-05-30
Anticipated expiration: 2043-04-25
Also published as: CN116187419B

Abstract

本发明涉及层级体系构建技术领域，公开了一种基于文本组块的层级体系自动构建方法，包括：将文本切分为单词；文本组块抽取；编码；文本组块表征；计算权重；计算文本组块重要性；构建单词表；构建层级体系；本发明基于神经网络模型，使用完全自动的方法从数据中抽取文本组块信息，构建体系节点及其连接；此外，本发明采用基于注意力图卷积神经网络的方法计算不同文本组块的重要性，实现基于重要性的体系节点分层。

Description

一种基于文本组块的层级体系自动构建方法

技术领域

本发明涉及层级体系构建技术领域，具体涉及一种基于文本组块的层级体系自动构建方法。

背景技术

层级体系旨在构建具有层级的图结构系统，该图结构系统包括属于不同层级的节点以及节点之间的连接，节点之间的连接也称为边。

现有的层级体系构建方法往往采用自顶向下的方法，即先设计体系，然后用数据填充体系内容。这种方法需要大量的人工设计和构建工作，维护成本高，难以及时对新数据更新。

发明内容

为解决上述技术问题，本发明提供一种基于文本组块的层级体系自动构建方法。本发明从数据出发，采用自底向上的方法构建层级体系。

为解决上述技术问题，本发明采用如下技术方案：

一种基于文本组块的层级体系自动构建方法，为给定语料库构建层级体系，包括以下步骤：

步骤一：从语料库中取出若干段文本，并将每段文本切分为单词；其中，第i段文本

切分后的单词序列记为

，

表示文本

中的第j个单词，

表示文本

中单词的总数；

步骤二、文本组块抽取：对于各段文本

，从文本

中抽取

个文本组块，组成文本组块集合

，其中

为文本

的第k个文本组块，文本组块为文本中一个或多个连续单词组成的序列；在文本组块之间建立连接，得到

维度的邻接矩阵

；

步骤三、编码：将文本

各单词

的单词向量

输入编码器中，得到单词

的隐向量

；

步骤四、文本组块表征：通过最大池化方法由单词的隐向量计算文本

各文本组块

的隐向量

；

步骤五：通过L层的注意力图卷积神经网络，对文本

中文本组块的隐向量以及邻接矩阵A进行建模；在注意力图卷积神经网络第

层中，计算得到文本

中第v个文本组块

对第k个文本组块

的权重

，

；

步骤六、文本组块重要性计算：计算文本

中第v个文本组块

的重要性

：

；计算文本

中第v个文本组块

和第k个文本组块

构成的文本组块对（

,

）的重要性

：

；

步骤七：将文本

各文本组块及文本组块的重要性、各文本组块对及文本组块对的重要性记录到单词表V中；

步骤八、层级体系构建：将单词表

中所有相同文本组块的重要性相加并计算平均，得到第

个文本组块的重要性

；将单词表

中所有相同文本组块对的重要性相加并计算平均，得到第

个文本组块和第

个文本组块组成的文本组块对的重要性

；

为单词表V中所有不相同的文本组块的总数；

使用预先定义的阈值

，其中

，把所有文本组块分为

层；如果

满足

，则第

个文本组块属于层级体系的第

层；如果

满足

，则第

个文本组块属于层级体系的第一层；如果

满足

，则第

个文本组块属于层级体系的第

层；层级体系中节点为分层级的文本组块，节点之间的边由文本组块对表示，边上的权重由文本组块对的重要性

表示。

具体地，步骤二中，文本

的第k个文本组块

表示为

，其中

表示文本组块

中的第

个单词，

表示文本组块

中单词的个数。

进一步地，步骤二具体包括以下步骤：

S21：计算单词

与单词

的逐点互信息

：

；

其中，

表示单词

与单词

在语料库中连续出现的概率，即单词对

出现的概率；

表示单词

出现在语料库中的概率；

表示单词

出现在语料库中的概率；

S22：将

与一个预先定义的阈值

比较，如果

，则在单词

与单词

之间插入一个分隔符，如果

，则不插入分隔符；

S23：使用分隔符将文本

切分，得到文本组块集合

；

S24：在第k个文本组块

与第k-2个文本组块

、第k-1个文本组块

、第k+1个文本组块

、第k+2个文本组块

之间建立连接；使用

维度的邻接矩阵

记录连接，

第k行第v列位置的值记为

；如果第k个文本组块

与第v个文本组块

之间有连接，则

，否则

。

进一步地，步骤四中，计算文本组块

的隐向量

时：

；

其中，

表示最大池化方法，

是文本组块

的第

个单词

的隐向量。

进一步地，步骤五中，在注意力图卷积神经网络第

层中计算文本组块

对文本组块

的权重

时：

；

注意力图卷积神经网络第

层的输出隐向量即为第

层的输入隐向量

，在第

层中计算第

层的第k个输入隐向量

；

；

其中

是激活函数，

和

是第

层的参数。

与现有技术相比，本发明的有益技术效果是：

1.本发明从数据出发，采用自底向上的方法构建层级体系。本发明基于神经网络模型，使用完全自动的方法从数据中抽取文本组块信息构建体系节点及其连接。完全从数据出发，不依赖人工设计，易于更新，具有更好的对新数据的适应性。

2.本发明采用基于注意力图卷积神经网络的方法计算不同文本组块的重要性，实现基于重要性的体系节点分层。

附图说明

图1为本发明的模型结构示意图。

具体实施方式

下面结合附图对本发明的一种优选实施方式作详细的说明。

如图1所示，本发明的模型结构包括文本组块抽取模块、编码器、组块表征计算模块、L层的注意力图卷积神经网络、组块重要性计算模块以及层级体系构建模块六部分。

本发明的层级体系自动构建方法包括以下步骤：

S1：从语料库中抽取一段文本，并将这段文本切分为单词。其中，第i段文本

拆分后的单词序列记为

，

表示第i段文本

中的第j个单词，

表示第i段文本

中单词的总数；

S2：在文本组块抽取模块中，从第i段文本

中抽取文本组块集合

，其中，

为第k个文本组块，

为第i段文本

中文本组块的总数。每一个文本组块

是第i段文本

中一个或多个连续单词组成的序列，即

可以表示为

，其中

表示第k个文本组块

中的第

个单词，

表示第k个文本组块

中单词的个数。同时，在文本组块之间建立连接，记为邻接矩阵

。其中，邻接矩阵

为一个

维度的矩阵，邻接矩阵

第k行第v列位置的值记为

。

步骤S2具体包括：

S21：使用下面的公式计算单词

与单词

的逐点互信息

：

；

其中，

表示单词

与单词

在语料库中连续出现的概率，即单词对

出现的概率；

表示单词

出现在语料库中的概率；

表示单词

出现在语料库中的概率。

S22：将

与一个预先定义的阈值

比较，如果

，则在单词

与单词

之间插入一个分隔符，否则不插入分隔符。通过对所有单词对的逐点互信息

的计算和比较，在第i段文本

中插入了多个分隔符。

S23：使用分隔符将第i段文本

切分，得到文本组块集合

。

S24：在第k个文本组块

与第k-2个文本组块

、第k-1个文本组块

、第k+1个文本组块

、第k+2个文本组块

之间建立连接。使用

维度的邻接矩阵

记录连接，邻接矩阵

第k行第v列位置的值记为

。如果第k个文本组块

与第v个文本组块

之间有连接，则

，否则

。

S3：在编码器中，把第j个单词

转换为单词向量

后，输入编码器中，经过编码处理后，得到隐向量

。类似地，得到所有单词的隐向量{

}。

S4：在组块表征计算模块，通过下面的公式计算第k个文本组块

的隐向量

：

；

其中，

表示最大池化方法，

是经过编码器处理后的文本组块

的第

个单词

的隐向量。类似地，得到所有文本组块的隐向量

。

S5：在L层的注意力图卷积神经网络中，对文本组块隐向量

和邻接矩阵A建模。其中，注意力图卷积神经网络第

层的输出隐向量是第

层的输入隐向量

，在注意力图卷积神经网络的第l层中计算权重集合

{

}，其中

表示第l层中，第i段文本

中第v个文本组块

对第k个文本组块

的权重。类似地，可以得到所有L层的权重集合

。

步骤S5具体包括如下步骤：

S51：在第

层中，使用下面的公式，计算第

个文本组块

对第

个文本组块

的权重

：

；

S52：在第

层中，使用下面的公式，计算第

层的第k个输入隐向量

：

；

其中

是激活函数，

和

是第

层的参数。

S6：在组块重要性计算模块，使用下面的公式计算第v个文本组块

的重要性

：

；

同时，使用下面的公式计算第v个文本组块

和第k个文本组块

构成的文本组块对（

,

）的重要性

：

；

类似地，计算所有文本组块

的重要性

，以及所有文本组块对

的重要性{

。

S7：把文本组块

以及他们的重要性

记录到一个单词表

中，同时，也把所有文本组块对

以及他们的重要性{

记录到单词表

中。通过遍历语料库中所有的文本，单词表

中记录了所有的文本组块、文本组块对以及它们的重要性。

S8：在层级体系构建模块，将单词表

中所有同样的文本组块的重要性相加并计算平均，得到第

个文本组块的重要性

；将单词表

中所有同样的文本组块对的重要性相加并计算平均，得到第

个文本组块和第

个文本组块组成的文本组块对的重要性

。使用预先定义的阈值

，其中

把所有文本组块分为

层，如果

满足

，则第

个文本组块属于层级体系的第

层。特别地，如果

满足

，则第

个文本组块属于层级体系的第一层；如果

满足

，则第

个文本组块属于层级体系的第

层。至此，完成了基于文本组块的层级体系构建。层级体系中节点为分层级的文本组块，节点之间的边由文本组块对表示，边上的权重由文本组块对的重要性

表示。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内，不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立技术方案，说明书的这种叙述方式仅仅是为了清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。