CN113806554A

CN113806554A - 面向海量会议文本的知识图谱构建方法

Info

Publication number: CN113806554A
Application number: CN202111072123.2A
Authority: CN
Inventors: 孙建伟; 许佑骏; 俞俊峰; 张华桁; 李俊学
Original assignee: Shanghai Yunsi Intelligent Information Technology Co ltd
Current assignee: Shanghai Yunsi Intelligent Information Technology Co ltd
Priority date: 2021-09-14
Filing date: 2021-09-14
Publication date: 2021-12-17
Anticipated expiration: 2041-09-14
Also published as: CN113806554B

Abstract

本发明公开了面向海量会议文本的知识图谱构建方法，具体地，包含以下三个步骤：1)会议纪要提取首先基于纪要模板提取每个纪要文档的共有属性，再基于联合建模提取每个纪要文档中的实体和关系。2)会议内容的提取首先基于会议内容模板提取每个会议内容文档的共有属性，再针对非结构化的文档分段，每一段作为知识图中的一个实体。3)会议纪要和会议内容关系提取，通过建立会议纪要和会议内容的关系，每一条会议纪要能和每一段会议内容建立联系，这个过程本发明采用一个基于语义匹配的模型提取关系。所述方法基于自建数据集完成模型训练，能构建一个基于会议文本数据的知识图谱，基于该知识图谱可完成会议信息的检索。

Description

面向海量会议文本的知识图谱构建方法

技术领域

本发明涉及自然语言处理领域，尤其涉及一种面向海量会议文本的知识图谱构建方法。

背景技术

近年来，社会日益认识到传统的搜索引擎检索模型已不能满足复杂信息的需求，建议根据复杂信息的特点，为复杂的搜索任务提供额外的增强服务。这是主流搜索引擎公司谷歌，Bing,百度的共识。自动问答系统是一个更先进的下一代搜索引擎，它返回简单、直接和实时的答案，而不是带有超链接的排序列表。知识图谱是包含大量概念和关系的语义网络，具有可解释性。近年来，因其出色的知识表示能力被广泛应用于问答系统、推荐系统和搜索引擎中，提高了许多智能系统的性能。目前会议检索领域对知识图谱有巨大的需求，首先需要从海量半结构化的会议数据中构建会议知识图谱，再通过对知识图谱的检索，能够回答具有可解释性的复杂查询。

实体关系描述了存在事物之间的关联关系，定义为两个或多个实体之间的某种联系，是知识图自动构建和自然语言理解的基础。关系抽取是指从文本中自动检测和识别实体之间的某种语义关系。近二十年来，关系抽取一直是人们研究的热点。内核方法，图模型等在其中得到了广泛的应用，并取得了一些成果。会议纪要实体与会议内容实体的对应关系可以被建模为文本相似度计算。目前文本相似度计算的方法可分为语义匹配和相关性匹配，语义匹配通过利用词汇信息(例如，单词、短语、实体)和组合结构(例如，依赖树)来强调“意义”对应，而相关性匹配则侧重于关键字匹配。虽然在高层次上，相关性和语义匹配都是对文本相似性进行建模，但两者各有局限。

发明内容

本发明面向海量会议文本的知识图谱构建方法包括以下步骤：

步骤S1、基于半结构化的会议纪要提取知识图实体和关系

步骤S1.1：针对获取的会议纪要内容，采用不同的纪要模板提取会议纪要各部分内容，例如会议时间，会议地点，会议纪要条目。

步骤S1.2:使用会议纪要文本语料库对BERT模型预训练。将BERT模型添加到联合提取模型中。

步骤S1.3:预设网络中LSTM层数、LSTM单元大小。

步骤S1.4:使用BERT预训练模型代替训练集和测试集。

步骤S1.5：训练联合学习模型。联合学习模型包含BERT层、编码层、解码层、softmax层。BERT层用于学习单词的语义信息，分为预训练和微调两步，由两个TRM层组成，编码层用于学习输入数据的表示特性，编码层即BILSTM，由两个LSTM层组成，一个前向LSTM层，一个反向LSTM层；每个LSTM层由一系列循环连接的子网组成，每个时间步骤都是一个LSTM存储块，LSTM存储块根据隐藏层的状态在当时时刻计算隐藏层的状态向量；解码层用于生成标签序列，由单层LSTM网络组成，使用前一时刻存储单元的输出向量、前一时刻的隐层状态、编码层的当前隐层状态、当前时刻计算隐层状态；输出层包含Softmax以归一化处理，其中输出后面的字母B、I、E分别标识实体或关系的起始、中间和结尾；

步骤S1.6：用联合学习模型提取会议纪要中的实体与联系。

步骤S2、基于非结构化的会议内容提取知识图实体

步骤S2.1：构建会议内容文本数据集。通过将自建的会议语音数据转化为会议内容文本，构建一个包含7K多文档的会议内容数据集。每一个会议内容文档都是非结构化的文本格式。

步骤S2.2：以端到端的方式，通过随机梯度下降来完成模型训练。使用训练好的模型预测会议内容文中中的每个句子作为段落结尾句的概率，训练的最终目标是使得所有段的交叉熵之和最小。

步骤S2.3：完成会议内容的实体提取，将模型应用于会议内容文本，模型的输出将是一个包含若干段文本的向量，每一段作为一个会议内容实体加入知识中。

步骤S3、提取会议纪要和会议内容的关系。

步骤S3.1：将会议纪要和会议内容转化为单词嵌入表示。

步骤S3.2：进行层次化表示学习，用由分度编码器、广度编码器和上下文编码器组合而成的混合编码器。深度编码器由多个卷积层分层堆叠而成，宽度编码器并行地组织卷积层，上下文编码器利用双向LSTMs提取全局上下文特征。

步骤S3.3：将混合编码器的输出作为相关性匹配和语义匹配的输入。相关性匹配模块输出相关性分数，会议纪要与会议内容相关性分数使用如下公式计算。S＝U_qU_c ^T,S∈Rⁿ ^×m。其中S_i,j表示会议内容短语向量U_c[j]和会议纪要短语向量U_q[i]之间的相似性分数。

步骤S3.4：计算归一化的相似度矩阵。用softmax将内容中的所有短语的匹配分数归一化，并帮助区分分数较高的匹配。用max或mean方法计算判别特征向量。Max方法如下：

Mean方法如下：

步骤S3.5：将池化后的分数与特征权重相乘，wgt(q)ⁱ表示会议纪要中第i个术语的权重，最终分类层的特征输入如下：

步骤S3.6：计算双线性注意力，REP操作通过重复丢失维度中的元素将输入向量转化为一个R^n×m矩阵。softmax_col是一个列级别的softmax运算符，操作如下：

A＝softmax_col(A)

步骤S3.7：从两个方向执行共同注意力，，max_col是列级别的max池化操作，

表示通过关注权重的原始查询表示来表示感知查询的内容嵌入，

表示和内容有关的查询中的最后重要的词语的权重和操作如下：

步骤S3.8：采用增强连接，将额外的Bi LSTM应用于连接的上下文嵌入H以捕获序列中的上下文依赖关系，并使用最后一个隐藏状态作为语义匹配模块O_SM的输出特征，即

O_SM＝BiLSTM(H)

步骤S3.9：将从每个编码层上学习到的相关性特征和语义特征

连接在一起，使用具有ReLU激活的两层全连接层来生成最终预测向量o；

步骤S3.10：最终分类，训练过程使得将所有样本(o_i,y_j)的负对数似然损失L最小化，最终给出相似度分数；

步骤S3.11：将最终相似度分数作为会议纪要与会议内容的关系，完成会议内容与会议纪要的关系提取。

附图说明

图1为本发明面向海量会议文本的知识图谱构建方法的整体流程图。

图2为本发明面向海量会议文本的知识图谱构建方法的会议纪要实体和关系提取网络模型结构图。

图3为本发明面向海量会议文本的知识图谱构建方法的会议内容实体提取网络模型结构图。

图4为本发明面向海量会议文本的知识图谱构建方法的会议纪要与会议内容对应关系提取的整体框图。

具体实施方式

下面将结合本发明实施例中的附图1～3，对本发明实施例中的技术方案进行清楚完整地描述，显然，所有描述地实施例仅是本发明一部分实施例，而不是全部的实施例。融合本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的范围。

本发明的目的是完整并具有可扩展性的知识图谱的构建，能挖掘知识图谱中实体之间潜在的关系，自动添加、删除或更改知识图谱内容，使其具有较好的可扩展性。构造好的会议知识图谱可用于后续的会议检索引擎、会议内容可视化场景。

为使本发明的上述目的，特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明做进一步详细说明。

图1为本发明一种面向海量会议文本的知识图谱构建方法一个整体流程图，如图1所示，实现整个方法的步骤包括。

步骤S1:基于半结构化的会议纪要提取知识图实体和关系。

步骤S2:基于非结构化的会议内容提取知识图实体。

步骤S3:提取会议纪要和会议内容的关系。

进一步，所述步骤S1中半结构化的会议纪要提取知识图实体和关系包含的详细步骤如下。

步骤S1.2:使用自建的会议纪要文本语料库对BERT模型预训练。将BERT模型添加到联合提取模型中。会议纪要语料库是会议纪要的集合，获取方式为整合企业用户开会时上传的会议纪要，由于系统采用统一的会议纪要记录模板，故可根据模板完成会议纪要条目与属性的知识实体提取。具体地，会议纪要模板为表格形式，表头为会议时间、会议地点、会议主持人、待办事项这四项内容，使用openpyxl库提取指定行和列的数据。

步骤S1.3:预设网络中LSTM层数、LSTM单元大小。

步骤S1.4:训练联合学习模型。联合学习模型包含BERT层、编码层、解码层、softmax层。如图2所示，图2为会议纪要实体和关系提取网络模型结构图。

步骤S1.5：用联合学习模型提取每条会议纪要的实体与联系。

进一步，所述步骤S2中会议内容提取知识图实体包含的详细步骤如下。将文本分割视为监督学习任务，其中输入x是一个文档，表示为n个句子序列s1，…，sn和标签y＝(y1，…yn-1)是文档的分割，由n-1二进制值表示，其中yi表示si是否结束一个段。基于非结构化的会议内容提取知识图实体包含的详细步骤如下。

步骤S2.1：构建会议内容文本语料库，包含7K多个文档。随机地将文档数据集划分为训练集、测试集和验证集。会议内容语料库是会议内容文档的合集，具体的获取方式是整合企业用户每次线上会议的语音记录，将其转换为会议文本的形式，获取会议内容数据集后，需要对其进行预处理以减少噪声。

步骤S2.2：训练模型阶段，使用模型预测每个句子作为段落结束的概率，最终将所有段的交叉熵之和降到最小。以端到端的方式，通过随机梯度下降来完成训练。所述模型如图3所示，为会议内容实体提取网络模型结构图。该模型由两个子网络组成，都基于LSTM体系结构，低层子网是两层双向LSTM，用于生成句子表示；高层子网是一个两层双向LSTM，用作分段预测，将低层子网的输出作为输入，其中，在每个LSTM的输出上都应用一个全连接层获得n个向量序列，再应用softmax获得分n-1段的概率。

步骤S2.3：使用模型完成会议内容的文本分割，每一段分割文本作为一个会议内容的实体。完成会议内容的实体提取。

图4为本发明面向海量会议文本的知识图谱构建方法的会议纪要与会议内容对应关系提取的整体框图。本发明将相关性匹配和语义信号匹配结合，相关性和语义匹配信号在文本相似度计算中是互补的，将它们结合起来可以提高数据效率。进一步，所述步骤S3中提取会议纪要和会议内容的关系的详细步骤如下。

步骤S3.1:单词嵌入层将会议纪要和会议内容转化为嵌入表示Q和C。

步骤S3.2：层次表示学习，该步骤设计一个混合编码器，由三种类型的编码器混合而成，分别是深度编码器、广度编码器和上下文编码器。混合编码器的输入是句子对，句子对中的q对应于会议纪要，c对应于会议内容，每一个会议纪要以及每一个会议内容会被表示为单词的集合，

即表示会议纪要，

即表示会议内容，n和m分别表示会议纪要和会议内容中的单词数。

深度编码器由多个卷积层分层堆叠而成，以获得更高层次的K-GRAM表示。卷积层对文本应用卷积滤波器，该过程被嵌入矩阵表示。每一个滤波器作为一个滑动窗口，通过输入嵌入进行增量移动，以捕获k个相邻项的组合表示。一个卷积层有F个滤波器，带padding的CNN层会生成一个h层的输出矩阵

第h层和h-1层的关系是U^h＝CNN^h(U^h-1)。其中，U^h-1是第h-1层卷积层的输出矩阵，U⁰＝U表示输入矩阵直接从词嵌入层获得。每个CNN层的参数由查询和文档组成。

宽度编码器和深度编码器不同，宽度编码器并行地组织卷积层，每一个卷积层都有一个不同的窗口大小k，以获得相应的K-GRAM表示。给定N个卷积层，CNN层的窗口大小将在集合{K,K+1,....K+N-1}中。

深度和宽度编码器是用卷积捕获K-GRAM模式，而上下文编码器与深度和宽度编码器不同，它利用双向LSTMs提取全局上下文特征。给定N个双向LSTM层，第n层的输出可表示为：U^h＝BiLSTM^h(U^h-1),h＝1,........N这三个编码器代表了不同的折中，深度和宽度编码器更容易并行执行推理，而且训练速度比上下文编码器要快很多。

步骤S3.3：将混合编码器的输出分别作为语义匹配和相关性匹配的输入，计算相关性分数，将会议纪要表示为矩阵U_q，会议内容表示为矩阵U_c。则每个编码层上的会议纪要和会议内容的相关性分数计算如下：S＝U_qU_c ^T,S∈R^n×m，其中S_i,j表示会议内容短语向量U_c[j]和会议纪要短语向量U_q[i]之间的相似性分数。

步骤S3.4：计算归一化相似度矩阵，通过在S的会议内容列上应用softmax来获得一个归一化的相似度矩阵

对于每一个会议纪要i，上述softmax将会议内容中的所有短语的匹配分数归一化，并帮助区分分数较高的匹配。一个精确的匹配相似度分数为1.0。

步骤S3.5：计算判别特征向量，使用max和mean将相似度矩阵转化为判别特征向量：

max(S),mean(S)∈Rⁿ。

步骤S3.6：将池化后的分数与特定权重相乘，作为最终分类层的特征输入模型中，由O_RM表示，

O_RM∈2·Rⁿ，其中，wgt(q)ⁱ表示会议纪要中第i个术语的权重，有更深的编码器层或更宽的编码器层能捕获较长的短语，故它的值在中间层编码器会发生变化。选择逆文档频率作为加权函数，一个较高的IDF表示在集合中会更罕见的发生，因此具有更大的鉴别能力。

步骤S3.7：计算双线性注意力，给定由中间编码器生成的U_q∈R^n×F以及U_c∈R^m×F，计算双线性注意力计算如下：

A＝softmax_col(A)

A∈R^n×m

其中，W_q,W_c∈R^F,W_b∈R^F×F，REP操作通过重复丢失维度中的元素将输入向量转化为一个R^n×m矩阵。softmax_col是一个列级别的softmax运算符。

步骤S3.8：从两个方向执行共同注意力，分别是从会议纪要到会议内容以及从会议内容到会议纪要，如下所示：

其中，max_col是列级别的max池化操作。

表示通过关注权重的原始查询表示来表示感知查询的内容嵌入。

表示和内容有关的查询中的最后重要的词语的权重和。

步骤S3.9：采取增强连接来探索

和

之间的关系，将Bi LSTM应用于连接的上下文嵌入H以捕获序列中的上下文依赖关系，并使用最后一个维度为d的隐藏状态作为语义匹配模块的输出特征O_SM：如下所示：

O_SM＝BiLSTM(H)

H∈R^m×4F,O_SM＝R^d

步骤S3.10：将从每个编码层上学习到的相关性特征和语义特征

连接在一起，使用具有ReLU激活的两层全连接层来生成最终预测向量o。

步骤S3.11：最终分类，训练过程使得将所有样本(o_i,y_j)的负对数似然损失L最小化，最终给出相似度分数。如下所示：

l＝1,2,....N,

L＝-∑logo_i[y_i]

其中，N是编码层的数量。

步骤S3.12：将最终相似度分数作为会议纪要与会议内容的关系。完成会议内容与会议纪要的关系提取。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明实际内容。

Claims

1.一种面向海量会议文本的知识图谱自动构建方法，其特征在于，所述面向海量会议结构化文本的知识图谱构建方法包含以下步骤：

步骤S1:基于半结构化的会议纪要提取知识图实体和关系，包括以下步骤：

步骤S1.1:采用纪要模板提取会议纪要各部分内容，例如会议时间，会议地点，会议纪要条目；

步骤S1.2:使用会议纪要文本语料库对BERT模型预训练，会议纪要语料库是会议纪要的集合，获取方式为整合企业用户开会时上传的会议纪要，系统采用统一的会议纪要记录模板，根据模板完成会议纪要条目与属性的知识实体提取，具体地，会议纪要模板为表格形式，表头为会议时间、会议地点、会议主持人、待办事项这四项内容，使用openpyxl库提取指定行和列的数据；

步骤S1.3:预设网络中LSTM层数、LSTM单元大小；

步骤S1.4:使用BERT预训练模型代替训练集和测试集；

步骤S1.5:训练联合学习模型，联合学习模型包含BERT层、编码层、解码层、softmax层；

步骤S1.6:用联合学习模型提取会议纪要中的实体与联系；

步骤S2:基于非结构化的会议内容提取知识图实体，将会议内容的实体提取视为一个基于监督学习任务的文本分割任务，将输入的会议内容文档划分为不同句子集合，其中输入x是一个文档，表示为n个句子序列s1，…，sn和标签y＝(y1，…yn-1)是文档的分割，由n-1二进制值表示，其中yi表示si是否结束一个段，每一个句子几何作为一个会议内容实体，以便将其与会议纪要建立联系；包括以下步骤：

步骤S2.1:收集由会议语音转录的会议内容文本数据集，并划分训练集、测试集和验证集；会议内容文本语料库是会议内容文档的合集，具体的获取方式是整合企业用户每次线上会议的语音记录，将其转换为会议文本的形式，获取会议内容数据集后，需要对其进行预处理以减少噪声；

步骤S2.2：训练模型阶段，使用模型预测每个句子作为段落结束的概率，最终将所有段的交叉熵之和降到最小，以端到端的方式，通过随机梯度下降来完成训练，所述模型由两个子网络组成，都基于LSTM体系结构，低层子网是两层双向LSTM，用于生成句子表示；高层子网是一个两层双向LSTM，用作分段预测，将低层子网的输出作为输入，其中，在每个LSTM的输出上都应用一个全连接层获得n个向量序列，再应用softmax获得分n-1段的概率；

步骤S2.3：使用模型完成会议内容的文本分割，每一段分割文本作为一个会议内容的实体，完成会议内容的实体提取；

步骤S3:提取会议纪要和会议内容的关系，包括以下步骤：

步骤S3.1：使用单词嵌入层将会议纪要和会议内容转化为嵌入表示Q和C；

步骤S3.2：层次表示学习，该步骤设计一个混合编码器，由三种类型的编码器混合而成，分别是深度编码器、广度编码器和上下文编码器；混合编码器的输入是句子对，句子对中的q对应于会议纪要，c对应于会议内容，每一个会议纪要以及每一个会议内容会被表示为单词的集合，

即表示会议纪要，

即表示会议内容，n和m分别表示会议纪要和会议内容中的单词数；

步骤S3.3：将混合编码器的输出分别作为语义匹配和相关性匹配的输入，计算相关性分数，将会议纪要表示为矩阵U_q，会议内容表示为矩阵U_c，每个编码层上的会议纪要和会议内容的相关性分数计算如下：S＝U_qU_c ^T,S∈R^n×m，其中S_i,j表示会议内容短语向量U_c[j]和会议纪要短语向量U_q[i]之间的相似性分数；