CN111737484A

CN111737484A - 一种基于联合学习的警情知识图谱构建方法

Info

Publication number: CN111737484A
Application number: CN202010413365.2A
Authority: CN
Inventors: 李永强; 陈宇; 冯远静; 陆超伦; 阮嘉烽; 陈浩; 周宇; 陈成; 任聪
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2020-05-15
Filing date: 2020-05-15
Publication date: 2020-10-02

Abstract

一种基于联合学习的警情知识图谱构建方法，包括以下步骤：1)获取已破获案件的所有有关数据，并以类型、时间、地点、人名、机构五大类实体对数据进行标注；2)对数据进行分词，并将分词后的文本作为输入，通过Transformer模型提取特征向量；3)将提取到的特征向量拆分为句子向量和词向量两部分，针对词向量，使用循环神经网络计算每个标签概率，针对句子向量，使用一个全连接层对样本进行分类；4)将两个任务的损失函数进行求和，得到最终的损失函数，基于该损失函数对模型进行学习和训练；5)将抽取出的结果保存图数据库中，并基于可视化结果进行案件分析。本发明构建知识图谱，简化警务分析工作。

Description

一种基于联合学习的警情知识图谱构建方法

技术领域

本发明涉及自然语言处理、知识图谱、深度学习，尤其涉及一种基于联合学习的警情知识图谱构建方法。

背景技术

2012年，谷歌正式提出知识图谱的概念，旨在解决自动问答、个性化推荐和智能信息检索等方面的问题，自此之后，人工智能开始从常规的结构化、非结构化数据，扩展到了客观世界中的知识概念，使得计算机也能处理类似人类认知的复杂数据。

目前，知识图谱技术已经在许多领域都取得了广泛应用，从早期谷歌、百度等百科类的通用知识图谱，发展至政管、教育、医疗、金融等行业知识图谱，已经取得了显著成效。而公安领域，由于其内部部门组成的复杂性，导致各部门数据完整程度不一、数据格式杂乱，大量数据更以案情简要、结案报告等文本的方式存储，只凭借已有的结构化数据，不足以提供其进一步的发展与突破。

在这种情况下，如何发挥公安内部文本的作用，通过深度学习地方法自动构建知识图谱，便成为了问题的关键。

发明内容

为了从复杂地警情文本中获取信息，自动构建知识图谱，本发明提出了一种基于联合学习的警务知识图谱构建方法，对公安内部地警务文本进行数据标注，并送入联合学习模型中进行训练，并将输出的结果以设计好的结构，送入图数据库中。

为了解决上述技术问题，本发明提供如下的技术方案：

一种基于联合学习的警情知识图谱构建方法，所述方法包括以下步骤：

1)获取所有案情简要的短文本数据，对词列表数据进行标注，标注内容主要包括类型、时间、地名、人名、机构名四大类实体，其中时间、地名、人名、机构名以BIO标注法以字为单位进行标注，共计9类标签，类型以句子文本为单位进行标注，其标签数由案件类别数决定，记为N；

2)用WordPiece工具来进行分词，并插入用来分隔样本的分离符[CLS]和用来分隔样本内的不同句子的分隔符[SEP]，每个句子都对应的是一个矩阵 X＝(x₁,x₂,L,x_t)，其中x_i都代表着第i个词的词向量，即行向量，维度为d维，句子长度为t；

3)使用Transformer模型作为编码器，学习句子的上下文，更新词嵌入结果。Transformer步骤如下：

3.1)为了得到输入序列中单词顺序对句子的影响，基于上述矩阵X计算得到一个维度与词向量相同的位置向量，位置向量能决定当前词的位置，或者说在一个句子中不同的词之间的距离，计算公式如式(1)：

其中pos是指当前词在句子中的位置，i是指向量中每个值的索引，可以看出，在偶数位置时使用正弦编码，在奇数位置，则使用余弦编码；

3.2)将位置向量和词向量求和，并作为最后的输入向量；

3.3)将输入向量输入通过三个不同的线性变换，得到查询向量Q、键向量K和值向量V，查询向量和键向量的维数为d_k，值向量的维数为d_v，使用注意力函数进行解读，注意力函数公式如(2)所示：

3.4)实际模型中使用的是多头注意力函数，即基于h个不同的参数矩阵计算得到多组Q、K、V矩阵，并对所有变换结果进行拼接，得到多头注意力值，多头注意力函数公式如(3)所示：

MultiHead(Q,K,V)＝Concat(head₁,head₂,L,head_h)W^O (3)

其中，W^O是一个参数矩阵，

head_i是第i组注意力函数计算结果，公式如式(4)：

head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V) (4)

式中，参数矩阵

3.5)将上述输出，输入一个全连接前馈网络，并将输入结果进行层标准化处理，如式(5)所示：

式中，x为函数输入值，o为编码层输出矩阵，W₁、b₁、W₂和b₂分别为权重矩阵和偏置矩阵；

4)联合训练包括词性标注和句子标注两大任务，上述Transformer模型输出结果o＝{o₁,o₂,o₃,L,o_t}拆分为o₁和{o₂,o₃,L,o_t}两部分，前者作为分类任务的输入数据，后者则作为实体识别任务的输入数据，分别计算概率函数，流程如下：

4.1)针对实体识别任务，使用BiLSTM模型作为神经网络的训练模型，以读取上下文，将预训练得到的词向量输入BiLSTM模型中，得到隐状态矩阵，如式 (6)所示：

h＝BiLSTM(x) (6)

对输出的每个特征向量h_i，添加一个输入维度为d，输出维度为字标签数9 的全连接神经网络，并使用softmax函数，计算每个词的标签概率y_i，如式(7)所示：

y_i＝softmax(W_9×dh_i+b_9×d) (7)

4.2)针对分类任务，将句子的特征向量o₁作为输入值x，添加一个输入维度为 d，输出维度为字标签数N的全连接神经网络，并使用softmax函数，计算每个词的标签概率y_seq，如式(8)所示：

y_seq＝softmax(W_N×dx+b_N×d) (8)

5)对两个标签概率分别使用交叉熵函数，p_i和p_seq分别是正样本标签的one-hot表示，最终进行求和得到联合训练的损失函数，最后进行模型的训练，如式(9)所示：

6)训练完成后，使用该模型对所有案件文本数据进行抽取，得到每个案件的相关实体数据，以便后续的构建工作；由于每个文本中可能存在多个同类名词，根据文本规范，对于时间只取最开始出现的时间作为案件的实体，对于地名、人名以及机构名，则将所有实体去重后，都作为案件相关实体；

7)图数据库是用于存储多种关系图的数据库，图中的每个节点代表实体，节点与节点之间的边代表关系，而时间则作为实体或边的一种属性，这样就可以将定义好的数据以节点-边-节点的方式存入图数据库。

进一步，所述方法还包括以下步骤：

8)图数据库构建完成后，可以通过各种相关算法分析不同案件的关联性，比如可以查看两个案件之间二次相连的路径数，路径数越多，即代表两个案件的关联性越大；此外，该图谱也可以作为公安结构化数据的补充，将其和人员关系进行知识融合，通过图算法对人员的犯案概率进行统计和分析。

本发明的有益效果为：以联合学习算法在已标注的语料上进行学习和训练，训练出的模型在案件文本上自动抽取重要实体信息，构建知识图谱，简化警务分析工作。

附图说明

图1是基于联合学习的警务知识图谱构建方法；

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1，一种基于联合学习的警情知识图谱构建方法，所述方法包括以下步骤：

3)使用Transformer模型作为编码器，学习句子的上下文，更新词嵌入结果。

Transformer步骤如下：

3.2)将位置向量和词向量求和，并作为最后的输入向量；

3.3)将输入向量输入通过三个不同的线性变换，得到查询向量Q、键向量K 和值向量V，查询向量和键向量的维数为d_k，值向量的维数为d_v，使用注意力函数进行解读，注意力函数公式如(2)所示：

MultiHead(Q,K,V)＝Concat(head₁,head₂,L,head_h)W^O (3)

其中，W^O是一个参数矩阵，

head_i是第i组注意力函数计算结果，公式如式(4)：

head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V) (4)

式中，参数矩阵

h＝BiLSTM(x) (6)

y_i＝softmax(W_9×dh_i+b_9×d) (7)

4.2)针对分类任务，将句子的特征向量o₁作为输入x，添加一个输入维度为 d，输出维度为字标签数N的全连接神经网络，并使用softmax函数，计算每个词的标签概率y_seq，如式(8)所示：

y_seq＝softmax(W_N×dx+b_N×d) (8)

7)图数据库是用于存储多种关系图的数据库，图中的每个节点代表实体，节点与节点之间的边代表关系，而时间则作为实体或边的一种属性，这样就可以将定义好的数据以节点-边-节点的方式存入图数据库；

所述方法还包括以下步骤：

本发明实施例所提供的一种基于联合学习的警情知识图谱构建方法，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种基于联合学习的警情知识图谱构建方法，其特征在于，所述方法包括以下步骤：

1)获取所有案情简要的短文本数据，对词列表数据进行标注，标注内容包括类型、时间、地名、人名、机构名四大类实体，其中时间、地名、人名、机构名以BIO标注法以字为单位进行标注，共计9类标签，类型以句子文本为单位进行标注，其标签数由案件类别数决定，记为N；

2)用WordPiece工具来进行分词，并插入用来分隔样本的分离符[CLS]和用来分隔样本内的不同句子的分隔符[SEP]，每个句子都对应的是一个矩阵X＝(x₁,x₂,…,x_t)，其中x_i都代表着第i个词的词向量，即行向量，维度为d维，句子长度为t；

3)使用Transformer模型作为编码器，学习句子的上下文，更新词嵌入结果，Transformer步骤如下：

3.2)将位置向量和词向量求和，并作为最后的输入向量；

MultiHead(Q,K,V)＝Concat(head₁,head₂,…,head_h)W^O (3)

其中，W^O是一个参数矩阵，

head_i是第i组注意力函数计算结果，公式如式(4)：

head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V) (4)

式中，参数矩阵

4)联合训练包括词性标注和句子标注两大任务，上述Transformer模型输出结果o＝{o₁,o₂,o₃,…,o_t}拆分为o₁和{o₂,o₃,…,o_t}两部分，前者作为分类任务的输入数据，后者则作为实体识别任务的输入数据，分别计算概率函数，流程如下：

4.1)针对实体识别任务，使用BiLSTM模型作为神经网络的训练模型，以读取上下文，将预训练得到的词向量输入BiLSTM模型中，得到隐状态矩阵，如式(6)所示：

h＝BiLSTM(x) (6)

对输出的每个特征向量h_i，添加一个输入维度为d，输出维度为字标签数9的全连接神经网络，并使用softmax函数，计算每个词的标签概率y_i，如式(7)所示：

y_i＝softmax(W_9×dh_i+b_9×d) (7)

4.2)针对分类任务，将句子的特征向量o₁作为输入x，添加一个输入维度为d，输出维度为字标签数N的全连接神经网络，并使用softmax函数，计算每个词的标签概率y_seq，如式(8)所示：

y_seq＝softmax(W_N×dx+b_N×d) (8)

2.如权利要求1所述的一种基于联合学习的警情知识图谱构建方法，其特征在于，所述方法还包括以下步骤：

8)图数据库构建完成后，通过相关算法分析不同案件的关联性，图谱也可以作为公安结构化数据的补充，将其和人员关系进行知识融合，通过图算法对人员的犯案概率进行统计和分析。