CN108763542A

CN108763542A - 一种基于联合学习的文本情报分类方法、装置及计算机设备

Info

Publication number: CN108763542A
Application number: CN201810552043.9A
Authority: CN
Inventors: 张镇; 伊文超; 史云飞; 梁波; 赵国强
Original assignee: China Huarong Technology Group Ltd
Current assignee: China Huarong Technology Group Ltd
Priority date: 2018-05-31
Filing date: 2018-05-31
Publication date: 2018-11-06

Abstract

本发明涉及一种基于联合学习的文本情报分类方法、装置及计算机设备，该方法包括：S1：将第一文本情报输入双向长短期记忆循环神经网络Bi‑LSTM进行处理；S2：将经过所述双向长短期记忆循环神经网络Bi‑LSTM处理后的输出，分别作为长短期记忆网络LSTM和协同卷积神经网络CNN的输入，共同进行混合神经网络训练，得到文本情报的分类网络；S3：将第二文本情报输入双向长短期记忆循环神经网络Bi‑LSTM进行处理，将处理的结果输入到所述分类网络，得到所述第二文本情报的情报实体间关系的分类。解决了现有的文本情报由于种类多、数据量大，存在分类/梳理困难的问题。能够自动识别文本情报中的“人员”“地点”“时间”等情报实体，显著降低办案人员时间成本。

Description

一种基于联合学习的文本情报分类方法、装置及计算机设备

技术领域

本发明涉及大数据分析技术领域，尤其涉及一种基于联合学习的文本情报分类方法、装置及计算机设备。

背景技术

文本情报作为一种犯罪行为研判的依据，在案件侦破中发挥着重要作用，尤其在大数据背景下，网站社交数据、通讯内容、聊天记录等文本情报的获取，极大丰富了研判信息，为案件侦破提供了稳固的信息支撑。然而，伴随着文本情报的急剧增加，情报难梳理、难利用的问题日益凸显，“数据量大、价值密度低、利用低下”成为文本情报分析的难点。

文本情报提取成为解决以上问题的重要途径。文本情报提取主要由两部分组成，一、命名实体识别(Named Entity Recognition，NER)，即从文本情报中对命名实体进行识别，在公共安全领域，命名实体主要包含“人员”、“地点”、“时间”等(以下统称情报实体)；二、关系分类(Relation Classification，RC)，即依据NER过程提取的命名实体，对实体间的关系按设定类型进行分类。在公共安全领域，主要针对人员与人员的关联关系，人员与地点的所属关系，时间与人员的对应关系进行实体关系分类(以下统称情报实体关系分类)。

传统的情报提取方式将NER过程和RC过程作为两个独立单元进行处理并且过于依赖人工特征(依据领域理解和自然语言处理工具对文本进行特征提取的过程)，存在以下问题：

NER与RC过程割裂，忽略了实体与关系的内在联系，致使关系分类效果不佳；人工特征过程繁琐耗时，对于多元海量文本情报的提取尤其显著。

发明内容

本发明针对现有的文本情报由于种类多、数据量大，存在分类/梳理困难的问题，提供了一种基于联合学习的文本情报分类方法、装置及计算机设备，能够自动识别文本情报中的“人员”“地点”“时间”等情报实体，从中提取人与人、人与地点、人与事件的关系，在充分利用大数据背景下多样化文本情报的同时，显著降低办案人员时间成本。

第一方面，本发明提供了一种基于联合学习的文本情报分类方法，包括：

S1：将第一文本情报输入双向长短期记忆循环神经网络Bi-LSTM进行处理；所述第一文本情报为训练分类网络所用的文本情报；

S2：将经过所述双向长短期记忆循环神经网络Bi-LSTM处理后的输出，分别作为长短期记忆网络LSTM和协同卷积神经网络CNN的输入，共同进行混合神经网络训练，得到文本情报的分类网络；

S3：将第二文本情报输入双向长短期记忆循环神经网络Bi-LSTM进行处理，将处理的结果输入到所述分类网络，得到所述第二文本情报的情报实体间关系的分类；所述第二文本情报为待分类的文本情报。

本发明的有益效果是：在充分利用大数据背景下多样化文本情报的同时，显著降低办案人员的时间成本。

进一步，在所述S1和S3中，所述处理过程包括：通过双向长短期记忆循环神经网络Bi-LSTM对输入的第一/第二文本情报进行编码，得到情报融合向量。

进一步，在所述S2中，所述作为LSTM的输入和协同卷积神经网络CNN的输入，共同进行混合神经网络训练的过程包括：

对编码后得到的所述融合向量通过长短期记忆循环神经网络LSTM进行情报实体识别，得到情报实体识别模型；

对编码后得到的所述融合向量通过协同卷积神经网络CNN进行情报实体识别，得到情报实体关系类别模型；

将所述情报实体识别模型、和所述情报实体关系类别模型作为所述分类网络。

进一步，所述得到所述第二文本情报的情报实体间关系的分类的过程包括：

将处理所述第二文本情报的情报融合向量，输入到情报实体识别模型，得到情报实体标签；

将处理所述第二文本情报的情报融合向量，输入到情报实体关系类别模型，得到情报实体关系类别。

进一步，所述S2中使用的所述卷积神经网络CNN为5层卷积层，5层池化层，卷积核大小为5×5，每层卷积层的卷积核为6个，激活函数为线性整流函数ReLU函数。

采用上述进一步的技术方案的有益技术效果在于，采用ReLU函数作为激活函数，首先，在反向传播求梯度时，整个过程的计算量会节省很多。其次，对于深层网络，使用sigmoid函数作为激活函数时，反向传播非常容易出现梯度消失的问题，所以传统的BP神经网络一般不能超过三层，而引入ReLU函数之后，它的右侧是不会饱和的，所以一般不会出现梯度消失的问题。第三，ReLU函数在输入小于0的时候，会一直输出0。这就会使一部分神经元输出为0，从而使得网络具有稀疏性。

第二方面，本发明提供了一种基于联合学习的文本情报提取装置，所述装置包括：

输入模块：用于将第一文本情报输入双向长短期记忆循环神经网络Bi-LSTM；所述第一文本情报为训练分类网络所用的文本情报；

训练模块：用于将经过所述双向长短期记忆循环神经网络Bi-LSTM处理后的输出，分别作为长短期记忆网络LSTM和协同卷积神经网络CNN的输入，共同进行混合神经网络训练，得到文本情报的分类网络；

分类模块：用于将第二文本情报输入双向长短期记忆循环神经网络Bi-LSTM进行处理，将处理的结果输入到所述分类网络，得到所述第二文本情报的情报实体间关系的分类；所述第二文本情报为待分类的文本情报。

进一步的，所述输入模块的所述处理过程包括：通过双向长短期记忆循环神经网络Bi-LSTM对输入的第一/第二文本情报进行编码，得到情报融合向量。

进一步的，所述作为LSTM的输入和协同卷积神经网络CNN的输入，共同进行混合神经网络训练的过程包括：对编码后得到的所述融合向量通过长短期记忆循环神经网络LSTM进行情报实体识别，得到情报实体识别模型；

进一步的，所述分类模块的所述得到所述第二文本情报的情报实体间关系的分类的过程包括：

第三方面，本发明提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

本发明的有益效果是：

1.文本编码过程结合实体和实体关系，充分考虑情报实体上下文联系以及情报实体间隐含关系，引入双向循环神经网络和联合学习对文本编码进行更新；

2.融合情报关系抽取和情报实体发现过程，通过共享文本编码过程，实现其动态交互上，提高情报实体关系分类的准确率，为辅助研判提供了信息支撑。

3.构建“人员”“地点”“时间”情报关系网络，分析人与人，人与地点，人与时间的关系，在简化文本情报的同时，掌握情报主线，展示情报来龙去脉。

4.实体关系分类过程进行多特征融合，并采用深度学习，自动学习文本情报特征，避免了复杂的人工特征提取过程，降低了人力成本；

5.实体识别过程中优化LSTM结构，充分模拟实体信息交互过程，提高实体识别准确率。

附图说明

图1为本发明实施例提供的一种基于联合学习的文本情报分类方法的流程示意图；

图2位本发明的一种基于联合学习的文本情报分类方法的结构图；

图3为本发明实施例提供的一种基于联合学习的文本情报分类装置结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本发明。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

图1为本发明实施例提供的一种基于联合学习的文本情报分类方法的流程示意图。

如图1所示，该方法包括：

在所述S1和S3中，所述处理过程包括：通过双向长短期记忆循环神经网络Bi-LSTM对输入的第一/第二文本情报进行编码，得到情报融合向量。

文本情报主要包含网站社交信息、通讯内容、聊天记录等文本内容，无法直接作为混合神经网络的输入，需要进行编码处理。传统编码过程仅从字符角度出发，忽略了上下文的联系，影响实体命名和实体关系分类结果。本发明充分考虑实体的语义关联，采用双向长短期记忆网络(Bi-LSTM)，进行文本编码，以下为编码的过程，将词嵌入层和Bi-LSTM网络层关联，网络的具体结构如下：

(1)词嵌入层(word embedding layer)

词嵌入层实现了文本的预编码，采用独热编码(one-hot representation)方式，将文本情报中的单个汉字转换成计算机可处理的词向量，此时文本中单个汉字独立存在，没有与上下文产生任何关联，其表示形式如下：

W＝{w₁，...w_t，w_t+1...w_n)

其中W表示一个情报子句，w_t表示子句中的单个汉字。t＝1～n，n为自然数。

(2)Bi-LSTM网络层

Bi-LSTM层实现了文本情报的上下文关联，包含一个前向LSTM层和一个后向LSTM层以及一个融合层，具体结构参见图2。对于每一个w_t，前向LSTM层描述了w₁到w_t的上下文关系，记为后向LSTM层描述了w_t到w_n的上下文关系,记为上下文关系具体涵盖了词汇所处的共现词、语境、前邻词、后邻词等语境信息。文本情报经过词嵌入层，以词向量的形式输入到Bi-LSTM层，在模型训练过程中，Bi-LSTM网络结合文本情报上下文内容，动态更新预编码内容，完成文本情报编码过程，得到融合向量。

Bi-LSTM网络中记忆块(memory block)输入门、遗忘门、输出门的函数定义分别如下：

输入门i_t＝δ(W_xix_t+W_hih_t-1+W_cic_t-1+b_i)

遗忘门f_t＝δ(W_xfx_t+W_hfh_t-1+W_cfc_t-1+b_f)

输出门o_t＝δ(W_xox_t+W_hoh_t-1+W_coc_t+b_o)

其中：

c_t＝f_tc_t-1+l_tz_t

z_t＝tanh(W_xcx_t+W_hch_t-1+b_c)

h_t＝o_t tanh(c_t)

上式中i_t、f_t、o_t分别表示LSTM单元中第t个字的输入门、遗忘门、输出门，W_xi W_hiW_ci分别表示输入门中词向量、隐层输出、单元当前状态对应的权重，W_xf W_hf W_cf分别表示遗忘门中词向量、隐层输出、单元当前状态对应的权重，W_xo W_ho W_co分别表示输出门中词向量、隐层输出、单元当前状态对应的权重，x_t表示第t个字的词向量，h_t h_t-1表示第t、t-1个字的隐层输出，b_i b_f b_o分别表示输入门、遗忘门、输出门的基项，c_t-1c_t分别表示第t-1、t个字的LSTM单元当前状态，z_t表示LSTM单元中第t个字的输入值，δ()表示sigmoid函数。

至此文本情报预处理及编码过程结束，编码后的文本情报为融合向量，作为编码结果，融合了上下文信息，将作为LSTM网络的NER过程和CNN网络的RC过程的输入。

在所述S2中，情报实体识别可以视为一个序列标注问题(从给定句子中抽取词块，构成有意义的短句)，文本情报内容繁杂，没有规范结构，“多词同意”现象严重，传统NER过程无法对实体标签(序列标注问题中词块在短句中的位置，如实体起始、实体结束、实体之外等称为实体标签)进行关联，致使实体识别能力较差。本发明充分考虑实体标签的长相关性，采用LSTM对每个词的实体标签进行预测，对文本情报中出现的情报体(包括情报涉及的人员、地点、时刻等)进行自动提取。

在一些说明性实施例中，在所述S2中，所述作为LSTM的输入和协同卷积神经网络CNN的输入，共同进行混合神经网络训练的过程包括：

实体标签采用BILOS(B：实体开始；I：实体内部；L：实体结尾；O：实体外部；S：单个实体)编码框架，每个标签代表了单个词在实体中的位置信息，在模型训练过程中，训练数据的标签用BILOS形式表示。

以情报信息为例，文本内容为“李四明天要去天安门”，李四、天安门是命名实体，经过图2中的情报实体识别模型，得到其实体标签为李(B)、四(L)、明(B)、天(L)、去(O)、天(B)、安(I)、门(L)。

实体预测是情报文本实体标签的预测过程。文本情报中，实体在前后文中常常蕴含着多种隐式规则，对于实体预测具有积极意义。本发明充分考虑实体在情报文本中的长相关性，采用长短期记忆网络LSTM网络模拟实体的交互过程，挖掘词的上下文隐含关系。犯罪文本情报经过步骤S1进行编码，作为实体预测模型LSTM的输入，经过LSTM预测，得到文本情报的实体标签，通过其位置信息映射，最终得到情报实体。

LSTM网络的结构描述如下，结构图具体参见图2。

LSTM网络中记忆块(memory block)遗忘门、输出门的函数与Bi-LSTM网络一致，其输入层函数定义如下：

i_t＝δ(W_xih_t+W_his_t-1+W_tiT_t-1+b_i)

T_t＝W_tss_t+b_ts

其中T_t表示第t个字的标签预测向量，i_t表示LSTM单元中第t个字的输入门，W_xi W_hiW_ti W_ts分别表示输入门中词向量、隐层输出、标签预测向量对应的权重以及标签预测过程中隐层输出权重，表示LSTM单元中第t-1、t个字的隐层输出，h_t表示第t个字经过文本编码过程后生成的词向量，b_i b_ts分别表示输入门的基项以及标签预测过程中的基项，δ()表示sigmoid函数。

传统实体关系分类方法，主要依赖人工特征，其过程繁琐耗时，效果不佳。本发明采用CNN网络模型，自动完成特征提取过程，实现情报实体关系分类。由于实体关系主要隐藏在两个实体间的文字描述中，CNN网络的输入选择为两个实体的编码信息(h_e1，h_e2)的求和、以及两个实体间的词向量(w_e1，w_e1+1，…，w_e2)。对于单个实体在文本情报中多次出现的问题，采用编码信息相加的方式，融合成一个实体编码。

文本情报提取主要以“人员”、“地点”、“时间”为基础，定义三种分类关系：人员与地点关系、人员与人员关系、人员与时间关系，分别从轨迹、协同、时间角度进行情报发现。其中人员与人员的关系主要包括：协同、从属、亲友、无关，人员与地点关系主要包括：出发地、目的地、出生地、居住地，人员与时间的关系主要包括：起始时刻、结束时刻。

通过CNN网络，以情报实体编码信息以及实体间的词向量作为模型输入，对两个实体的关系类型进行分类。实体关系分类的函数表示如下：

R＝CNN([h_e1，w_e1，w_e1+1，...w_e2，h_e2])

其中，R表示实体关系类型，h_e1，h_e2表示实体1和实体2的编码信息即融合向量，w_e1，w_e1+1，…，w_e2表示两个实体之间的文本编码信息即融合向量。例如：情报文本“张三和李四从小一起长大，张三和李四明天要去天安门”，“张三”“李四”分别为实体1、实体2。

CNN网络的结构如下：5层卷积层和5层池化层，每个卷积层之后跟随一个最大池化层，卷积核大小5×5，卷积核个数6，激活函数使用ReLU；再加入一层softmax层进行关系分类。

以情报文本“张三和李四从小一起长大，张三和李四明天要去天安门”为例进行情报实体关系分类描述：首先，经过情报实体识别模型，情报文本中的“人名”“地点”“时间”实体被提取出来，分别对应：“人名”：张三、李四，“时间”：明天，“地点”：天安门。之后，分别抽取“人员”、“时间”、“地点”的关系类型，以“人员”关系为例，首先定义人员关系的类型为：协同、非协同，并进行模型训练，得到情报实体关系分类模型；该模型是基于CNN网络训练得到，功能上依然保留CNN网络的功能。其次张三李四两个实体的编码信息，以及实体间文本(从小一起长大)的编码信息作为输入，输入到情报实体关系分类模型中，得到情报实体之间的关系类别，最终输出张三和李四关系：协同，同理可以输出人员与地点关系，即：天安门与张三的关系为目的地。

通过定义协同和非协同的关系，经过情报实体关系分类模型处理后，协同的实体会分在同一类中，非协同的实体会分在不同类中。从而提升分类的效果。

另外，情报实体识别模型，该模型是基于LSTM网络训练得到，功能上依然保留LSTM网络的功能。包括：隐层、预测和softmax层。

隐层：主要作用是特征提取，学习文本的结构关系。

预测：用于学习实体预测标签的位置关系。

softmax层：用于计算实体标签对应分类的概率。

通过S2进行混合神经网络的训练过程包括三部分：Bi-LSTM网络训练、LSTM网络训练以及CNN网络训练，其中Bi-LSTM网络的输出作为LSTM网络和CNN网络的共同输入，其参数的更新过程由LSTM过程以及CNN过程共同决定，实现了两个过程的联合学习。

在一些说明性实施例中，在所述S3中，所述得到所述第二文本情报的情报实体间关系的分类的过程包括：

相应地，本发明实施例还提供了一种基于联合学习的文本情报分类装置。具体如图3所示，该装置包括：

输入模块100：用于将第一文本情报输入双向长短期记忆循环神经网络Bi-LSTM；所述第一文本情报为训练分类网络所用的文本情报；

训练模块200：用于将经过所述双向长短期记忆循环神经网络Bi-LSTM处理后的输出，分别作为长短期记忆网络LSTM和协同卷积神经网络CNN的输入，共同进行混合神经网络训练，得到文本情报的分类网络；

分类模块300：用于将第二文本情报输入双向长短期记忆循环神经网络Bi-LSTM进行处理，将处理的结果输入到所述分类网络，得到所述第二文本情报的情报实体间关系的分类；所述第二文本情报为待分类的文本情报。

优选地，所述输入模块100的所述处理过程包括：通过双向长短期记忆循环神经网络Bi-LSTM对输入的第一/第二文本情报进行编码，得到情报融合向量。

优选地，所述训练模块200的所述作为LSTM的输入和协同卷积神经网络CNN的输入，共同进行混合神经网络训练的过程包括：对编码后得到的所述融合向量通过长短期记忆循环神经网络LSTM进行情报实体识别，得到情报实体识别模型；

优选地，所述分类模块300的所述得到所述第二文本情报的情报实体间关系的分类的过程包括：

该装置中的各部件所执行的功能均已经在上述实施例一种基于联合学习的文本情报分类方法中做了详细的介绍，这里不再赘述。

本发明还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

读者应理解，在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于联合学习的文本情报分类方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，在所述S1和S3中，所述处理过程包括：通过双向长短期记忆循环神经网络Bi-LSTM对输入的第一/第二文本情报进行编码，得到情报融合向量。

3.根据权利要求2所述的方法，其特征在于，在所述S2中，所述作为LSTM的输入和协同卷积神经网络CNN的输入，共同进行混合神经网络训练的过程包括：

4.根据权利要求3所述的方法，其特征在于，在所述S3中，所述得到所述第二文本情报的情报实体间关系的分类的过程包括：

5.根据权利要求1或4所述的方法，其特征在于，所述S2中使用的所述卷积神经网络CNN为5层卷积层，5层池化层，卷积核大小为5×5，每层卷积层的卷积核为6个，激活函数为线性整流函数ReLU函数。

6.一种基于联合学习的文本情报提取装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述输入模块的所述处理过程包括：通过双向长短期记忆循环神经网络Bi-LSTM对输入的第一/第二文本情报进行编码，得到情报融合向量。

8.根据权利要求7所述的装置，其特征在于，所述训练模块的所述作为LSTM的输入和协同卷积神经网络CNN的输入，共同进行混合神经网络训练的过程包括：对编码后得到的所述融合向量通过长短期记忆循环神经网络LSTM进行情报实体识别，得到情报实体识别模型；

9.根据权利要求8所述的装置，其特征在于，所述分类模块的所述得到所述第二文本情报的情报实体间关系的分类的过程包括：

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-5任一项中所述方法的步骤。