CN112015901A

CN112015901A - 文本分类方法及装置、警情分析系统

Info

Publication number: CN112015901A
Application number: CN202010933888.XA
Authority: CN
Inventors: 杜渂; 邱祥平; 雷霆; 王聚全; 彭明喜; 陈健; 索涛; 刘冉东; 杨博; 戴贞清; 姜宁; 孙骞; 王宇文
Original assignee: Ds Information Technology Co ltd
Current assignee: Ds Information Technology Co ltd
Priority date: 2020-09-08
Filing date: 2020-09-08
Publication date: 2020-12-01

Abstract

本发明提供了一种文本分类方法及装置、警情分析系统，其中，文本分类方法，包括：获取待分类文本；对待分类文本进行分词，并对分词后的文本进行高维映射得到词向量；使用预训练的卷积神经网络提取词向量的局部特征，得到局部特征向量；使用带注意力机制的循环神经网络对局部特征向量进行特征抽取，得到基于全局的语义特征向量；使用多层神经网络对语义特征向量进行分类，完成对待分类文本的分类。其通过组合多种单一模型得到文本分类模型，实现更加准确的区分文本类别的同时，兼顾分类性能。

Description

文本分类方法及装置、警情分析系统

技术领域

本发明涉及计算机与网络技术领域，尤指一种文本分类方法及装置、警情分析系统。

背景技术

随着我国互联网技术的不断深入以及大数据产业的不断发展，文字、音频和视频数据信息的获取和存储变得越来越便捷，彻底进入了“大数据时代”。近年来，各行各业开始利用大数据技术来提升行业服务水准，数据量带来的统计优势在许多业务场景中逐步显现，可为企业提供分析数据、准确预测趋势等应用展示，深受业界好评。在此背景下，公安部门也积极利用大数据技术构建了相应的公安大数据应用平台，并通过多种信息采集渠道丰富现有公安数据库，使之能够在指挥、治安、刑侦等方面提供更加快速和便捷的服务。公安数据量不断提升，使得相关领域专家在深入开展大数据应用相关体系、机制、技术和技战法网络的探索实践中积累了丰富的经验。

在公安部门的业务系统中，存在大量的警情文本信息，较为常见的是110 接处警平台填写的接处警描述信息文本。以某市公安局数据为例：该市每日接警条数约3000条左右。接警员需要根据报警人的描述迅速对按键类别做出判断，这些文本的准确填写关系着基于这些文本信息所做的情报分析研判、串并案管理、案件侦办和指挥调度等业务是否具有可信度。但是面对海量的文本信息，单纯依靠人工处理分类，这无疑是一项非常艰巨的任务。

发明内容

本发明的目的是提供一种文本分类方法及装置、警情分析系统，有效解决现有技术中文本分类效率低下的技术问题。

本发明提供的技术方案如下：

一种文本分类方法，包括：

获取待分类文本；

对所述待分类文本进行分词，并对分词后的文本进行高维映射得到词向量；

使用预训练的卷积神经网络提取所述词向量的局部特征，得到局部特征向量；

使用带注意力机制的循环神经网络对所述局部特征向量进行特征抽取，得到基于全局的语义特征向量；

使用多层神经网络对所述语义特征向量进行分类，完成对待分类文本的分类。

进一步优选地，在所述对所述待分类文本进行分词，并对分词后的文本进行高维映射得到词向量中：采用Word2vec网络对分词后的文本进行高维映射得到词向量；

和/或，在所述使用预训练的卷积神经网络提取所述词向量的局部特征，得到局部特征向量中：使用预训练的CNN网络提取所述词向量的局部特征，得到局部特征向量。

进一步优选地，在所述使用带注意力机制的循环神经网络对所述局部特征向量进行特征抽取，得到基于全局的语义特征向量中：使用带注意力机制的 BiLSTM网络对所述局部特征向量进行特征抽取，得到基于全局的语义特征向量；和/或，

在所述使用多层神经网络对所述语义特征向量进行分类中：使用MLP网络对所述语义特征向量进行分类。

进一步优选地，在所述使用多层神经网络对所述语义特征向量进行分类之前，还包括：使用Dropout层对多层神经网络中的神经元进行丢弃操作；和/ 或，

在所述使用多层神经网络对所述语义特征向量进行分类中，还包括：使用 BN层对多层神经网络的输入进行正则化。

本发明还提供了一种文本分类装置，包括：

文本获取单元，用于获取待分类文本；

词向量嵌入单元，用于对所述文本获取单元获取的待分类文本进行分词，并对分词后的文本进行高维映射得到词向量；

特征提取单元，用于使用预训练的卷积神经网络提取所述词向量嵌入单元得到的词向量的局部特征，得到局部特征向量；及用于使用带注意力机制的循环神经网络对所述局部特征向量进行特征抽取，得到基于全局的语义特征向量；

分类单元，用于使用多层神经网络对所述特征提取单元提取的语义特征向量进行分类，完成对待分类文本的分类。

进一步优选地，在所述词向量嵌入单元中：采用Word2vec网络对分词后的文本进行高维映射得到词向量；和/或，

在所述特征提取单元中：使用预训练的CNN网络提取所述词向量的局部特征得到局部特征向量，及使用带注意力机制的BiLSTM网络对所述局部特征向量进行特征抽取得到基于全局的语义特征向量。

进一步优选地，在所述分类单元中，使用MLP网络对所述语义特征向量进行分类；和/或，

所述分类单元使用Dropout层对多层神经网络中的神经元进行丢弃操作；和/或，

所述分类单元使用BN层对多层神经网络的输入进行正则化。

本发明还提供了一种警情分析系统，包括：

数据接入模块，用于录入待分类的警情文本，及用于接收用户根据警情文本判别的警情类别；

数据处理模块，用于使用上述文本分类装置对所述数据接入模块录入的警情文本进行文本分类，还用于对所述警情文本进行要素抽取及警情案由分类；抽取的要素包括：时间要素、地点要素、人名要素及诈骗手段；

判断模块，用于将所述数据接入模块接收的警情类别与数据处理模块分类的警情类别进行比较并显示，及用于根据所述数据处理模块抽取的要素判断是否将相应的警情文本入库；

后台处理模块，用于对入库的警情文本进行检索、查询及展示。

本发明还提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时实现上述文本分类方法的步骤。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述文本分类方法的步骤。

本发明提供的文本分类方法及装置，利用自然语言处理技术(NLP，NaturalLanguage Processing)解决警情文本自动分类问题。为了避免大量命名实体对文本分类准确性的影响，更加有针对性的强化关键特征对于文本的贡献，在单一的CNN网络、BiLSTM网络的基础上引入注意力机制(Attention)和MLP 层以改善分类效果，构成了CNN+BiLSTM+Attention+MLP的混合模型，其通过组合多种单一模型得到文本分类模型，实现更加准确的区分文本类别的同时，兼顾分类性能。

本发明利用文本分类方法及装置作为重要模块构建警情分析系统，实现了警情文本自动分类，案事件案由按照不同规则细分的应用设想。同时，利用该模型对文本数据处理过程的其他输出信息构建智能化系统，对警员填写的警情信息过程进行相应的指导，确保案事件类型和描述保持一致。由于接处警警情文本描述信息的准确填写将会对公安机关在案事件分析研判及辖区治安评价等应用场景产生积极影响，本发明的研究内容具有较好的实战应用价值。

附图说明

下面将以明确易懂的方式，结合附图说明优选实施例，对上述特性、技术特征、优点及其实现方式予以进一步说明。

图1为本发明中文本分类方法一实施例流程示意图；

图2为本发明中文本分类装置一实施例流程示意图；

图3为本发明中警情分析系统示意图；

图4为本发明中终端设备结构示意图。

附图标号说明：

100-文本分类装置，110-文本获取单元，120-词向量嵌入单元，130-特征提取单元，140-分类单元。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对照附图说明本发明的具体实施例。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施例。

本发明的第一实施例，如图1所示，该文本分类方法包括：S10获取待分类文本；S20对待分类文本进行分词，并对分词后的文本进行高维映射得到词向量；S30使用预训练的卷积神经网络提取词向量的局部特征，得到局部特征向量；S40使用带注意力机制的循环神经网络对局部特征向量进行特征抽取，得到基于全局的语义特征向量；S50使用多层神经网络对语义特征向量进行分类，完成对待分类文本的分类。

文本分类是自然语言处理(NLP)的一个基本问题，诸如垃圾邮件检测、新闻过滤等都可以算是自动文本分类的典型应用。其一般性的定义是：将文本通过计算机辅助算法自动分类为预定义的类别的技术。更规范的说，文本分类任务可以被定义为如式(1)的函数φ：

φ＝D×C→{T,F} (1)

其中，D＝{d₁,d₂,…,d_|D|}表示需要进行分类的文本，C＝{C₁,C₂,…,C_|C|}表示预定义的分类体系下的类别集合，T值表示D中的d_j文本属于类别C_i，F表示d_j文本不属于类别C_i。可以看出，文本分类任务的最终目的是为了找到一个高效的映射函数，对输入文本进行分类得到指定的输出，建立的映射函数即文本分类器。

在本实施例中，待分类文本为需要进行类别分类的文本，如接处警文本、公检法一线员工的询问笔录等，尤其针对短小且包含大量指代关系和地名、人名、时间信息等命名实体的文本，且同一类型的文本中会出现对文本分类起决定性作用的同一词汇，如，入室盗窃案件中经常会出现“被盗”、“窗户”等词语，均是警情文本中特有的文本特征。

由于中文和英文在表示方法上存在一些差异，英文天然存在空格符作为单词与单词之间的分界，但中文文本没有，以此，基于中文自身具备的“单字成词”的特点，需要对中文文本进行分词处理。

在本实施例中，对待分类文本进行分词后，进一步通过词嵌入(Word Embedding)层对分词后的文本进行高维映射得到词向量；之后，通过预训练的卷积神经网络将映射到高维空间的词向量通过卷积的方式提取出来；考虑到词向量会缺失许多“词义信息”，接着，根据得到的词向量使用带注意力机制的循环神经网络对其上下文信息进行编码，生成基于全局的语义特征向量；最后，使用多层神经网络对语义特征向量进行分类，完成对待分类文本的分类。

对上述实施例进行改进得到本实施例，在本实施例中，步骤S20对待分类文本进行分词，并对分词后的文本进行高维映射得到词向量中：采用Word2vec 网络对分词后的文本进行高维映射得到词向量。

在本实施例中，采用了常见的Word2vec网络对分词后的文本进行高维映射，其使用霍夫曼树作为数据结构来代替传统DNN网络，利用霍夫曼树的叶子节点起到神经元输出作用，通过字典的大小来设定叶子节点的个数。应当注意，在对分词进行映射之前，使用训练集(可从现有文本数据库中抽取形成)对 Word2vec网络进行预训练，得到网络权重参数，之后在整体文本分类模型训练过程中，Embedding层的网络权重不再更新。当然，在其他实例中，也可以采用其他网络模型作为词嵌入层，这里不做具体限定，只要能够实现本实施例的目的即可。

对上述实施例进行改进得到本实施例，在本实施例中，步骤S30使用预训练的卷积神经网络提取词向量的局部特征，得到局部特征向量中：使用预训练的CNN网络提取词向量的局部特征，得到局部特征向量。

由于CNN网络在提取局部信息特征时能够将映射到高维空间的特征通过卷积的方式提取出来，以解决短文本中关键字对于整体文本类型贡献判定的问题，故而本实施例中，使用CNN网络作为文本分类模型的第一层。

在一实例中，经过Embedding层后得到的词向量为一组相同形状的二维矩阵，之后输入到CNN网络。CNN网络结合文本的特点分别为卷积层设计了 1ⅹ3、1ⅹ4、1ⅹ5和1ⅹ6四种卷积核，对文本进行滑动卷积，实现对文本矩阵局部特征提取的效果。此外为了防止网络参数过于庞大不利于计算，同时使得权重参数矩阵变得稀疏，降低特征序列的连续性，引入池化层来缩减网络的大小，提高计算速度，同时提高所提取特征的鲁棒性。

对上述实施例进行改进得到本实施例，在本实施例中，步骤S40使用带注意力机制的循环神经网络对局部特征向量进行特征抽取，得到基于全局的语义特征向量中：使用带注意力机制的BiLSTM网络对局部特征向量进行特征抽取，得到基于全局的语义特征向量。

在本实施例中，BiLSTM是一种处理序列信息的深度学习模型，通过循环单元对历史信息和当前信息加权运算得到基于全局的语义特征向量。由于文本信息的序列化特点，利用BiLSTM进行文本特征提取能够在最大程度上保留语序及文本全部信息。

具体，BiLSTM是由两层LSTM模型正反叠加得到的，LSTM是一种加入记忆单元(memory cell)的循环神经网络，其自带时序特征，且可以通过记忆单元来控制历史信息的传递量，因此适合用于抽取具有上下文依赖性的序列特征。本实施例采用该网络结构作为待识别文本的特征抽取器，以获取字符向量的上下文编码信息。

在LSTM中，记忆单元一般用c表示，其由三个其他的门控单元控制，分别称作输入门i(input gate)、遗忘门f(forget gate)和输出门o(output gate)，每一个门控单元均以前一时刻t-1的隐藏单元h^(t-1)和当前时刻t输入信号x^(t)为输入。门控单元常利用sigmoid函数进行非线性激活，更新方式如式(2)～(4)：

i^(t)＝σ(W_ixx^(t)+W_ihh^(t-1)+b_i) (2)

f^(t)＝σ(W_fxx^(t)+W_fhh^(t-1)+b_f) (3)

o^(t)＝σ(W_oxx^(t)+W_ohh^(t-1)+b_o) (4)

其中，σ(·)表示sigmoid函数，W_ix和W_ih表示输入门i^(t)的权值矩阵，W_fx和 W_fh表示遗忘门f^(t)的权值矩阵，W_ox和W_oh表示输出门o^(t)的权值矩阵，b_i、b_f和 b_o分别表示输入门i^(t)、遗忘门f^(t)和输出门o^(t)的偏置量。

c^(t)为LSTM中的记忆信息。由两部分组成，分别为遗忘门f^(t)控制的历史信息与输入门i^(t)控制的当前信息。更新方式如式(5)：

c^(t)＝f^(t)*c^(t-1)+i^(t)*δ(W_cxx^(t)+W_chh^(t-1)+b_c) (5)

其中，c^(t-1)表示前一时刻t-1的记忆信息，W_cx和W_ch表示记忆信息的权值矩阵，b_c表示记忆信息的偏置量，δ(·)表示tanh函数。

隐藏单元h^(t)的更新由输出门o^(t)和记忆信息c^(t)决定，更新方式如式(6)：

h^(t)＝o^(t)*δ(c^(t)) (6)

注意力机制又称内部注意力，它的核心思想是模仿人的注意力机制。对于输出信息的隐层含义，结合每一次的输入信息进行比较，控制输入序列中元素对输出序列元素的影响力大小。关于第i个输入的概率a_i计算方法参考式(7)：

其中，

表示该记忆单元在t时刻的数据输出，h_s表示一随机初始化的上下文向量，具体表示为输入特征的一种语义表示。

对上述实施例进行改进得到本实施例，在本实施例中，步骤S50使用多层神经网络对语义特征向量进行分类中：使用MLP网络对语义特征向量进行分类。MLP网络由Dense(全连接层)和其他附加层组成，用于将特征映射到指定输出。

此外，在使用多层神经网络对语义特征向量进行分类之前，还包括：使用 Dropout层对多层神经网络中的神经元进行丢弃操作。在使用多层神经网络对语义特征向量进行分类中，还包括：使用BN层对多层神经网络的输入进行正则化。

在本实施例中，为了防止过拟合，在MLP网络上配置有正则化和Dropout 网络，即分类层由Dropout、MLP及BN层组成，BN层用于改善正则化策略，并把训练数据彻底打乱，改善流经网络的梯度。在一实例中，Droupt网络在丢弃比例(0.1，0.3，0.5，0.7，0.9)中分别搜索，迭代次数最大设为50。

在本实施例中，在单一的CNN网络、BiLSTM网络的基础上引入注意力机制(Attention)和MLP层以改善分类效果，构成了 CNN+BiLSTM+Attention+MLP的混合模型，其通过组合多种单一模型得到文本分类模型，实现更加准确的区分文本类别的同时，兼顾分类性能。

本发明还提供了一种文本分类装置100，如图2所示，包括：文本获取单元110，用于获取待分类文本；词向量嵌入单元120，用于对文本获取单元110 获取的待分类文本进行分词，并对分词后的文本进行高维映射得到词向量；特征提取单元130，用于使用预训练的卷积神经网络提取词向量嵌入单元120得到的词向量的局部特征，得到局部特征向量；及用于使用带注意力机制的循环神经网络对局部特征向量进行特征抽取，得到基于全局的语义特征向量；分类单元140，用于使用多层神经网络对特征提取单元130提取的语义特征向量进行分类，完成对待分类文本的分类。

在本实施例中，对待分类文本进行分词后，词向量嵌入单元120进一步对分词后的文本进行高维映射得到词向量；之后，特征提取单元130通过预训练的卷积神经网络将映射到高维空间的词向量通过卷积的方式提取出来；考虑到词向量会缺失许多“词义信息”，接着，特征提取单元130根据得到的词向量使用带注意力机制的循环神经网络对其上下文信息进行编码，生成基于全局的语义特征向量；最后，分类单元140使用多层神经网络对语义特征向量进行分类，完成对待分类文本的分类。

对上述实施例进行改进得到本实施例，在本实施例中，词向量嵌入单元120 采用Word2vec网络对分词后的文本进行高维映射得到词向量。

对上述实施例进行改进得到本实施例，在本实施例中，特征提取单元130 使用预训练的CNN网络提取词向量的局部特征得到局部特征向量，及使用带注意力机制的BiLSTM网络对局部特征向量进行特征抽取得到基于全局的语义特征向量。

由于CNN网络在提取局部信息特征时能够将映射到高维空间的特征通过卷积的方式提取出来，以解决短文本中关键字对于整体文本类型贡献判定的问题，故而本实施例中，特征提取单元130使用CNN网络作为文本分类模型的第一层。

BiLSTM是一种处理序列信息的深度学习模型，通过循环单元对历史信息和当前信息加权运算得到基于全局的语义特征向量。由于文本信息的序列化特点，利用BiLSTM进行文本特征提取能够在最大程度上保留语序及文本全部信息。

在LSTM中，记忆单元一般用c表示，其由三个其他的门控单元控制，分别称作输入门i(input gate)、遗忘门f(forget gate)和输出门o(output gate)，每一个门控单元均以前一时刻t-1的隐藏单元h^(t-1)和当前时刻t输入信号x^(t)为输入。门控单元常利用sigmoid函数进行非线性激活，更新方式如式(2)～(4)。c^(t)为LSTM中的记忆信息。由两部分组成，分别为遗忘门f^(t)控制的历史信息与输入门i^(t)控制的当前信息。更新方式如式(5)。隐藏单元h^(t)的更新由输出门o^(t)和记忆信息c^(t)决定，更新方式如式(6)。

注意力机制又称内部注意力，它的核心思想是模仿人的注意力机制。对于输出信息的隐层含义，结合每一次的输入信息进行比较，控制输入序列中元素对输出序列元素的影响力大小。关于第i个输入的概率a_i计算方法参考式(7)。

对上述实施例进行改进得到本实施例，在本实施例中，使用MLP网络对语义特征向量进行分类。另外，分类单元140还使用Dropout层对多层神经网络中的神经元进行丢弃操作、使用BN层对多层神经网络的输入进行正则化。

在本实施例中，MLP网络由Dense(全连接层)和其他附加层组成，用于将特征映射到指定输出。为了防止过拟合，在MLP网络上配置有正则化和 Dropout网络，即分类层由Dropout、MLP及BN层组成，BN层用于改善正则化策略，并把训练数据彻底打乱，改善流经网络的梯度。

使用刑事案件警情进行分类操作为例，从某市公安数据库中选取刑事类警情中常见的9种案件文本，共计25000多条，去除其中重复的警情文本、无效警情文本、描述不明确警情文本等，最终保留18000条警情数据。数据集被划分为训练集、验证集、测试集，数据集情况的划分情况如表1所示：

表1：数据集划分信息

类型	标签/个	训练集/条	验证集/条	测试集/条
					数量	9	1600*9	300*9	100*9

标签代码包括：010300、010700、010800、011000、011100、011200、011500、 011700和011900，分别代表不同的警情类型。如，标签代码“011100”对应诈骗案件。

在单一的CNN网络、BiLSTM网络的基础上引入注意力机制和MLP层构成CNN+BiLSTM+Attention+MLP的混合网络模型，在训练时优化器选择Adam 优化器，网络参数设置如表2：

表2：实验参数信息

在训练时，警情文本序列的编码长度统一设定为256，学习率设定为2*10^-5，损失函数利用Keras模型中的交叉熵损失函数(Categorical crossentropy)，批次尺寸(Batchsize)设定为64，迭代次数(Epochs)设定为50。

经过多次迭代训练后使用测试集对网络模型进行测试，综合考虑准确率和召回率，使用F1值作为性能指标对建立的模型进行评估。具体，利用Keras 平台自带的classification_report函数计算评估指标，评估结果如表3所示：

表3：模型评估指标展示

	准确率	召回率	F1值	测试数据/条
					Micro avg	0.9722	0.9722	0.9722	900
Macro avg	0.9722	0.9724	0.9721	900
					Weighted avg	0.9729	0.9722	0.9723	900

由以上测试结果可知，预测准确率达到97％，F1值达到了97％，指标满足设计需求。

在实际应用中，由于原始数据的专业性和特殊性，致使少数特殊案件相关的报警描述十分稀少。本实例基于现有文本分类模型搭建测试系统，嵌入到真实使用场景中进一步测试文本分类器的分类准确度。实验效果如下：

在一实例中：

输入内容："2015年3月6日08时30分，XX市公安局城子坦X派出所接到王XX来所报警称：其被人骗了。接警后，我所民警立即展开调查。经查： 2013年3月份期间，孙XX在明知自己没有偿付能力的情况下，以建设海参圈为由，取得王XX的信任，骗取王XX人民币6.04万元，至今未偿还"。

测试结果：

表4：单条较长警情测试结果

标签	分类概率
		010300	7.43*10<sup>-04</sup>
010700	1.76*10<sup>-07</sup>
		010800	1.98*10<sup>-14</sup>
011000	3.58*10<sup>-05</sup>
		011100	9.25*10<sup>-01</sup>
011200	2.84*10<sup>-17</sup>
		011500	4.54*10<sup>-20</sup>
011700	2.09*10<sup>-24</sup>
		011900	8.90*10<sup>-04</sup>

从网络模型输出的测试结果可知，分类概率最大值是0.924759，对应标签为011100，表示该警情文本对应诈骗案件，分类准确。

在另一实例中：

输入内容：“报警人称钱被骗”。

测试结果：

表5单条较短警情测试结果

标签	分类概率
		010300	1.31*10<sup>-01</sup>
010700	9.76*10<sup>-04</sup>
		010800	2.31*10<sup>-05</sup>
011000	2.12*10<sup>-01</sup>
		011100	5.69*10<sup>-01</sup>
011200	3.54*10<sup>-06</sup>
		011500	6.17*10<sup>-08</sup>
011700	5.98*10<sup>-08</sup>
		011900	8.74*10<sup>-02</sup>

从网络模型输出的测试结果可知，分类概率最大值是0.568867，对应标签为011100，表示该警情文本对应诈骗案件，分类准确。

另外，通过对上述测试结果分析可以看出，相较于描述较长较完整的警情文本来说，较为剪短的警情文本分类器输出最大概率要低一些，描述较长较完整的警情文本能够体现出更好的分类效果。是以，为了使得文本分类器能够更好的兼容所有输入警情。在实际使用过程中，系统还会对文本分类器输出的结果做阈值判定，当分类概率大于设定阈值时，则认为分类结果准确可信，否则就将分类结果判定为“其它警情”，由人工做进一步审核，阈值的设置根据现场使用情况做适当调整，这里不做具体限定。

本发明还提供了一种警情分析系统，包括：数据接入模块，用于录入待分类的警情文本，及用于接收用户根据警情文本判别的警情类别；数据处理模块，用于使用上述文本分类装置对数据接入模块录入的警情文本进行文本分类，还用于对警情文本进行要素抽取及警情案由分类；抽取的要素包括：时间要素、地点要素、人名要素及诈骗手段；判断模块，用于将数据接入模块接收的警情类别与数据处理模块分类的警情类别进行比较并显示，及用于根据数据处理模块抽取的要素判断是否将相应的警情文本入库；后台处理模块，用于对入库的警情文本进行检索、查询及展示。

如图3所示，该警情分析系统中主要包括如下功能组件：前端展示(包括上述数据接入模块)，后端处理(包括上述数据处理模块和判断模块)，数据库存储等。前端展示功能主要包括警情文本录入、警情信息结构化匹配、警情本文分工核查、统计分析功能展示。后台操作主要包括：警情文本分类、警情命名实体识别、警情质量评估、警情统计分析；数据库(对应上述后台处理模块)主要实现对警情文本的增、删、改、查等数据基本操作。

基于此，各地区110接警平台接到电话报警后，根据报案人的描述将警情按照相应规则录入到警情分析系统，并根据报警人描述判断警情类别。录入提交过程中系统会根据接警员处理内容对当前警情描述进行分类，判断接警员勾选警情类别和警情描述是否一致，若不一致则给出相应建议提示接警员。警情提交后系统会对该条警情进行案件要素识别，针对不同的案件类型选择不同的识别模型，识别完成后填写到对应数据库中，最终成为分析各地区警务发生情况的重要参数。此外通过对大类警情文本的细分，重复完成上述操作，可以得到更多警情要素，为公安机关后续串并联侦破案件提供更加科学的材料支撑。

案件分类过程在系统中至关重要，其不仅是在警情录入环节能够保证警情文本分类正确，并从数据库中调取预先设定的此种警情对应要素，指导警员按照模版要素规范填写警情信息，同时还能够在后期警情统计过程中，通过对数据库中的某大类案件类型进行细分，获得包含相同特征的案件集合。

文本分类不仅用于接警文本的处理环节。民警接到报警前往事发地后，会根据现场出警和处理情况，填写处警单。由于处警单是由现场处置民警填写，相对接警单要更加专业，内容包含对警情更加具体的描述，对于词汇的使用也更加专业，在处警单录入系统时，系统会对当前处警单再次进行文本分类操作，同时对比关联接警单的警情类别和处警警情类别是否一致，如果不一致给出标记，并要求上级介入人工核查。以免处警民警出于对治安考核的要求而谎报处警警情，造成警情数据填报不真实的情况。

一实例中，警情文本为：2017年08月15日X派出所接到报案：胡XX，男，身份证号：XXXXXX，联系方式：XXXX，报警称：2017年08月15日，其在家中被人入室盗窃现金。警情处警单位填写的反馈案由为“其他类”，可是根据警情描述应当属于“盗窃类”案件，系统准确给出了建议的案由，并提示相关人员进行修改。

在对警情文本进行要素识别时，基于跳词模型、BiLSTM模型、融合编码及条件随机场构建口语化要素识别模型，具体，采用跳词模型对待识别警情文本中满足预设规则(字符于待识别文本中出现的频率大于预设频率)的字符进行字向量编码；使用预训练的BiLSTM模型对待识别文本进行特征抽取获取字符向量的上下文编码信息，生成语义编码向量；对字符向量和语义编码向量进行融合编码后，使用条件随机场对融合后的向量进行类别判断并输出，实现对待识别文本中的要素进行识别。

需要识别的口语化要素包括：时间要素、地点要素、人名要素及诈骗手段四类。Skip-Gram模型的输入是某个特定词，而输出为这个特定词上下文词语对应的词向量。BiLSTM是由两层LSTM模型正反叠加得到的，LSTM是一种加入记忆单元(memory cell)的循环神经网络，其自带时序特征，且可以通过记忆单元来控制历史信息的传递量，因此适合用于抽取具有上下文依赖性的序列特征。本实施例采用该网络结构作为待识别文本的特征抽取器，以获取字符向量的上下文编码信息。条件随机场(CRF)是一种根据输入序列预测输出序列的判别式模型，擅长标记和切分序列化数据。该模型可以根据给定观察序列，来计算整个标记序列的联合概率，对于序列标记任务中非独立的、相互作用的特征，CRF可以通过赋予特征不同权值来表示特征的重要程度。

本发明利用改进的文本分类算法构建警情分析系统的重要模块，实现了警情文本自动分类，案事件案由按照不同规则细分的应用设想。同时，利用该模型对文本数据处理过程的其他输出信息构建智能化系统，对警员填写的警情信息过程进行相应的指导，弱化警员因个人语言习惯不同导致发生计算机难以识别的情况，确保案事件类型和描述保持一致。由于接处警警情文本描述信息的准确填写将会对公安机关在案事件分析研判及辖区治安评价等应用场景产生积极影响，具有较好的实战应用价值。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的程序模块完成，即将装置的内部结构划分成不同的程序单元或模块，以完成以上描述的全部或者部分功能。实施例中的各程序模块可以集成在一个处理单元中，也可是各个单元单独物理存在，也可以两个或两个以上单元集成在一个处理单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件程序单元的形式实现。另外，各程序模块的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

图4是本发明一个实施例中提供的终端设备的结构示意图，如所示，该终端设备200包括：处理器220、存储器210以及存储在存储器210中并可在处理器220上运行的计算机程序211，例如：文本分类程序。处理器220执行计算机程序211时实现上述各个文本分类方法实施例中的步骤，或者，处理器220 执行计算机程序211时实现上述各文本分类装置实施例中各模块的功能。

终端设备200可以为笔记本、掌上电脑、平板型计算机、手机等设备。终端设备200可包括，但不仅限于处理器220、存储器210。本领域技术人员可以理解，图4仅仅是终端设备200的示例，并不构成对终端设备200的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如：终端设备200还可以包括输入输出设备、显示设备、网络接入设备、总线等。

处理器220可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列 (Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器220可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器210可以是终端设备200的内部存储单元，例如：终端设备200的硬盘或内存。存储器210也可以是终端设备200的外部存储设备，例如：终端设备200上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，存储器210还可以既包括终端设备200的内部存储单元也包括外部存储设备。存储器210用于存储计算机程序211以及终端设备200所需要的其他程序和数据。存储器210 还可以用于暂时地存储已经输出或者将要输出的数据。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述或记载的部分，可以参见其他实施例的相关描述。

本领域普通技术人员可以意识到，结合本发明中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露终端设备和方法，可以通过其他的方式实现。例如，以上所描述的终端设备实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性、机械或其他的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可能集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序211发送指令给相关的硬件完成，计算机程序211可存储于一计算机可读存储介质中，该计算机程序211在被处理器220执行时，可实现上述各个方法实施例的步骤。其中，计算机程序211包括：计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括：能够携带计算机程序211代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如：在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

应当说明的是，上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施例，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种文本分类方法，其特征在于，包括：

获取待分类文本；

2.如权利要求1所述的文本分类方法，其特征在于，

在所述对所述待分类文本进行分词，并对分词后的文本进行高维映射得到词向量中：采用Word2vec网络对分词后的文本进行高维映射得到词向量；

3.如权利要求1或2所述的文本分类方法，其特征在于，

在所述使用带注意力机制的循环神经网络对所述局部特征向量进行特征抽取，得到基于全局的语义特征向量中：使用带注意力机制的BiLSTM网络对所述局部特征向量进行特征抽取，得到基于全局的语义特征向量；和/或，

4.如权利要求1或2所述的文本分类方法，其特征在于，在所述使用多层神经网络对所述语义特征向量进行分类之前，还包括：使用Dropout层对多层神经网络中的神经元进行丢弃操作；和/或，

在所述使用多层神经网络对所述语义特征向量进行分类中，还包括：使用BN层对多层神经网络的输入进行正则化。

5.一种文本分类装置，其特征在于，包括：

文本获取单元，用于获取待分类文本；

6.如权利要求5所述的文本分类装置，其特征在于，

在所述词向量嵌入单元中：采用Word2vec网络对分词后的文本进行高维映射得到词向量；和/或，

7.如权利要求5或6所述的文本分类装置，其特征在于，在所述分类单元中，使用MLP网络对所述语义特征向量进行分类；和/或，

所述分类单元使用BN层对多层神经网络的输入进行正则化。

8.一种警情分析系统，其特征在于，包括：

数据处理模块，用于使用如权利要求5-7任意一项所述的文本分类装置对所述数据接入模块录入的警情文本进行文本分类，还用于对所述警情文本进行要素抽取及警情案由分类；抽取的要素包括：时间要素、地点要素、人名要素及诈骗手段；

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序时实现如权利要求1-4中任一项所述文本分类方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-4中任一项所述文本分类方法的步骤。