CN112632274A

CN112632274A - 一种基于文本处理的异常事件分类方法及系统

Info

Publication number: CN112632274A
Application number: CN202011183923.7A
Authority: CN
Inventors: 叶恺翔; 吕晓宝; 张谦; 孙亚文; 姚伯祥; 王元兵; 王海荣
Original assignee: Sugon Nanjing Research Institute Co ltd
Current assignee: Sugon Nanjing Research Institute Co ltd
Priority date: 2020-10-29
Filing date: 2020-10-29
Publication date: 2021-04-09
Anticipated expiration: 2040-10-29
Also published as: CN112632274B

Abstract

本发明公开了一种基于文本处理的异常事件分类方法及系统，通过朴素贝叶斯对文本进行分类，证明该文本与此标签有强关联性；利用BERT模型进行异常事件标签分类；根据BERT模型与业务逻辑模型结合进行判别，根据人工的规则调整BERT的输出权重，通过朴素贝叶斯模型特征词之间独立作为前提假设，学习从输入到输出的联合概率分布，再根据概率分布，求出在输入条件下，使得后验概率最大的输出；在结合朴素贝叶斯、BERT模型以及业务逻辑模型，实现了异常事件数据的自动分类标注，进而辅助安全行业的异常事件分析业务。将BERT模型利用在了异常事件分类上，与朴素贝叶斯模型相结合，并针对不同种类的标签分类任务融合了相关的业务知识，进行了不同的模型调整。

Description

一种基于文本处理的异常事件分类方法及系统

技术领域

本发明涉及一种自然语言处理技术，尤其是一种基于文本处理的异常事件分类方法及系统。

背景技术

异常事件分类是指对一条异常事件通过自然语言处理算法进行标签分类标记，标签包括接警类型、事件类型、案由类型、地址区域类型，现在的异常事件文本分类，主要的算法为朴素贝叶斯与TextCNN。

其中朴素贝叶斯是一种简单的模型，依赖于词袋模型，只能统计宏观上的语义特征，无法获取词语位置信息，以及词语间的相互关系，是一种低级模型，准确率低，而TextCNN是一种以文本为输入的卷积神经网络，有如下几个主要的缺陷：1、依赖分词以及训练好的词向量，对于异常事件文本，训练一套通用的词向量需要依赖地名、专有名词等实体的识别，工作量很大；2、一条异常事件所属分类其实只由文本中的几个词汇就能体现，而神经网络无法将注意力集中于输入文本序列的特定片段，导致判别准确率较低；3、卷积神经网络采用一个滑动窗口对输入文本进行扫描，因此无法获得不相邻词汇之间的联系，模型难以获得一个较好的语义表征能力。

发明内容

发明目的：提供一种基于文本处理的异常事件分类方法，以解决上述问题。

技术方案：一种基于文本处理的异常事件分类方法，其特征在于包括如下步骤：

步骤1、设定朴素贝叶斯模型；

步骤2、利用BERT进行异常事件标签分类；

步骤3、根据业务逻辑模型判断异常事件类型。

根据本发明的一个方面，所述步骤1中所述朴素贝叶斯模型以特征词之间独立作为前提假设，学习从输入到输出的联合概率分布，再基于概率分布，求出在输入条件下，使得后验概率最大的输出的设定首先基于原始的异常事件文本数据，用命名实体识别的方式将与异常事件特征不密切的要素替换成相同的字符表示，进行数据预处理，然后将文本进行分词，每个词语作为朴素贝叶斯的输入特征，文本的标签作为模型的输出，统计每类文档标签下的词语概率分布，生成模型，利用参数学习到一个宏观层面的分类模型。

根据本发明的一个方面，所述步骤2中所述异常事件标签分类包括基于原始的异常事件文本数据、基于异常事件文本以及对应的各类异常事件标签、Fine-tune微调、文本数据与标签数据的评分，所述基于原始的异常事件文本数据、对BERT模型进行一个参数预训练，让BERT模型学习到异常事件文本的内在语言逻辑和表达，用与朴素贝叶斯相同的预处理方式，然后，对每一条文本进行Token编码处理，并对每一句话进行截断和补零处理，令每一句的长度相同；所述于异常事件文本以及对应的各类异常事件标签在预训练好的BERT模型的下游添加一个全连接的判别层，进行Mask LM和Next Sentence Prediction两类任务的训练；所述Fine-tune微调根据不同类型的异常事件标签分类任务，对文本采取不同的预处理模式；所述文本数据与标签数据的评分在之前预训练的BERT模型的输出端连接一个输出大小为所有异常事件类别数量的全链接softmax 层，以获得每一个标签的评分。

根据本发明的一个方面，所述步骤3中所述业务逻辑模型通过人工对文本数据的规律总结以及异常事件其它字段的提取，结合相关的业务知识，用正则表达式、关键词匹配方式给这些类在输出层加一个微小的分值，以辅助BERT的判别，具体步骤如下：

步骤31、事件类别分类任务中的异常事件；

步骤32、事件类别分类任务中的混淆；

步骤33、区域类型分类任务中的判别；

步骤34、案由标签分类任务的额外权重。

根据本发明的一个方面，所述朴素贝叶斯模型以特征词之间独立作为前提假设，假设集合H并在其中寻找给定数据D时假设h∈H，这种假设方式称为后验假设，确定MAP 假设方式利用朴素贝叶斯公式计算每个候选假设的后验概率：表达方式如下：

P(h|D)＝P(h|D)P(h)/P(D)

式中，P(h|D)表示后验概率函数；D表示给定数据；h表示包含于H。

根据本发明的一个方面，所述BERT模型基于原始的异常事件文本数据构建空间下一个时刻状态，进而得出如下方式：

式中，

表示离散空间S_i在时刻T的状态；f表示剩余空间状态S_J对S_i的作用函数；g表示作用函数对S_i的影响；

根据离散空间的距离变化，得出如下方式：

S_i＝H(p_i，C_i)

式中，p_i表示空间位置状态；C_i表示空间内容状态；H表示组合信息的函数；进一步完成对空间的建模，在不同规模的数据集上比较BERT模型与文本的分类。

根据本发明的一个方面，第一层为朴素贝叶斯模型，第二层为BERT模型，第三层为业务逻辑模型，首先，第一层的朴素贝叶斯对文本进行分类，如果某一类标签的判别分值到达90％，证明该文本与此标签有强关联性，那么自动输出该标签，如果没有任何一类标签分值超过90％，那么文本进入第二层以及第三层，利用BERT模型结合业务逻辑模型进行判别，根据一些人工的规则调整BERT的输出权重。

根据本发明的一个方面，首先基于原始的异常事件文本数据，用命名实体识别的方式将与异常事件特征不密切的要素替换成相同的字符表示，进行数据预处理，比如：异常事件中的日期时间、车牌号、人名、括号中的补充说明等，然后将文本进行分词，每个词语作为朴素贝叶斯的输入特征，文本的标签作为模型的输出，统计每类文档标签下的词语概率分布，生成模型，这样可以利用较少的参数学习到一个宏观层面的分类模型。

根据本发明的一个方面，所述BERT模型进行异常事件标签分类共分为两步，第一步是基于异常事件文本数据，对BERT模型进行一个参数预训练，目的是让BERT模型学习到异常事件文本的内在语言逻辑和表达；第二步是基于异常事件文本以及对应的各类异常事件标签，在预训练好的BERT模型的下游添加一个全连接的判别层，重新进行参数的fine-tune微调。

根据本发明的一个方面，所述基于原始的异常事件文本数据，采用与朴素贝叶斯相同的预处理方式，然后，对每一条文本进行Token编码处理，并对每一句话进行截断和补零处理，令每一句的长度相同。

根据本发明的一个方面，所述基于异常事件文本以及对应的各类异常事件标签将预处理好的语料数据放入随机参数初始化的BERT模型中，进行Mask LM和Next SentencePrediction两类任务的训练；模型采用的结构为16个注意力头、隐层神经元个数1024，中间层神经元个数为4096，transformer层数为3，最大句子长度为512个字符。

根据本发明的一个方面，所述Fine-tune微调以异常事件文本“新街口附近中央花园张三(男，xx省xx市，身份证号为xxx)等人在打架，大约有五个人，”为例：

a.如果进行异常事件类型标签分类，那么对原始文本不做特殊处理；

b.如果进行事件类型标签分类或者案由标签分类：将异常事件文本所有括号中的内容去除，将中文数字转换为阿拉伯数字，例句处理为“新街口附近中央花园张三等人在打架，大约有5个人；”

c.区域类别标签：对异常事件文本进行实体命名识别，识别出其中的地名以及机构名称，关联地名属性表，将这些地名以及机构名的一个属性以括号补充的形式填充至识别出的实体之后；

在例句中，机器匹配地名词库后，识别出“中央花园”为一个地名，关联地名属性表后，获得其地名属性为“商业小区”，那么例句处理为“新街口附近中央花园(商业小区)张三(男，xx省xx市，身份证号为xxx)等人在打架，大约有五个人。”

根据本发明的一个方面，所述文本数据与标签数据的评分在之前预训练的BERT模型的输出端连接一个输出大小为所有异常事件类别数量的全链接softmax层，以获得每一个标签的评分，将预处理好的文本数据与标签数据，以大小为50的批次，加载到之前预训练好的BERT模型，以预训练生成的参数为训练起点，以交叉熵函数衡量预测标签与真实标签之间的差异，利用反向梯度将标签之间的误差传递到模型的各个参数中，更新预训练模型与全链接层的参数权重，形成fine-tune微调；同时，在词向量的 embedding输出层增加对抗训练，以增加噪声提升模型的鲁棒性。

根据本发明的一个方面，所述业务逻辑模型对于数据量较少并且包含一定业务逻辑判断的异常事件类型，使用BERT模型无法做到有效判断，需通过人工对文本数据的规律总结以及异常事件其它字段的提取，结合相关的业务知识，用正则表达式、关键词匹配等方式给这些类在输出层加一个微小的分值，以辅助BERT的判别，具体包含以下几类：

所述事件类别分类任务中的异常事件，如果异常事件文本中没有记录确切的金额，那么需要根据金额字段进行补充，超过3000元为刑事异常事件增加权重，而低于3000元为异常事件类别增加权重；BERT无法对各种新出现的网络APP的名称做到有效准确的识别，在区分安全类异常事件时，需要根据最新的网络APP名称表提取文本中的APP 标签，如果命中，则给网络类标签增加权重；

所述事件类别分类任务中的混淆，打架斗殴与聚众斗殴两者容易混淆，因此，在BERT的输出层对识别为斗殴相关的异常事件添加一层辅助的判断，用正则表达式的方式识别异常事件文本中参与斗殴的人员个数，如果识别成功，则给聚众斗殴标签添加修正的权重；其中，应用的正则表达式为：

[几|约][0-9|一二三四五六七八九十百千万零]+[\u4E00-\u9FA5]{0，2}(个|名|位|人)

[0-9|一二三四五六七八九十百千万零]用来匹配出现的数字；[\u4E00-\u9FA5]为任意中文的通配符，用来丰富数字后面的语言表达，(个|名|位|人)为表征人员的量词；

所述区域类型分类任务中的判别，如果异常事件中没有出现明确的案发地点，那么需要关联事件人的现住址地址，将现住址的区域类型判别标签权重，叠加到异常事件文本的区域标签判别权重之上，填补文本中地址缺失的问题；

所述案由标签分类任务的额外权重，一般案由标签会直接出现在异常事件文本中；因此，为了提升分类的准确率，本发明将所有案由标签在文本中查找一遍，给搜索到的类型标签赋予额外的权重，叠加至BERT的输出层。

有益效果：本发明设计一种基于文本处理的异常事件分类方法及系统，将BERT模型利用在了异常事件分类上，与朴素贝叶斯模型相结合，并针对不同种类的标签分类任务融合了相关的业务知识，进行了不同的模型调整，提升了各项分类的准确率，1、BERT 模型的注意力机制可以对异常事件文本中特定片段进行关注，而朴素贝叶斯模型可以快速地对宏观的语义信息进行提炼，两者相互结合，符合异常事件文本标签生成的特点，提升模型预测的准确率；2、基于异常事件文本对BERT进行预训练具有很高的通用性，对于预训练完成的BERT模型可以在下游衔接不同的网络结构实现不同的任务，进行不同标签分类任务的参数微调，收敛快速；3、BERT模型的输入为单个字符，因此在预处理及微调的过程中，不依赖词向量的特性，同理，朴素贝叶斯作为一种轻量级的模型，也不依赖词向量；4、业务逻辑、朴素贝叶斯、BERT模型进行融合，相辅相成，能够适用于广泛的业务文本；5、能够快速、准确地对异常事件数据打上最细分的异常事件类型标签，其中事件类别分类top1准确率能够达到88.1％，top3命中率能够达到95％，事件类别分类top1准确率能够达到90.7％，top3命中率能够达到97％，与人工判别的准确率十分接近，本发明可以较好地应用于事务实战，模型成果以api接口的形式供各个应用程序进行调用。

附图说明

图1是本发明的异常事件分类流程。

具体实施方式

在该实施例中，一种基于文本处理的异常事件分类方法，其特征在于包括如下步骤：

步骤1、设定朴素贝叶斯模型；

步骤2、利用BERT进行异常事件标签分类；

步骤3、根据业务逻辑模型判断异常事件类型。

在进一步的实施例中，所述步骤1中所述朴素贝叶斯模型以特征词之间独立作为前提假设，学习从输入到输出的联合概率分布，再基于概率分布，求出在输入条件下，使得后验概率最大的输出的设定首先基于原始的异常事件文本数据，用命名实体识别的方式将与异常事件特征不密切的要素替换成相同的字符表示，进行数据预处理，然后将文本进行分词，每个词语作为朴素贝叶斯的输入特征，文本的标签作为模型的输出，统计每类文档标签下的词语概率分布，生成模型，利用参数学习到一个宏观层面的分类模型。

在进一步的实施例中，所述步骤2中所述异常事件标签分类包括基于原始的异常事件文本数据、基于异常事件文本以及对应的各类异常事件标签、Fine-tune微调、文本数据与标签数据的评分，所述基于原始的异常事件文本数据、对BERT模型进行一个参数预训练，让BERT模型学习到异常事件文本的内在语言逻辑和表达，用与朴素贝叶斯相同的预处理方式，然后，对每一条文本进行Token编码处理，并对每一句话进行截断和补零处理，令每一句的长度相同；所述于异常事件文本以及对应的各类异常事件标签在预训练好的BERT模型的下游添加一个全连接的判别层，进行Mask LM和Next Sentence Prediction两类任务的训练；所述Fine-tune微调根据不同类型的异常事件标签分类任务，对文本采取不同的预处理模式；所述文本数据与标签数据的评分在之前预训练的BERT 模型的输出端连接一个输出大小为所有异常事件类别数量的全链接softmax层，以获得每一个标签的评分。

在进一步的实施例中，所述步骤3中所述业务逻辑模型通过人工对文本数据的规律总结以及异常事件其它字段的提取，结合相关的业务知识，用正则表达式、关键词匹配方式给这些类在输出层加一个微小的分值，以辅助BERT的判别，具体步骤如下：

步骤31、事件类别分类任务中的异常事件；

步骤32、事件类别分类任务中的混淆；

步骤33、区域类型分类任务中的判别；

步骤34、案由标签分类任务的额外权重。

在进一步的实施例中，所述朴素贝叶斯模型以特征词之间独立作为前提假设，假设集合H并在其中寻找给定数据D时假设h∈H，这种假设方式称为后验假设，确定MAP假设方式利用朴素贝叶斯公式计算每个候选假设的后验概率：表达方式如下：

P(h|D)＝P(h|D)P(h)/P(D)

在进一步的实施例中，所述BERT模型基于原始的异常事件文本数据构建空间下一个时刻状态，进而得出如下方式：

式中，

根据离散空间的距离变化，得出如下方式：

S_i＝H(p_i，C_i)

在进一步的实施例中，一种基于文本处理的异常事件分类方法的系统，其特征在于包括如下模块：

用于设定朴素贝叶斯模型的特征替换模块；所述特征替换模块基于原始的异常事件文本数据，用命名实体识别的方式将与异常事件特征不密切的要素替换成相同的字符表示，进行数据预处理，然后将文本进行分词，每个词语作为朴素贝叶斯的输入特征，文本的标签作为模型的输出，统计每类文档标签下的词语概率分布，生成模型，利用参数学习到一个宏观层面的分类模型；

用于利用BERT进行异常事件标签分类的标签分类模块；所述标签分类模块包括基于原始的异常事件文本数据、基于异常事件文本以及对应的各类异常事件标签、 Fine-tune微调、文本数据与标签数据的评分，所述基于原始的异常事件文本数据、对 BERT模型进行一个参数预训练，让BERT模型学习到异常事件文本的内在语言逻辑和表达，用与朴素贝叶斯相同的预处理方式，然后，对每一条文本进行Token编码处理，并对每一句话进行截断和补零处理，令每一句的长度相同；所述于异常事件文本以及对应的各类异常事件标签在预训练好的BERT模型的下游添加一个全连接的判别层，进行 Mask LM和Next SentencePrediction两类任务的训练；所述Fine-tune微调根据不同类型的异常事件标签分类任务，对文本采取不同的预处理模式；所述文本数据与标签数据的评分在之前预训练的BERT模型的输出端连接一个输出大小为所有异常事件类别数量的全链接softmax层，以获得每一个标签的评分；

所述BERT模型基于原始的异常事件文本数据构建空间下一个时刻状态，进而得出如下方式：

式中，

根据离散空间的距离变化，得出如下方式：

S_i＝H(p_i，C_i)

式中，p_i表示空间位置状态；C_i表示空间内容状态；H表示组合信息的函数；进一步完成对空间的建模，在不同规模的数据集上比较BERT模型与文本的分类；

用于根据业务逻辑模型判断异常事件类型的辅助判断模块；所述辅助判断模块通过人工对文本数据的规律总结以及异常事件其它字段的提取，结合相关的业务知识，用正则表达式、关键词匹配方式给这些类在输出层加一个微小的分值，以辅助BERT的判别，具体步骤如下：

步骤31、事件类别分类任务中的异常事件；

步骤32、事件类别分类任务中的混淆；

步骤33、区域类型分类任务中的判别；

步骤34、案由标签分类任务的额外权重。

总之，本发明具有以下优点：基于异常事件文本进行分词、命名实体识别、词性标注等基本语义分析处理，以此为基础进行朴素贝叶斯算法分类学习；基于异常事件文本进行、BERT模型预训练，形成符合安全行业文本表述形式的预训练模型，在此基础上进行分类任务的bert模型微调训练；基于安全行业知识提炼业务关键词及正则表达式，形成公安业务逻辑模型，辅助机器模型进行文本分类处理，三个模型相辅相成，进而辅助安全行业的异常事件分析业务。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本发明对各种可能的组合方式不再另行说明。

Claims

1.一种基于文本处理的异常事件分类方法，其特征在于包括如下步骤：

步骤1、设定朴素贝叶斯模型；

步骤2、利用BERT进行异常事件标签分类；

步骤3、根据业务逻辑模型判断异常事件类型。

2.根据权利要求1所述的一种基于文本处理的异常事件分类方法，其特征在于，所述步骤1中所述朴素贝叶斯模型以特征词之间独立作为前提假设，学习从输入到输出的联合概率分布，再基于概率分布，求出在输入条件下，使得后验概率最大的输出的设定首先基于原始的异常事件文本数据，用命名实体识别的方式将与异常事件特征不密切的要素替换成相同的字符表示，进行数据预处理，然后将文本进行分词，每个词语作为朴素贝叶斯的输入特征，文本的标签作为模型的输出，统计每类文档标签下的词语概率分布，生成模型，利用参数学习到一个宏观层面的分类模型。

3.根据权利要求1所述的一种基于文本处理的异常事件分类方法，其特征在于，所述步骤2中所述异常事件标签分类包括基于原始的异常事件文本数据、基于异常事件文本以及对应的各类异常事件标签、Fine-tune微调、文本数据与标签数据的评分，所述基于原始的异常事件文本数据、对BERT模型进行一个参数预训练，让BERT模型学习到异常事件文本的内在语言逻辑和表达，用与朴素贝叶斯相同的预处理方式，然后，对每一条文本进行Token编码处理，并对每一句话进行截断和补零处理，令每一句的长度相同；所述于异常事件文本以及对应的各类异常事件标签在预训练好的BERT模型的下游添加一个全连接的判别层，进行Mask LM和Next Sentence Prediction两类任务的训练；所述Fine-tune微调根据不同类型的异常事件标签分类任务，对文本采取不同的预处理模式；所述文本数据与标签数据的评分在之前预训练的BERT模型的输出端连接一个输出大小为所有异常事件类别数量的全链接softmax层，以获得每一个标签的评分。

4.根据权利要求1所述的一种基于文本处理的异常事件分类方法，其特征在于，所述步骤3中所述业务逻辑模型通过人工对文本数据的规律总结以及异常事件其它字段的提取，结合相关的业务知识，用正则表达式、关键词匹配方式给这些类在输出层加一个微小的分值，以辅助BERT的判别，具体步骤如下：

步骤31、事件类别分类任务中的异常事件；

步骤32、事件类别分类任务中的混淆；

步骤33、区域类型分类任务中的判别；

步骤34、案由标签分类任务的额外权重。

5.根据权利要求2所述的一种基于文本处理的异常事件分类方法，其特征在于，所述朴素贝叶斯模型以特征词之间独立作为前提假设，假设集合H并在其中寻找给定数据D时假设h∈H，这种假设方式称为后验假设，确定MAP假设方式利用朴素贝叶斯公式计算每个候选假设的后验概率：表达方式如下：

P(h|D)＝P(h|D)P(h)/P(D)

6.根据权利要求3所述的一种基于文本处理的异常事件分类方法，其特征在于，所述BERT模型基于原始的异常事件文本数据构建空间下一个时刻状态，进而得出如下方式：

式中，

根据离散空间的距离变化，得出如下方式：

S_i＝H(p_i，C_i)

7.一种基于权利要求1至6任一项所述基于文本处理的异常事件分类方法的系统，其特征在于包括如下模块：

用于设定朴素贝叶斯模型的特征替换模块；

用于利用BERT进行异常事件标签分类的标签分类模块；

用于根据业务逻辑模型判断异常事件类型的辅助判断模块。

8.根据权利要求7所述的一种基于文本处理的异常事件分类方法的系统，其特征在于，所述特征替换模块以特征词之间独立作为前提假设，学习从输入到输出的联合概率分布，再基于概率分布，求出在输入条件下，使得后验概率最大的输出的设定首先基于原始的异常事件文本数据，用命名实体识别的方式将与异常事件特征不密切的要素替换成相同的字符表示，进行数据预处理，然后将文本进行分词，每个词语作为朴素贝叶斯的输入特征，文本的标签作为模型的输出，统计每类文档标签下的词语概率分布，生成模型，利用参数学习到一个宏观层面的分类模型。

9.根据权利要求8所述的一种基于文本处理的异常事件分类方法的系统，其特征在于，所述标签分类模块包括基于原始的异常事件文本数据、基于异常事件文本以及对应的各类异常事件标签、Fine-tune微调、文本数据与标签数据的评分，所述基于原始的异常事件文本数据、对BERT模型进行一个参数预训练，让BERT模型学习到异常事件文本的内在语言逻辑和表达，用与朴素贝叶斯相同的预处理方式，然后，对每一条文本进行Token编码处理，并对每一句话进行截断和补零处理，令每一句的长度相同；所述于异常事件文本以及对应的各类异常事件标签在预训练好的BERT模型的下游添加一个全连接的判别层，进行Mask LM和Next Sentence Prediction两类任务的训练；所述Fine-tune微调根据不同类型的异常事件标签分类任务，对文本采取不同的预处理模式；所述文本数据与标签数据的评分在之前预训练的BERT模型的输出端连接一个输出大小为所有异常事件类别数量的全链接softmax层，以获得每一个标签的评分；

式中，

根据离散空间的距离变化，得出如下方式：

S_i＝H(p_i，C_i)

所述辅助判断模块通过人工对文本数据的规律总结以及异常事件其它字段的提取，结合相关的业务知识，用正则表达式、关键词匹配方式给这些类在输出层加一个微小的分值，以辅助BERT的判别，具体步骤如下：

步骤31、事件类别分类任务中的异常事件；

步骤32、事件类别分类任务中的混淆；

步骤33、区域类型分类任务中的判别；

步骤34、案由标签分类任务的额外权重。