CN112632274A - 一种基于文本处理的异常事件分类方法及系统 - Google Patents

一种基于文本处理的异常事件分类方法及系统 Download PDF

Info

Publication number
CN112632274A
CN112632274A CN202011183923.7A CN202011183923A CN112632274A CN 112632274 A CN112632274 A CN 112632274A CN 202011183923 A CN202011183923 A CN 202011183923A CN 112632274 A CN112632274 A CN 112632274A
Authority
CN
China
Prior art keywords
abnormal event
model
text
label
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011183923.7A
Other languages
English (en)
Other versions
CN112632274B (zh
Inventor
叶恺翔
吕晓宝
张谦
孙亚文
姚伯祥
王元兵
王海荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sugon Nanjing Research Institute Co ltd
Original Assignee
Sugon Nanjing Research Institute Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sugon Nanjing Research Institute Co ltd filed Critical Sugon Nanjing Research Institute Co ltd
Priority to CN202011183923.7A priority Critical patent/CN112632274B/zh
Publication of CN112632274A publication Critical patent/CN112632274A/zh
Application granted granted Critical
Publication of CN112632274B publication Critical patent/CN112632274B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Educational Administration (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Computational Linguistics (AREA)
  • General Business, Economics & Management (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于文本处理的异常事件分类方法及系统,通过朴素贝叶斯对文本进行分类,证明该文本与此标签有强关联性;利用BERT模型进行异常事件标签分类;根据BERT模型与业务逻辑模型结合进行判别,根据人工的规则调整BERT的输出权重,通过朴素贝叶斯模型特征词之间独立作为前提假设,学习从输入到输出的联合概率分布,再根据概率分布,求出在输入条件下,使得后验概率最大的输出;在结合朴素贝叶斯、BERT模型以及业务逻辑模型,实现了异常事件数据的自动分类标注,进而辅助安全行业的异常事件分析业务。将BERT模型利用在了异常事件分类上,与朴素贝叶斯模型相结合,并针对不同种类的标签分类任务融合了相关的业务知识,进行了不同的模型调整。

Description

一种基于文本处理的异常事件分类方法及系统
技术领域
本发明涉及一种自然语言处理技术,尤其是一种基于文本处理的异常事件分类方法及系统。
背景技术
异常事件分类是指对一条异常事件通过自然语言处理算法进行标签分类标记,标签包括接警类型、事件类型、案由类型、地址区域类型,现在的异常事件文本分类,主要的算法为朴素贝叶斯与TextCNN。
其中朴素贝叶斯是一种简单的模型,依赖于词袋模型,只能统计宏观上的语义特征,无法获取词语位置信息,以及词语间的相互关系,是一种低级模型,准确率低,而TextCNN是一种以文本为输入的卷积神经网络,有如下几个主要的缺陷:1、依赖分词以及训练好的词向量,对于异常事件文本,训练一套通用的词向量需要依赖地名、专有名词等实体的识别,工作量很大;2、一条异常事件所属分类其实只由文本中的几个词汇就能体现,而神经网络无法将注意力集中于输入文本序列的特定片段,导致判别准确率较低;3、卷积神经网络采用一个滑动窗口对输入文本进行扫描,因此无法获得不相邻词汇之间的联系,模型难以获得一个较好的语义表征能力。
发明内容
发明目的:提供一种基于文本处理的异常事件分类方法,以解决上述问题。
技术方案:一种基于文本处理的异常事件分类方法,其特征在于包括如下步骤:
步骤1、设定朴素贝叶斯模型;
步骤2、利用BERT进行异常事件标签分类;
步骤3、根据业务逻辑模型判断异常事件类型。
根据本发明的一个方面,所述步骤1中所述朴素贝叶斯模型以特征词之间独立作为前提假设,学习从输入到输出的联合概率分布,再基于概率分布,求出在输入条件下,使得后验概率最大的输出的设定首先基于原始的异常事件文本数据,用命名实体识别的方式将与异常事件特征不密切的要素替换成相同的字符表示,进行数据预处理,然后将文本进行分词,每个词语作为朴素贝叶斯的输入特征,文本的标签作为模型的输出,统计每类文档标签下的词语概率分布,生成模型,利用参数学习到一个宏观层面的分类模型。
根据本发明的一个方面,所述步骤2中所述异常事件标签分类包括基于原始的异常事件文本数据、基于异常事件文本以及对应的各类异常事件标签、Fine-tune微调、文本数据与标签数据的评分,所述基于原始的异常事件文本数据、对BERT模型进行一个参数预训练,让BERT模型学习到异常事件文本的内在语言逻辑和表达,用与朴素贝叶斯相同的预处理方式,然后,对每一条文本进行Token编码处理,并对每一句话进行截断和补零处理,令每一句的长度相同;所述于异常事件文本以及对应的各类异常事件标签在预训练好的BERT模型的下游添加一个全连接的判别层,进行Mask LM和Next Sentence Prediction两类任务的训练;所述Fine-tune微调根据不同类型的异常事件标签分类任务,对文本采取不同的预处理模式;所述文本数据与标签数据的评分在之前预训练的BERT模型的输出端连接一个输出大小为所有异常事件类别数量的全链接softmax 层,以获得每一个标签的评分。
根据本发明的一个方面,所述步骤3中所述业务逻辑模型通过人工对文本数据的规律总结以及异常事件其它字段的提取,结合相关的业务知识,用正则表达式、关键词匹配方式给这些类在输出层加一个微小的分值,以辅助BERT的判别,具体步骤如下:
步骤31、事件类别分类任务中的异常事件;
步骤32、事件类别分类任务中的混淆;
步骤33、区域类型分类任务中的判别;
步骤34、案由标签分类任务的额外权重。
根据本发明的一个方面,所述朴素贝叶斯模型以特征词之间独立作为前提假设,假设集合H并在其中寻找给定数据D时假设h∈H,这种假设方式称为后验假设,确定MAP 假设方式利用朴素贝叶斯公式计算每个候选假设的后验概率:表达方式如下:
P(h|D)=P(h|D)P(h)/P(D)
式中,P(h|D)表示后验概率函数;D表示给定数据;h表示包含于H。
根据本发明的一个方面,所述BERT模型基于原始的异常事件文本数据构建空间下一个时刻状态,进而得出如下方式:
Figure RE-GDA0002963732380000021
式中,
Figure RE-GDA0002963732380000031
表示离散空间Si在时刻T的状态;f表示剩余空间状态SJ对Si的作用函数;g表示作用函数对Si的影响;
根据离散空间的距离变化,得出如下方式:
Si=H(pi,Ci)
式中,pi表示空间位置状态;Ci表示空间内容状态;H表示组合信息的函数;进一步完成对空间的建模,在不同规模的数据集上比较BERT模型与文本的分类。
根据本发明的一个方面,第一层为朴素贝叶斯模型,第二层为BERT模型,第三层为业务逻辑模型,首先,第一层的朴素贝叶斯对文本进行分类,如果某一类标签的判别分值到达90%,证明该文本与此标签有强关联性,那么自动输出该标签,如果没有任何一类标签分值超过90%,那么文本进入第二层以及第三层,利用BERT模型结合业务逻辑模型进行判别,根据一些人工的规则调整BERT的输出权重。
根据本发明的一个方面,首先基于原始的异常事件文本数据,用命名实体识别的方式将与异常事件特征不密切的要素替换成相同的字符表示,进行数据预处理,比如:异常事件中的日期时间、车牌号、人名、括号中的补充说明等,然后将文本进行分词,每个词语作为朴素贝叶斯的输入特征,文本的标签作为模型的输出,统计每类文档标签下的词语概率分布,生成模型,这样可以利用较少的参数学习到一个宏观层面的分类模型。
根据本发明的一个方面,所述BERT模型进行异常事件标签分类共分为两步,第一步是基于异常事件文本数据,对BERT模型进行一个参数预训练,目的是让BERT模型学习到异常事件文本的内在语言逻辑和表达;第二步是基于异常事件文本以及对应的各类异常事件标签,在预训练好的BERT模型的下游添加一个全连接的判别层,重新进行参数的fine-tune微调。
根据本发明的一个方面,所述基于原始的异常事件文本数据,采用与朴素贝叶斯相同的预处理方式,然后,对每一条文本进行Token编码处理,并对每一句话进行截断和补零处理,令每一句的长度相同。
根据本发明的一个方面,所述基于异常事件文本以及对应的各类异常事件标签将预处理好的语料数据放入随机参数初始化的BERT模型中,进行Mask LM和Next SentencePrediction两类任务的训练;模型采用的结构为16个注意力头、隐层神经元个数1024,中间层神经元个数为4096,transformer层数为3,最大句子长度为512个字符。
根据本发明的一个方面,所述Fine-tune微调以异常事件文本“新街口附近中央花园张三(男,xx省xx市,身份证号为xxx)等人在打架,大约有五个人,”为例:
a.如果进行异常事件类型标签分类,那么对原始文本不做特殊处理;
b.如果进行事件类型标签分类或者案由标签分类:将异常事件文本所有括号中的内容去除,将中文数字转换为阿拉伯数字,例句处理为“新街口附近中央花园张三等人在打架,大约有5个人;”
c.区域类别标签:对异常事件文本进行实体命名识别,识别出其中的地名以及机构名称,关联地名属性表,将这些地名以及机构名的一个属性以括号补充的形式填充至识别出的实体之后;
在例句中,机器匹配地名词库后,识别出“中央花园”为一个地名,关联地名属性表后,获得其地名属性为“商业小区”,那么例句处理为“新街口附近中央花园(商业小区)张三(男,xx省xx市,身份证号为xxx)等人在打架,大约有五个人。”
根据本发明的一个方面,所述文本数据与标签数据的评分在之前预训练的BERT模型的输出端连接一个输出大小为所有异常事件类别数量的全链接softmax层,以获得每一个标签的评分,将预处理好的文本数据与标签数据,以大小为50的批次,加载到之前预训练好的BERT模型,以预训练生成的参数为训练起点,以交叉熵函数衡量预测标签与真实标签之间的差异,利用反向梯度将标签之间的误差传递到模型的各个参数中,更新预训练模型与全链接层的参数权重,形成fine-tune微调;同时,在词向量的 embedding输出层增加对抗训练,以增加噪声提升模型的鲁棒性。
根据本发明的一个方面,所述业务逻辑模型对于数据量较少并且包含一定业务逻辑判断的异常事件类型,使用BERT模型无法做到有效判断,需通过人工对文本数据的规律总结以及异常事件其它字段的提取,结合相关的业务知识,用正则表达式、关键词匹配等方式给这些类在输出层加一个微小的分值,以辅助BERT的判别,具体包含以下几类:
所述事件类别分类任务中的异常事件,如果异常事件文本中没有记录确切的金额,那么需要根据金额字段进行补充,超过3000元为刑事异常事件增加权重,而低于3000元为异常事件类别增加权重;BERT无法对各种新出现的网络APP的名称做到有效准确的识别,在区分安全类异常事件时,需要根据最新的网络APP名称表提取文本中的APP 标签,如果命中,则给网络类标签增加权重;
所述事件类别分类任务中的混淆,打架斗殴与聚众斗殴两者容易混淆,因此,在BERT的输出层对识别为斗殴相关的异常事件添加一层辅助的判断,用正则表达式的方式识别异常事件文本中参与斗殴的人员个数,如果识别成功,则给聚众斗殴标签添加修正的权重;其中,应用的正则表达式为:
[几|约][0-9|一二三四五六七八九十百千万零]+[\u4E00-\u9FA5]{0,2}(个|名|位|人)
[0-9|一二三四五六七八九十百千万零]用来匹配出现的数字;[\u4E00-\u9FA5]为任意中文的通配符,用来丰富数字后面的语言表达,(个|名|位|人)为表征人员的量词;
所述区域类型分类任务中的判别,如果异常事件中没有出现明确的案发地点,那么需要关联事件人的现住址地址,将现住址的区域类型判别标签权重,叠加到异常事件文本的区域标签判别权重之上,填补文本中地址缺失的问题;
所述案由标签分类任务的额外权重,一般案由标签会直接出现在异常事件文本中;因此,为了提升分类的准确率,本发明将所有案由标签在文本中查找一遍,给搜索到的类型标签赋予额外的权重,叠加至BERT的输出层。
有益效果:本发明设计一种基于文本处理的异常事件分类方法及系统,将BERT模型利用在了异常事件分类上,与朴素贝叶斯模型相结合,并针对不同种类的标签分类任务融合了相关的业务知识,进行了不同的模型调整,提升了各项分类的准确率,1、BERT 模型的注意力机制可以对异常事件文本中特定片段进行关注,而朴素贝叶斯模型可以快速地对宏观的语义信息进行提炼,两者相互结合,符合异常事件文本标签生成的特点,提升模型预测的准确率;2、基于异常事件文本对BERT进行预训练具有很高的通用性,对于预训练完成的BERT模型可以在下游衔接不同的网络结构实现不同的任务,进行不同标签分类任务的参数微调,收敛快速;3、BERT模型的输入为单个字符,因此在预处理及微调的过程中,不依赖词向量的特性,同理,朴素贝叶斯作为一种轻量级的模型,也不依赖词向量;4、业务逻辑、朴素贝叶斯、BERT模型进行融合,相辅相成,能够适用于广泛的业务文本;5、能够快速、准确地对异常事件数据打上最细分的异常事件类型标签,其中事件类别分类top1准确率能够达到88.1%,top3命中率能够达到95%,事件类别分类top1准确率能够达到90.7%,top3命中率能够达到97%,与人工判别的准确率十分接近,本发明可以较好地应用于事务实战,模型成果以api接口的形式供各个应用程序进行调用。
附图说明
图1是本发明的异常事件分类流程。
具体实施方式
在该实施例中,一种基于文本处理的异常事件分类方法,其特征在于包括如下步骤:
步骤1、设定朴素贝叶斯模型;
步骤2、利用BERT进行异常事件标签分类;
步骤3、根据业务逻辑模型判断异常事件类型。
在进一步的实施例中,所述步骤1中所述朴素贝叶斯模型以特征词之间独立作为前提假设,学习从输入到输出的联合概率分布,再基于概率分布,求出在输入条件下,使得后验概率最大的输出的设定首先基于原始的异常事件文本数据,用命名实体识别的方式将与异常事件特征不密切的要素替换成相同的字符表示,进行数据预处理,然后将文本进行分词,每个词语作为朴素贝叶斯的输入特征,文本的标签作为模型的输出,统计每类文档标签下的词语概率分布,生成模型,利用参数学习到一个宏观层面的分类模型。
在进一步的实施例中,所述步骤2中所述异常事件标签分类包括基于原始的异常事件文本数据、基于异常事件文本以及对应的各类异常事件标签、Fine-tune微调、文本数据与标签数据的评分,所述基于原始的异常事件文本数据、对BERT模型进行一个参数预训练,让BERT模型学习到异常事件文本的内在语言逻辑和表达,用与朴素贝叶斯相同的预处理方式,然后,对每一条文本进行Token编码处理,并对每一句话进行截断和补零处理,令每一句的长度相同;所述于异常事件文本以及对应的各类异常事件标签在预训练好的BERT模型的下游添加一个全连接的判别层,进行Mask LM和Next Sentence Prediction两类任务的训练;所述Fine-tune微调根据不同类型的异常事件标签分类任务,对文本采取不同的预处理模式;所述文本数据与标签数据的评分在之前预训练的BERT 模型的输出端连接一个输出大小为所有异常事件类别数量的全链接softmax层,以获得每一个标签的评分。
在进一步的实施例中,所述步骤3中所述业务逻辑模型通过人工对文本数据的规律总结以及异常事件其它字段的提取,结合相关的业务知识,用正则表达式、关键词匹配方式给这些类在输出层加一个微小的分值,以辅助BERT的判别,具体步骤如下:
步骤31、事件类别分类任务中的异常事件;
步骤32、事件类别分类任务中的混淆;
步骤33、区域类型分类任务中的判别;
步骤34、案由标签分类任务的额外权重。
在进一步的实施例中,所述朴素贝叶斯模型以特征词之间独立作为前提假设,假设集合H并在其中寻找给定数据D时假设h∈H,这种假设方式称为后验假设,确定MAP假设方式利用朴素贝叶斯公式计算每个候选假设的后验概率:表达方式如下:
P(h|D)=P(h|D)P(h)/P(D)
式中,P(h|D)表示后验概率函数;D表示给定数据;h表示包含于H。
在进一步的实施例中,所述BERT模型基于原始的异常事件文本数据构建空间下一个时刻状态,进而得出如下方式:
Figure RE-GDA0002963732380000071
式中,
Figure RE-GDA0002963732380000072
表示离散空间Si在时刻T的状态;f表示剩余空间状态SJ对Si的作用函数;g表示作用函数对Si的影响;
根据离散空间的距离变化,得出如下方式:
Si=H(pi,Ci)
式中,pi表示空间位置状态;Ci表示空间内容状态;H表示组合信息的函数;进一步完成对空间的建模,在不同规模的数据集上比较BERT模型与文本的分类。
在进一步的实施例中,一种基于文本处理的异常事件分类方法的系统,其特征在于包括如下模块:
用于设定朴素贝叶斯模型的特征替换模块;所述特征替换模块基于原始的异常事件文本数据,用命名实体识别的方式将与异常事件特征不密切的要素替换成相同的字符表示,进行数据预处理,然后将文本进行分词,每个词语作为朴素贝叶斯的输入特征,文本的标签作为模型的输出,统计每类文档标签下的词语概率分布,生成模型,利用参数学习到一个宏观层面的分类模型;
用于利用BERT进行异常事件标签分类的标签分类模块;所述标签分类模块包括基于原始的异常事件文本数据、基于异常事件文本以及对应的各类异常事件标签、 Fine-tune微调、文本数据与标签数据的评分,所述基于原始的异常事件文本数据、对 BERT模型进行一个参数预训练,让BERT模型学习到异常事件文本的内在语言逻辑和表达,用与朴素贝叶斯相同的预处理方式,然后,对每一条文本进行Token编码处理,并对每一句话进行截断和补零处理,令每一句的长度相同;所述于异常事件文本以及对应的各类异常事件标签在预训练好的BERT模型的下游添加一个全连接的判别层,进行 Mask LM和Next SentencePrediction两类任务的训练;所述Fine-tune微调根据不同类型的异常事件标签分类任务,对文本采取不同的预处理模式;所述文本数据与标签数据的评分在之前预训练的BERT模型的输出端连接一个输出大小为所有异常事件类别数量的全链接softmax层,以获得每一个标签的评分;
所述BERT模型基于原始的异常事件文本数据构建空间下一个时刻状态,进而得出如下方式:
Figure RE-GDA0002963732380000081
式中,
Figure RE-GDA0002963732380000082
表示离散空间Si在时刻T的状态;f表示剩余空间状态SJ对Si的作用函数;g表示作用函数对Si的影响;
根据离散空间的距离变化,得出如下方式:
Si=H(pi,Ci)
式中,pi表示空间位置状态;Ci表示空间内容状态;H表示组合信息的函数;进一步完成对空间的建模,在不同规模的数据集上比较BERT模型与文本的分类;
用于根据业务逻辑模型判断异常事件类型的辅助判断模块;所述辅助判断模块通过人工对文本数据的规律总结以及异常事件其它字段的提取,结合相关的业务知识,用正则表达式、关键词匹配方式给这些类在输出层加一个微小的分值,以辅助BERT的判别,具体步骤如下:
步骤31、事件类别分类任务中的异常事件;
步骤32、事件类别分类任务中的混淆;
步骤33、区域类型分类任务中的判别;
步骤34、案由标签分类任务的额外权重。
总之,本发明具有以下优点:基于异常事件文本进行分词、命名实体识别、词性标注等基本语义分析处理,以此为基础进行朴素贝叶斯算法分类学习;基于异常事件文本进行、BERT模型预训练,形成符合安全行业文本表述形式的预训练模型,在此基础上进行分类任务的bert模型微调训练;基于安全行业知识提炼业务关键词及正则表达式,形成公安业务逻辑模型,辅助机器模型进行文本分类处理,三个模型相辅相成,进而辅助安全行业的异常事件分析业务。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本发明对各种可能的组合方式不再另行说明。

Claims (9)

1.一种基于文本处理的异常事件分类方法,其特征在于包括如下步骤:
步骤1、设定朴素贝叶斯模型;
步骤2、利用BERT进行异常事件标签分类;
步骤3、根据业务逻辑模型判断异常事件类型。
2.根据权利要求1所述的一种基于文本处理的异常事件分类方法,其特征在于,所述步骤1中所述朴素贝叶斯模型以特征词之间独立作为前提假设,学习从输入到输出的联合概率分布,再基于概率分布,求出在输入条件下,使得后验概率最大的输出的设定首先基于原始的异常事件文本数据,用命名实体识别的方式将与异常事件特征不密切的要素替换成相同的字符表示,进行数据预处理,然后将文本进行分词,每个词语作为朴素贝叶斯的输入特征,文本的标签作为模型的输出,统计每类文档标签下的词语概率分布,生成模型,利用参数学习到一个宏观层面的分类模型。
3.根据权利要求1所述的一种基于文本处理的异常事件分类方法,其特征在于,所述步骤2中所述异常事件标签分类包括基于原始的异常事件文本数据、基于异常事件文本以及对应的各类异常事件标签、Fine-tune微调、文本数据与标签数据的评分,所述基于原始的异常事件文本数据、对BERT模型进行一个参数预训练,让BERT模型学习到异常事件文本的内在语言逻辑和表达,用与朴素贝叶斯相同的预处理方式,然后,对每一条文本进行Token编码处理,并对每一句话进行截断和补零处理,令每一句的长度相同;所述于异常事件文本以及对应的各类异常事件标签在预训练好的BERT模型的下游添加一个全连接的判别层,进行Mask LM和Next Sentence Prediction两类任务的训练;所述Fine-tune微调根据不同类型的异常事件标签分类任务,对文本采取不同的预处理模式;所述文本数据与标签数据的评分在之前预训练的BERT模型的输出端连接一个输出大小为所有异常事件类别数量的全链接softmax层,以获得每一个标签的评分。
4.根据权利要求1所述的一种基于文本处理的异常事件分类方法,其特征在于,所述步骤3中所述业务逻辑模型通过人工对文本数据的规律总结以及异常事件其它字段的提取,结合相关的业务知识,用正则表达式、关键词匹配方式给这些类在输出层加一个微小的分值,以辅助BERT的判别,具体步骤如下:
步骤31、事件类别分类任务中的异常事件;
步骤32、事件类别分类任务中的混淆;
步骤33、区域类型分类任务中的判别;
步骤34、案由标签分类任务的额外权重。
5.根据权利要求2所述的一种基于文本处理的异常事件分类方法,其特征在于,所述朴素贝叶斯模型以特征词之间独立作为前提假设,假设集合H并在其中寻找给定数据D时假设h∈H,这种假设方式称为后验假设,确定MAP假设方式利用朴素贝叶斯公式计算每个候选假设的后验概率:表达方式如下:
P(h|D)=P(h|D)P(h)/P(D)
式中,P(h|D)表示后验概率函数;D表示给定数据;h表示包含于H。
6.根据权利要求3所述的一种基于文本处理的异常事件分类方法,其特征在于,所述BERT模型基于原始的异常事件文本数据构建空间下一个时刻状态,进而得出如下方式:
Figure RE-FDA0002963732370000021
式中,
Figure RE-FDA0002963732370000022
表示离散空间Si在时刻T的状态;f表示剩余空间状态SJ对Si的作用函数;g表示作用函数对Si的影响;
根据离散空间的距离变化,得出如下方式:
Si=H(pi,Ci)
式中,pi表示空间位置状态;Ci表示空间内容状态;H表示组合信息的函数;进一步完成对空间的建模,在不同规模的数据集上比较BERT模型与文本的分类。
7.一种基于权利要求1至6任一项所述基于文本处理的异常事件分类方法的系统,其特征在于包括如下模块:
用于设定朴素贝叶斯模型的特征替换模块;
用于利用BERT进行异常事件标签分类的标签分类模块;
用于根据业务逻辑模型判断异常事件类型的辅助判断模块。
8.根据权利要求7所述的一种基于文本处理的异常事件分类方法的系统,其特征在于,所述特征替换模块以特征词之间独立作为前提假设,学习从输入到输出的联合概率分布,再基于概率分布,求出在输入条件下,使得后验概率最大的输出的设定首先基于原始的异常事件文本数据,用命名实体识别的方式将与异常事件特征不密切的要素替换成相同的字符表示,进行数据预处理,然后将文本进行分词,每个词语作为朴素贝叶斯的输入特征,文本的标签作为模型的输出,统计每类文档标签下的词语概率分布,生成模型,利用参数学习到一个宏观层面的分类模型。
9.根据权利要求8所述的一种基于文本处理的异常事件分类方法的系统,其特征在于,所述标签分类模块包括基于原始的异常事件文本数据、基于异常事件文本以及对应的各类异常事件标签、Fine-tune微调、文本数据与标签数据的评分,所述基于原始的异常事件文本数据、对BERT模型进行一个参数预训练,让BERT模型学习到异常事件文本的内在语言逻辑和表达,用与朴素贝叶斯相同的预处理方式,然后,对每一条文本进行Token编码处理,并对每一句话进行截断和补零处理,令每一句的长度相同;所述于异常事件文本以及对应的各类异常事件标签在预训练好的BERT模型的下游添加一个全连接的判别层,进行Mask LM和Next Sentence Prediction两类任务的训练;所述Fine-tune微调根据不同类型的异常事件标签分类任务,对文本采取不同的预处理模式;所述文本数据与标签数据的评分在之前预训练的BERT模型的输出端连接一个输出大小为所有异常事件类别数量的全链接softmax层,以获得每一个标签的评分;
所述BERT模型基于原始的异常事件文本数据构建空间下一个时刻状态,进而得出如下方式:
Figure RE-FDA0002963732370000031
式中,
Figure RE-FDA0002963732370000032
表示离散空间Si在时刻T的状态;f表示剩余空间状态SJ对Si的作用函数;g表示作用函数对Si的影响;
根据离散空间的距离变化,得出如下方式:
Si=H(pi,Ci)
式中,pi表示空间位置状态;Ci表示空间内容状态;H表示组合信息的函数;进一步完成对空间的建模,在不同规模的数据集上比较BERT模型与文本的分类;
所述辅助判断模块通过人工对文本数据的规律总结以及异常事件其它字段的提取,结合相关的业务知识,用正则表达式、关键词匹配方式给这些类在输出层加一个微小的分值,以辅助BERT的判别,具体步骤如下:
步骤31、事件类别分类任务中的异常事件;
步骤32、事件类别分类任务中的混淆;
步骤33、区域类型分类任务中的判别;
步骤34、案由标签分类任务的额外权重。
CN202011183923.7A 2020-10-29 2020-10-29 一种基于文本处理的异常事件分类方法及系统 Active CN112632274B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011183923.7A CN112632274B (zh) 2020-10-29 2020-10-29 一种基于文本处理的异常事件分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011183923.7A CN112632274B (zh) 2020-10-29 2020-10-29 一种基于文本处理的异常事件分类方法及系统

Publications (2)

Publication Number Publication Date
CN112632274A true CN112632274A (zh) 2021-04-09
CN112632274B CN112632274B (zh) 2024-04-26

Family

ID=75303180

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011183923.7A Active CN112632274B (zh) 2020-10-29 2020-10-29 一种基于文本处理的异常事件分类方法及系统

Country Status (1)

Country Link
CN (1) CN112632274B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113297357A (zh) * 2021-07-27 2021-08-24 北京健康之家科技有限公司 业务流程数据的异步处理方法和装置
CN113326505A (zh) * 2021-05-19 2021-08-31 中国联合网络通信集团有限公司 数据处理方法及装置
CN113806542A (zh) * 2021-09-18 2021-12-17 上海幻电信息科技有限公司 文本分析方法及系统
CN114398891A (zh) * 2022-03-24 2022-04-26 三峡智控科技有限公司 基于日志关键词生成kpi曲线并标记波段特征的方法
CN115169319A (zh) * 2022-07-21 2022-10-11 中科雨辰科技有限公司 一种识别符号的数据处理系统
CN116913460A (zh) * 2023-09-13 2023-10-20 福州市迈凯威信息技术有限公司 一种药械及检验试剂的营销业务合规性判断分析方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110413785A (zh) * 2019-07-25 2019-11-05 淮阴工学院 一种基于bert和特征融合的文本自动分类方法
CN111414520A (zh) * 2020-03-19 2020-07-14 南京莱斯网信技术研究院有限公司 一种舆情信息中敏感信息的智能挖掘系统
CN111428028A (zh) * 2020-03-04 2020-07-17 中国平安人寿保险股份有限公司 基于深度学习的信息分类方法及相关设备
US20200279105A1 (en) * 2018-12-31 2020-09-03 Dathena Science Pte Ltd Deep learning engine and methods for content and context aware data classification
CN111680727A (zh) * 2020-05-29 2020-09-18 深圳市英维克信息技术有限公司 基于朴素贝叶斯的故障诊断方法、诊断设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200279105A1 (en) * 2018-12-31 2020-09-03 Dathena Science Pte Ltd Deep learning engine and methods for content and context aware data classification
CN110413785A (zh) * 2019-07-25 2019-11-05 淮阴工学院 一种基于bert和特征融合的文本自动分类方法
CN111428028A (zh) * 2020-03-04 2020-07-17 中国平安人寿保险股份有限公司 基于深度学习的信息分类方法及相关设备
CN111414520A (zh) * 2020-03-19 2020-07-14 南京莱斯网信技术研究院有限公司 一种舆情信息中敏感信息的智能挖掘系统
CN111680727A (zh) * 2020-05-29 2020-09-18 深圳市英维克信息技术有限公司 基于朴素贝叶斯的故障诊断方法、诊断设备和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TOBIASHEY 等: "Nobert:tranfer Learning for requirements classification", 《2020 IEEE 28TH INTERNATIONAL REQUIREMENTS ENGINEERING CONFERENCE》, 9 October 2020 (2020-10-09), pages 1 - 2 *
方瑞 等: "基于特征矩阵构造与BP神经网络的垃圾文本过滤模型", 《计算机工程》, vol. 46, no. 8, 9 September 2019 (2019-09-09), pages 271 - 276 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113326505A (zh) * 2021-05-19 2021-08-31 中国联合网络通信集团有限公司 数据处理方法及装置
CN113326505B (zh) * 2021-05-19 2023-06-02 中国联合网络通信集团有限公司 数据处理方法及装置
CN113297357A (zh) * 2021-07-27 2021-08-24 北京健康之家科技有限公司 业务流程数据的异步处理方法和装置
CN113297357B (zh) * 2021-07-27 2021-11-16 北京健康之家科技有限公司 业务流程数据的异步处理方法和装置
CN113806542A (zh) * 2021-09-18 2021-12-17 上海幻电信息科技有限公司 文本分析方法及系统
CN113806542B (zh) * 2021-09-18 2024-05-17 上海幻电信息科技有限公司 文本分析方法及系统
CN114398891A (zh) * 2022-03-24 2022-04-26 三峡智控科技有限公司 基于日志关键词生成kpi曲线并标记波段特征的方法
CN115169319A (zh) * 2022-07-21 2022-10-11 中科雨辰科技有限公司 一种识别符号的数据处理系统
CN115169319B (zh) * 2022-07-21 2023-02-07 中科雨辰科技有限公司 一种识别符号的数据处理系统
CN116913460A (zh) * 2023-09-13 2023-10-20 福州市迈凯威信息技术有限公司 一种药械及检验试剂的营销业务合规性判断分析方法
CN116913460B (zh) * 2023-09-13 2023-12-29 福州市迈凯威信息技术有限公司 一种药械及检验试剂的营销业务合规性判断分析方法

Also Published As

Publication number Publication date
CN112632274B (zh) 2024-04-26

Similar Documents

Publication Publication Date Title
CN112632274A (zh) 一种基于文本处理的异常事件分类方法及系统
CN109977416B (zh) 一种多层次自然语言反垃圾文本方法及系统
CN107729309B (zh) 一种基于深度学习的中文语义分析的方法及装置
CN108573047A (zh) 一种中文文本分类模型的训练方法及装置
CN108763510A (zh) 意图识别方法、装置、设备及存储介质
CN109960727B (zh) 针对非结构化文本的个人隐私信息自动检测方法及系统
CN111738003A (zh) 命名实体识别模型训练方法、命名实体识别方法和介质
CN112733533A (zh) 一种基于bert模型及文本-图像关系传播的多模态命名实体识别方法
CN111428504B (zh) 一种事件抽取方法和装置
CN111259151A (zh) 一种混合文本敏感词变体识别方法和装置
CN114329034B (zh) 基于细粒度语义特征差异的图像文本匹配判别方法及系统
CN112364170A (zh) 数据情感分析方法、装置、电子设备及介质
CN109359302A (zh) 一种领域化词向量的优化方法及基于其的融合排序方法
CN111506732A (zh) 一种文本多层次标签分类方法
CN110826316A (zh) 一种应用于裁判文书中敏感信息的识别方法
CN112905736A (zh) 一种基于量子理论的无监督文本情感分析方法
CN109684928A (zh) 基于互联网检索的中文文档识别方法
CN115146644B (zh) 一种面向警情文本的多特征融合命名实体识别方法
Zhang et al. Learn to adapt for generalized zero-shot text classification
CN112528653A (zh) 短文本实体识别方法和系统
CN108681532A (zh) 一种面向中文微博的情感分析方法
CN115017879A (zh) 文本对比方法、计算机设备及计算机存储介质
CN113312918B (zh) 融合部首向量的分词和胶囊网络法律命名实体识别方法
WO2009156773A1 (en) Device and procedure for recognizing words or phrases and their meaning from digital free text content
CN111737475B (zh) 一种无监督的网络舆情垃圾长文本识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant