CN112733869B - 训练文本识别模型的方法、装置、设备及存储介质 - Google Patents
训练文本识别模型的方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112733869B CN112733869B CN201911028855.4A CN201911028855A CN112733869B CN 112733869 B CN112733869 B CN 112733869B CN 201911028855 A CN201911028855 A CN 201911028855A CN 112733869 B CN112733869 B CN 112733869B
- Authority
- CN
- China
- Prior art keywords
- text
- conditional probability
- value
- window
- threshold
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000012549 training Methods 0.000 title claims abstract description 31
- 238000002372 labelling Methods 0.000 claims abstract description 65
- 239000011159 matrix material Substances 0.000 claims abstract description 52
- 230000002159 abnormal effect Effects 0.000 claims abstract description 45
- 238000001514 detection method Methods 0.000 claims description 26
- 238000012545 processing Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 14
- 230000005856 abnormality Effects 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 210000001072 colon Anatomy 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了训练文本识别模型的方法、装置、设备及存储介质。文本识别模型用于从文本中识别文本的异常判据,方法包括:获取多个文本,每个文本包括至少一个标注窗口,基于标注窗口确定所述每个文本的条件概率矩阵、条件概率阈值和雪崩式序列特征阈值;至少基于多个文本,训练文本识别模型。根据本发明实施例,基于可伸缩的标注窗口对文本进行自动标注,自动识别陌生文本的条件概率矩阵、条件概率阈值和雪崩式序列特征阈值,提高了文本识别的自动化程度和准确度。
Description
技术领域
本发明属于智能检测领域,尤其涉及训练文本识别模型的方法、装置、设备及存储介质。
背景技术
文本异常检测是人工智能在系统运维的应用场景之一,其基本的处理对象是系统文本。系统文本文件通常是半结构化或者非结构化的文本格式,按发生时间进行记录。随着系统规模的变大和复杂度的提高,文本量越来越大,类型越来越多,信息量越来越高,仅凭肉眼和搜索工具、或者使用传统的文本检测方法,越发难以从海量文本中发现系统质量问题。
基于海量文本的智能化异常检测自动、实施、准确地从文本中发现异常,为后续的诊断、自愈提供基础,更适合于大规模和超大规模系统的异常检测场景。
目前智能化异常检测在选取条件概率统计特征方面主要依赖于人工经验,难以实现对首次发生、无处理经验的陌生文本进行判断。
发明内容
本发明实施例提供训练文本识别模型的方法、装置、设备及计算机存储介质,通过可伸缩的标注窗口对文本进行自动标注,自动识别陌生文本的条件概率矩阵、条件概率阈值和雪崩式序列特征阈值,提高了文本识别的自动化程度和准确度。
第一方面,提供了一种训练文本识别模型的方法,该方法包括:获取多个文本,每个文本包括至少一个标注窗口,基于标注窗口确定每个文本的条件概率矩阵、条件概率阈值和雪崩式序列特征阈值;至少基于多个文本,训练文本识别模型。
在一种可能的实现中,确定条件概率矩阵,包括:基于标注窗口,分别计算文本的文本行在与文本行对应的分类特征值出现的条件下发生异常的条件概率值;基于条件概率值确定条件概率矩阵。
在一种可能的实现中,在基于标注窗口,分别计算文本的文本行在与文本行对应的分类特征值出现的条件下发生异常的条件概率值之前,方法还包括:获取文本的至少一个输入窗口,任一个输入窗口的特征包括:文本行的第一连续序列长度值;如果第一连续序列长度值满足预设条件,将输入窗口确定为标注窗口;如果第一连续序列长度值不满足预设条件,伸缩输入窗口得到弹性窗口,将弹性窗口作为标注窗口,弹性窗口的特征包括:第一连续序列长度值。
在一种可能的实现中,预设条件为:第一连续序列长度值小于第一阈值的数量不大于1。
在一种可能的实现中,确定条件概率阈值,包括:获取条件概率矩阵中的条件概率值的众数,将众数作为条件概率阈值。
在一种可能的实现中,确定雪崩式序列特征阈值,包括:分别获取至少一个预先得到的标注窗口内的至少一个第二连续序列,第二连续序列的每个文本行对应的条件概率值均大于条件概率阈值;基于至少一个第二连续序列获取第二连续序列长度最小值作为雪崩式序列特征阈值。
第二方面,提供了一种文本异常检测方法,包括:获取待识别的文本;将文本输入文本识别模型,确定文本的条件概率矩阵、条件概率阈值和雪崩式序列特征阈值;确定当前时刻文本的文本行的分类特征值,根据文本行的分类特征值,从条件概率矩阵中获取文本行的条件概率值;若文本行的条件概率值大于条件概率阈值的连续行数大于雪崩式序列特征阈值,则确定当前时刻文本存在异常。
第三方面,提供了一种训练文本识别模型的训练装置,装置包括:包括:获取模块,用于获取多个文本,每个文本包括至少一个标注窗口,基于标注窗口确定每个文本的条件概率矩阵、条件概率阈值和雪崩式序列特征阈值;训练模块,至少基于多个文本,训练文本识别模型。
第四方面,提供了一种文本异常检测装置,其特征在于,包括:获取模块,用于获取待识别的文本;识别模块,用于将文本输入文本识别模型,确定文本的条件概率矩阵、条件概率阈值和雪崩式序列特征阈值;检测模块,用于确定当前时刻文本的文本行的分类特征值,根据分类特征值,从条件概率矩阵中获取文本行的条件概率值;判断模块,用于若文本行的条件概率值大于条件概率阈值的连续行数大于雪崩式序列特征阈值,则确定当前时刻文本存在异常。
第五方面,提供了一种设备,设备包括:处理器以及存储有计算机程序指令的存储器;处理器执行计算机程序指令时实现如本发明实施例提供的方法。
第六方面,提供了一种计算机存储介质,计算机存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现如本发明实施例提供的方法。
基于提供的方法、装置、设备及计算机存储介质,在模型训练过程中,通过基于不变量的特征进行模糊分类,结合基于连续序列长度的伸缩标注窗口来进行训练,如此训练的文本识别模型可以对文本进行自动标注;基于本发明实施例的训练文本识别模型的方法,训练得到的文本异常检测方法,通过分类特征值对文本进行模糊分类,弱化文本类别,结合伸缩控制的自动化标注窗口,构建出文本异常检测判据,而且能够免去人工标注、阈值设置的环节,能够对首次发生、无处理经验的陌生文本异常进行判断,自动化程度高,准确度高,实时性好。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种训练文本识别模型的方法流程示意图;
图2是本发明实施例提供的一种确定第一连续序列长度值示意图;
图3是本发明实施例提供的一种确定条件概率阈值示意图;
图4是本发明实施例提供的一种文本异常检测方法流程示意图;
图5是本发明实施例提供的一种训练装置的结构示意图;
图6是本发明实施例提供的一种预测装置的结构示意图;
图7是本发明实施例提供的训练装置的结构示意图;
图8是本发明实施例提供的检测装置的结构示意图;
图9是本发明实施例提供的示例性硬件架构的示意图。
具体实施方式
下面将详细描述本发明的各个方面的特征和示例性实施例,为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本发明进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本发明,并不被配置为限定本发明。对于本领域技术人员来说,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
为了提高文本识别的效率及精度,本发明实施例提供了训练文本识别模型的方法,下面首先对本发明实施例所提供的文本异常检测方法进行描述。
图1所示为本发明一个实施例提供的用户文本异常检测方法的流程示意图。如图1所示,该方法的执行主体是服务器,该方法可以包括S101-S102,具体如下所示:
S101,获取多个文本,每个文本包括至少一个标注窗口,基于标注窗口确定每个文本的条件概率矩阵、条件概率阈值和雪崩式序列特征阈值。
首先,获取文本,根据预设方法得到的文本的标注窗口,确定文本的条件概率矩阵。然后根据基于标注窗口确定的条件概率矩阵,确定条件概率阈值和雪崩式序列特征阈值。
在一个实施例中,确定条件概率矩阵,包括:基于标注窗口,分别计算文本的文本行在与文本行对应的分类特征值出现的条件下发生异常的条件概率值,基于条件概率值确定条件概率矩阵。
基于标注窗口,输出条件概率矩阵。具体地,按照标注窗口序列,计算各类文本出现的条件下异常出现的条件概率值,假设文本的文本类编码有L、M、N等,当文本类编码为M时,计算文本类编码为M的文本出现的条件下,异常出现的概率。另外,再按照文本行在样本出现时间将条件概率值形成概率序列TK,TK的行数与样本序列的总行数相等。
在一个实施例中,选用不变量的文本类编码作为文本行对应的分类特征值,不变量是有固定意思的“单词”及其组合构成,“单词”的主要特征是无数字、组合内不含符号、或特殊符号,并且在使用变量描述不变量时,两者常使用冒号进行分割。因此,本申请提出一种以最近邻特殊符号或者数字作为分割点、首个字符串作为文本类编码的模糊分类方法,其具体执行过程说明如下:例如文本行“Session:0x264dd0c360af474 closed”,分割将形成两个单词:单词1“Session”,单词2“0x264dd0c360af474closed”,选取第一个单词作为文本类编码即分类特征值。上述例子选取分类特征值为“Session”。
通过上述方法将文本按照处理对象进行分类,对于同一处理对象,将被分成一类,实现了对文本的模糊分类。也就是说,通过分类特征值对文本分类以后,文本序列会出现同一类文本频繁出现的情况,该序列体现着对同一个处理对象的处理变化过程。特别地,当异常出现时,容易导致牵一发而动全身的效果。因此,本方法基于连续序列长度分析区分异常的变化范围。
本文所述及的条件概率值指的均为在某一文本行Li出现事件Si的条件下某一种异常Y出现的概率,记为P(Y|Si),按照定义其计算公式为:
P(YSi)表示异常Y和事件Si同时发生的概率,P(Si)表示某一文本行Li出现事件Si的概率,R(YSi)表示Y和Si同时出现的次数,R(Si)表示Si出现的次数,即R(Si)等于样本集中Si出现异常出现R(YSi)和Si出现异常不出现次数之和。
在一个实施例中,在基于标注窗口,分别计算文本的文本行在与文本行对应的分类特征值出现的条件下发生异常的条件概率值之前,方法还包括:获取文本的至少一个输入窗口,任一个输入窗口的特征包括:文本行的第一连续序列长度值;如果第一连续序列长度值满足预设条件,将输入窗口确定为标注窗口;如果第一连续序列长度值不满足预设条件,伸缩输入窗口得到弹性窗口,将弹性窗口作为标注窗口,弹性窗口的特征包括:第一连续序列长度值。
设定异常文本行TLi的输入时间窗口为T0*Y内,Y=1,即异常文本行TLi的输入窗口中[TLi-T0,TLi]。TLi表示样本集中第i个异常文本行时间点,I表示样本集总大小,LLi=T0,i∈(0,I]。
将异常文本行TLi输入窗口中[TLi-T0,TLi]作为输入窗口,获取输入窗口中的文本行条件概率值大于W值的最大连续序列长度,作为第一连续序列长度值。可以理解的是,多个异常文本行对应多个输入窗口,将多个输入窗口对应的多个第一连续序列长度值,形成第一连续序列长度值序列;
图2所示为本发明一个实施例提供的确定第一连续序列长度值示意图。如图2所示,以其中一个异常文本行TLi输入窗口每一个样本的先验条件概率值与条件概率值进行比较为例,文本行的概率值均超过阈值W的连续序列共有两个,其中,第一个连续序列中的文本行的概率值均超过阈值W的序列长度是22,之后文本行的概率值没有超过阈值W,由此第一个连续序列长度计数截止到22,接下来开始对第二个连续序列的长度计数,第二个连续序列中的文本行的概率值均超过阈值W的序列长度是6。这两个连续序列的长度分别为22和6,所以在此标注窗口内的最大连续序列长度对应的值记为22。22是第一连续序列长度值序列中的其中一个第一连续序列长度值。
多个输入窗口对应多个第一连续序列长度值,多个第一连续序列长度值形成了第一连续序列长度值序列;如果文本序列中的第一连续序列长度值满足预设条件,将输入窗口确定为标注窗口,根据标注窗口确定条件概率矩阵。
如果文本序列中的第一连续序列长度值不满足预设条件,对输入窗口进行伸缩处理,得到弹性窗口,也就是说,Y=2,将输入窗口进行伸缩处理,弹性窗口为[TLi-2T0,TLi],重新获得基于弹性窗口[TLi-2T0,TLi]的条件概率矩阵,基于弹性窗口[TLi-2T0,TLi]的条件概率矩阵判断文本序列中的第一连续序列长度值是否能满足预设条件。也就是说,每进行一次窗口伸缩,就需要更新一次条件概率矩阵。
如果基于弹性窗口[TLi-2T0,TLi]获得的文本序列中的第一连续序列长度值满足预设条件,将弹性窗口[TLi-2T0,TLi]作为标注窗口输出。
如果基于弹性窗口[TLi-2T0,TLi]文本序列中的第一连续序列长度值还是不满足预设条件,则继续对输入窗口进行伸缩处理,得到弹性窗口[TLi-3T0,TLi],如此往复操作,直到文本序列中的第一连续序列长度值满足预设条件为止,输出标注窗口。
在一个实施例中,预设条件包括:第一连续序列长度值小于第一阈值的数量不大于1。
假设第一连续序列长度值小于第一阈值K的数量为count,开始时count=0,遍历第一连续序列长度值序列,判断第一连续序列长度值是否小于第一阈值K,若小于第一阈值K,count=count+1。判断count是否大于1,如果count不大于1,即可将输入窗口确定为标注窗口。
在一个实施例中,确定条件概率阈值,包括:获取条件概率矩阵中的条件概率值的众数,将众数作为条件概率阈值。
图3所示为本发明一个实施例提供的确定条件概率阈值示意图。如图3所示,以其中一个异常文本行TLi标注窗口每一个样本的条件概率为例进行说明,统计后分布直方图如下,出现频次最高的概率值即为众数对应的概率。在如图的直方图中,众数为0.9,即在该异常文本行的标注窗口中,条件概率阈值为0.9。
在一个实施例中,确定雪崩式序列特征阈值,包括:分别获取至少一个预先得到的标注窗口内的至少一个第二连续序列,第二连续序列的每个文本行对应的条件概率值均大于条件概率阈值;基于至少一个第二连续序列获取第二连续序列长度最小值作为雪崩式序列特征阈值。
以异常文本行为单位,分别统计其标注窗口范围内,条件概率值序列大于或等于条件概率阈值所形成连续序列为第二连续序列。遍历至少一个的第二连续序列,将第二连续序列的最小值作为雪崩式序列特征阈值。
S102,至少基于多个文本,训练文本识别模型。
在以上获得了标注窗口,基于标注窗口确定的具有条件概率矩阵、条件概率阈值和雪崩式序列特征阈值的文本基础上,至少基于这样的多个文本,训练文本识别模型。
基于不变量的特征即分类特征值进行模糊分类弱化文本类别,结合基于连续序列长度的基于可伸缩的标注窗口对文本进行自动标注,从而构建出基于条件概率的条件概率阈值和雪崩式序列特征阈值,免去了人工标注、阈值设置的环节,提高了自动化程度。
图4所示为本发明实施例提供的一种文本异常检测方法流程示意图,该方法的执行主体是服务器,该方法可以包括S401-S404,具体如下所示:
S401,获取待识别的文本。
获取待识别的文本。该文本可以是首次发生、无处理经验的陌生文本。
S402,将文本输入文本识别模型,确定文本的条件概率矩阵、条件概率阈值和雪崩式序列特征阈值。
将待识别的文本输入文本识别模型,得到文本异常判据预测结果;文本异常判据预测结果包括:文本的条件概率矩阵、条件概率阈值和雪崩式序列特征阈值。
S403,确定当前时刻文本的文本行的分类特征值,根据文本行的分类特征值,从条件概率矩阵中获取文本行的条件概率值。
确定当前时刻文本的文本行的分类特征值,获取分类特征值的方法具体参见S101,假设当前时刻文本的文本行的分类特征值为M,那么根据分类特征值M从条件概率矩阵中获取文本行的条件概率值。
S404,若文本行的条件概率值大于条件概率阈值的连续行数大于雪崩式序列特征阈值,则确定当前时刻文本存在异常。
如果判断文本行的条件概率值大于条件概率阈值,则对文本行的条件概率值大于条件概率阈值的连续行数进行加1运算,假设连续行数为count,即count=count+1,判断文本行的条件概率值大于条件概率阈值的连续行数count是否大于雪崩式序列特征阈值,若是,则确定当前时刻文本存在异常。
在一个实施例中,假设标注窗口大小为20秒,现在是时间t=0,当t=20时,有一个判断值,判断当前时刻是否有异常,t=21的时候也有一个判断值,判断当前时刻是否有异常。
在一个实施例中,如果当前时刻判断文本有异常,服务器发出异常告警,用于表示当前时刻的文本异常。
本申请根据自动化获取的包括条件概率阈值和雪崩式序列特征阈值的文本异常判据,来判断文本是否异常。可以免去人工标注、阈值设置的环节,自动化程度高,适用于新隐患、异常、故障的异常检测,提高准确度,提升实时性。
图5示出了本发明实施例提供的一种训练装置的结构示意图,具体如下所示:
训练装置共包含九个模块,包括模糊分类模块、拟标注模块、先验条件概率和条件概率序列计算模块、连续序列长度序列计算模块、连续序列长度判断模块、标注窗口调整模块、条件概率阈值计算模块、雪崩式序列特征提取模块和模型输出模块。
模糊分类模块,用于实现基于不变量特征的模糊分类,包括分割和特征选取。在一个实施例中,按照处理对象进行分类,对于同一处理对象,将会被分成一类,假设处理对象为M,所有处理对象为M的将会被分成一类。如文本行“Session:0x264dd0c360af474closed”,分割将形成两个单词:单词1“Session”,单词2“0x264dd0c360af474 closed”,选取第一个单词作为分类特征值。上述例子选取特征值为“Session”。
拟标注模块,用于对异常文本行输入时间窗口进行标注。假设异常文本行TLi输入时间窗口T0*Y内,Y=1,所有文本行均标志为正样本,TLi表示样本集中第i个异常文本行时间点,标注窗口序列记为LL,I表示样本集总大小,LLi=T0,i∈(0,I]。异常文本行的前序时间窗口为T0,所以异常文本行TLi的输入窗口为[TLi-T0,TLi]。
先验条件概率和条件概率序列计算模块,用于按照标注窗口序列计算各类文本出现的条件下异常出现的先验条件概率值和样本集序列条件概率值。先验条件概率是按照标注窗口序列,计算各类文本出现的条件下异常出现的先验条件概率值PM,PM表示文本类编码为M的文本出现的条件下异常出现的概率;条件概率序列是将先验条件概率按照文本行在样本出现时间形成条件概率序列TK,条件概率序列TK的行数与样本序列总行数相等。条件概率序列TK的行数与样本序列总行数相等,TKs等于条件概率序列中第s行文本类别为As的先验条件概率值
连续序列长度序列计算模块,用于统计标注窗口内每个异常点满足条件的最大连续序列长度形成序列。将异常文本行TLi在输入窗口[TLi-T0,TLi]中的每一个样本的先验条件概率值与条件概率值进行比较,将条件概率值大于W值的最大连续序列长度值形成第一连续序列长度值序列。假设第一连续序列长度值为LWi,也就是说,多个异常文本行对应多个输入窗口,多个输入窗口就会有多个最大连续序列长度值,这些最大连续序列长度值形成了LWi序列。
连续序列长度判断模块,用于判断连续序列长度是否符合条件。遍历LWi序列,判断LWi是否小于第一阈值K,如果LWi序列中小于第一阈值K的个数不大于1,则将输入窗口作为最终的标注窗口;如果LWi序列中小于第一阈值K的个数大于1,则需要调整窗口大小。
标注窗口调整模块,用于调整输入窗口大小。假设异常文本行TLi输入窗口大小为T0*Y,即输入窗口为[TLi-T0*Y,TLi]。如果LWi序列中小于第一阈值K的个数大于1,对输入窗口进行伸缩处理得到弹性窗口,将弹性窗口大小设置为T0*(Y+1),按照重新标注的弹性窗口,对样本进行标注计算,各类文本出现的条件下异常出现的条件概率值PM,再按照类别将条件概率按照文本行在样本出现时间形成概率序列TK。也就是说,每进行一次窗口伸缩,就需要更新一次条件概率矩阵。
基于弹性窗口[TLi-T0*(Y+1),TLi]的条件概率矩阵判断文本序列中的LWi序列是否能满足预设条件。如果基于弹性窗口[TLi-T0*(Y+1),TLi]获得的文本序列中的LWi序列满足预设条件,将弹性窗口[TLi-2T0,TLi]作为标注窗口输出。如果基于弹性窗口[TLi-T0*(Y+1),TLi]文本序列中的LWi序列还是不满足预设条件,则继续对输入窗口进行伸缩处理,如此往复操作,直到文本序列中的第一连续序列长度值满足预设条件为止,输出标注窗口。
条件概率阈值计算模块,用于统计文本的标注窗口内所有文本行条件概率阈值。统计文本的标注窗口内所有文本行先验条件概率值,从中选取众数作为分界点P0,也就是条件概率阈值。条件概率矩阵是对于全文本进行计算的,所以P0是所有文本行样本里面的P0,也就是说,每个文本中只有一个条件概率阈值。
雪崩式序列特征提取模块,用于提取样本集条件概率序列雪崩式序列特征。以异常文本行为单位,分别统计其标注窗口范围内,条件概率值序列大于或等于分界点P0所形成连续序列的长度Leni,Leni为文本行的条件概率值大于条件概率阈值的连续行数,遍历Leni序列,提取Num=min{Leni,i∈(0,I]},也就是说,以Leni序列的最小值作为雪崩式序列特征,也就是将Num作为雪崩式序列特征阈值。
模型输出模块,用于输出训练参数结果。提出文本异常检测判据,文本类M出现,其条件概率值大于或者等于分界点P0,并且后续至少连续出现Num个文本类条件概率值大于或者等于分界点P0的雪崩式的序列特征。公式表述为:
其中,s表示样本集中第一次出现文本类条件概率值大于P0的行号,表示第s+1行到s+NUM行对应文本行的条件概率值均大于条件概率阈值P0。
是样本集时间序列TK中第s行文本类别为As的先验条件概率值。
本发明的实施例提供的训练装置将文本按照分类特征值进行分类,基于分类特征值计算文本中所有文本行的条件概率值;将条件概率值按时间形成条件概率序列;按分类特征值形成条件概率矩阵;在一个异常文本行的输入窗口内,条件概率值大于第一阈值的连续文本行形成第一连续序列,从至少一个第一连续序列长度中获取第一连续序列的长度最大值,将第一连续序列的长度最大值作为最大第一连续序列长度;判断至少一个第一连续序列长度值中大于第一阈值K的数量是否大于1;如果大于1,则将输入窗口的基础上增加一个输入窗口的长度得到弹性窗口,返回初始的按照分类特征值进行分类环节,重新输出基于弹性窗口的条件概率矩阵,再次与第一阈值比较;如果不大于1,则将输入窗口作为标注窗口输出。
将所有文本行的条件概率值的众数作为条件概率阈值;在至少一个标注窗口内,获取条件概率值大于等于条件概率阈值的至少一个第二连续序列长度;从至少一个第二连续序列长度中获取第二连续序列长度最小值作为雪崩式序列特征阈值。
基于不变的分类特征值对文本模糊分类弱化文本类别,结合基于连续序列长度的标注窗口伸缩控制对文本进行自动标注,自动识别陌生文本的条件概率矩阵、条件概率阈值和雪崩式序列特征阈值。免去了人工标注、阈值设置的环节,提高了自动化程度。
图6示出了本发明一个实施例提供的一种预测装置的结构示意图,具体如下所示:
预测装置共包含七个模块,包括条件概率值和阈值查询模块、模糊分类模块、初始点定义模块、初始点判断模块、雪崩式序列特征统计模块、雪崩式序列特征判断模块和结果输出模块。
条件概率值和阈值查询模块,用于基于文本识别模型获取条件概率矩阵、条件概率阈值和雪崩式序列特征阈值。获取待识别的文本,该文本可以是首次发生、无处理经验的陌生文本。将文本输入文本识别模型,得到文本异常判据预测结果;文本异常判据预测结果包括:文本的条件概率矩阵、条件概率阈值P0和雪崩式序列特征阈值Num。
模糊分类模块,用于实现基于不变量特征的模糊分类,包括分割和特征选取。将当前时刻要进行判断的文本行的特征即分类特征值提取出来,确定当前时刻文本的文本行的分类特征值,获取分类特征值的方法具体参见S101,假设当前时刻文本的文本行的分类特征值为M,那么根据分类特征值M从条件概率矩阵中获取文本行的条件概率值。
初始点定义模块,用于特征统计计算初始化处理模块。将count值设置为0,即count=0。
初始点判断模块,用于判断当前处理文本行可以作为特征起点。如果首先要验证的文本行的先验条件概率值大于条件概率阈值P0,那么进行下一步操作。如果文本行的先验条件概率值不大于条件概率阈值P0,则继续处理下一行文本,也就是说,判断当前处理文本行是否可以作为雪崩式序列特征判断的起点。
雪崩式序列特征统计模块,用于雪崩式序列特征统计。如果文本行的先验条件概率值大于条件概率阈值P0,则对count值作加1运算,假设连续行数为count,即count=count+1,也就是说,计算文本行的条件概率值大于条件概率阈值P0的连续行数count。
雪崩式序列特征判断模块,用于判断当前获取序列是否符合雪崩式特征。也就是说,判断文本行的条件概率值大于条件概率阈值P0的连续行数count是否大于雪崩式序列特征阈值Num。
结果输出模块,用于输出判断结果。如果当前时刻文本的文本行的条件概率值大于条件概率阈值P0的连续行数count大于雪崩式序列特征阈值Num,则判断文本异常。
该预测装置通过获取当前时刻的输入文本行,获取输入文本行的分类特征值,根据输入文本行的分类特征值从条件概率序列中获取输入文本行的条件概率,若输入文本行的条件概率大于条件概率阈值,则进行文本行数量累计运算,如果连续文本行的数量大于雪崩式序列特征阈值,则在当前时刻则判断文本异常。自动化程度高,适用于新隐患、异常、故障的异常检测,准确度高,实时性好。
图7是本发明实施例提供的训练装置700的结构示意图;如图7所示,该装置可以包括:
获取模块710,用于获取多个文本,每个文本包括至少一个标注窗口,基于标注窗口确定每个文本的条件概率矩阵、条件概率阈值和雪崩式序列特征阈值。
训练模块720,用于至少基于多个文本,训练文本识别模型。
该实施例提供的定位装置的各个模块可以实现图1中的方法,实现图1方法的技术效果,为简洁描述,在此不再赘述。
图8是本发明实施例提供的检测装置800的结构示意图;如图8所示,该装置可以包括:
获取模块810,用于获取待识别的文本;
识别模块820,用于将文本输入文本识别模型,确定文本的条件概率矩阵、条件概率阈值和雪崩式序列特征阈值;
检测模块830,用于确定当前时刻文本的文本行的分类特征值,根据分类特征值,从条件概率矩阵中获取文本行的条件概率值;
判断模块840,用于若文本行的条件概率值大于条件概率阈值的连续行数大于雪崩式序列特征阈值,则确定当前时刻文本存在异常。
该实施例提供的定位装置的各个模块可以实现图4中的方法,实现图4方法的技术效果,为简洁描述,在此不再赘述。
图9示出了本发明实施例提供的文本异常检测方法的硬件结构示意图。
处理设备可以包括处理器901以及存储有计算机程序指令的存储器902。
上述处理器901可以包括中央处理器(Central Processing Unit,CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本发明实施例的一个或多个集成电路。
存储器902可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器902可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器902可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器902可在综合网关容灾设备的内部或外部。在特定实施例中,存储器902是非易失性固态存储器。在特定实施例中,存储器902包括只读存储器(ROM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。
处理器901通过读取并执行存储器902中存储的计算机程序指令,以实现上述图1和图4所示实施例中的任意一种处理方法。
在一个示例中,处理设备还可包括通信接口903和总线910。其中,如图9所示,处理器901、存储器902、通信接口903通过总线910连接并完成相互间的通信。
通信接口903,主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。
总线910包括硬件、软件或两者,将文本异常检测设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线910可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线,但本发明考虑任何合适的总线或互连。
该处理设备可以执行本发明实施例中的文本异常检测方法,从而实现结合图1和图4描述的文本异常检测方法和装置。
另外,结合上述实施例中的文本异常检测方法,本发明实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意训练文本识别模型的方法。
需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能块可以实现为软件方式,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
以上所述,仅为本发明的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。
Claims (7)
1.训练文本识别模型的方法,其特征在于,所述文本识别模型用于从文本中识别文本的异常判据,所述方法包括:
获取多个文本,每个文本包括至少一个标注窗口,基于所述标注窗口确定所述每个文本的条件概率矩阵、条件概率阈值和雪崩式序列特征阈值;
至少基于所述多个文本,训练所述文本识别模型;
其中,确定所述条件概率矩阵,包括:
获取文本的至少一个输入窗口,任一个所述输入窗口的特征包括:文本行的第一连续序列长度值;
如果所述第一连续序列长度值满足预设条件,将所述输入窗口确定为所述标注窗口;
如果所述第一连续序列长度值不满足预设条件,伸缩所述输入窗口得到弹性窗口,将所述弹性窗口作为所述标注窗口,所述弹性窗口的特征包括:第一连续序列长度值;
基于所述标注窗口,确定所述条件概率矩阵;
确定所述雪崩式序列特征阈值,包括:
分别获取至少一个预先得到的标注窗口内的至少一个第二连续序列,所述第二连续序列的每个文本行对应的条件概率值均大于所述条件概率阈值;
基于所述至少一个第二连续序列获取第二连续序列长度最小值作为所述雪崩式序列特征阈值;
所述确定条件概率阈值,包括:
获取所述条件概率矩阵中的条件概率值的众数,将所述众数作为所述条件概率阈值。
2.根据权利要求1所述的方法,其特征在于,所述预设条件为:所述第一连续序列长度值小于第一阈值的数量不大于1。
3.一种文本异常检测方法,其特征在于,包括:
获取待识别的文本;
将所述文本输入文本识别模型,确定所述文本的条件概率矩阵、条件概率阈值和雪崩式序列特征阈值,所述文本识别模型通过权利要求1-2任一项所述的训练文本识别模型的方法训练得到;
确定当前时刻文本的文本行的分类特征值,根据所述文本行的分类特征值,从所述条件概率矩阵中获取所述文本行的条件概率值;若所述文本行的条件概率值大于所述条件概率阈值的连续行数大于所述雪崩式序列特征阈值,则确定当前时刻文本存在异常。
4.一种训练文本识别模型的训练装置,其特征在于,所述文本识别模型用于从文本中识别文本的异常判据,所述装置包括:
获取模块,用于获取多个文本,每个文本包括至少一个标注窗口,基于所述标注窗口确定所述每个文本的条件概率矩阵、条件概率阈值和雪崩式序列特征阈值;
训练模块,至少基于所述多个文本,训练所述文本识别模型;
其中,确定所述条件概率矩阵,包括:
获取文本的至少一个输入窗口,任一个所述输入窗口的特征包括:文本行的第一连续序列长度值;
如果所述第一连续序列长度值满足预设条件,将所述输入窗口确定为所述标注窗口;
如果所述第一连续序列长度值不满足预设条件,伸缩所述输入窗口得到弹性窗口,将所述弹性窗口作为所述标注窗口,所述弹性窗口的特征包括:第一连续序列长度值;
基于所述标注窗口,确定所述条件概率矩阵;
确定所述雪崩式序列特征阈值,包括:
分别获取至少一个预先得到的标注窗口内的至少一个第二连续序列,所述第二连续序列的每个文本行对应的条件概率值均大于所述条件概率阈值;
基于所述至少一个第二连续序列获取第二连续序列长度最小值作为所述雪崩式序列特征阈值;
所述确定条件概率阈值,包括:
获取所述条件概率矩阵中的条件概率值的众数,将所述众数作为所述条件概率阈值。
5.一种文本异常检测装置,其特征在于,包括:
获取模块,用于获取待识别的文本;
识别模块,用于将所述文本输入文本识别模型,确定所述文本的条件概率矩阵、条件概率阈值和雪崩式序列特征阈值,所述文本识别模型通过权利要求1-2任一项所述的训练文本识别模型的方法训练得到;
检测模块,用于确定当前时刻文本的文本行的分类特征值,根据所述分类特征值,从所述条件概率矩阵中获取所述文本行的条件概率值;
判断模块,用于若所述文本行的条件概率值大于所述条件概率阈值的连续行数大于所述雪崩式序列特征阈值,则确定当前时刻文本存在异常。
6.一种处理设备,其特征在于,所述设备包括:处理器以及存储有计算机程序指令的存储器;
所述处理器执行所述计算机程序指令时实现如权利要求1-3任意一项所述的方法。
7.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-3任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911028855.4A CN112733869B (zh) | 2019-10-28 | 2019-10-28 | 训练文本识别模型的方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911028855.4A CN112733869B (zh) | 2019-10-28 | 2019-10-28 | 训练文本识别模型的方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112733869A CN112733869A (zh) | 2021-04-30 |
CN112733869B true CN112733869B (zh) | 2024-05-28 |
Family
ID=75588731
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911028855.4A Active CN112733869B (zh) | 2019-10-28 | 2019-10-28 | 训练文本识别模型的方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112733869B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101052948A (zh) * | 2004-09-10 | 2007-10-10 | 图形公司 | 对象过程图应用程序开发系统 |
CN103838933A (zh) * | 2014-03-18 | 2014-06-04 | 湖南大学 | 一种基于数字化技术的三维模型集成标注方法 |
RU2583150C1 (ru) * | 2014-11-28 | 2016-05-10 | Самсунг Электроникс Ко., Лтд. | Голосовая связь на естественном языке между человеком и устройством |
WO2018023981A1 (zh) * | 2016-08-03 | 2018-02-08 | 平安科技(深圳)有限公司 | 舆情分析方法、装置、设备及计算机可读存储介质 |
CN108288078A (zh) * | 2017-12-07 | 2018-07-17 | 腾讯科技(深圳)有限公司 | 一种图像中字符识别方法、装置和介质 |
CN109299458A (zh) * | 2018-09-12 | 2019-02-01 | 广州多益网络股份有限公司 | 实体识别方法、装置、设备及存储介质 |
CN109522463A (zh) * | 2018-10-18 | 2019-03-26 | 西南石油大学 | 应用程序的舆情分析方法和装置 |
CN109635123A (zh) * | 2018-11-28 | 2019-04-16 | 北京工业大学 | 一种增量式的中医文本概念识别方法 |
CN109871446A (zh) * | 2019-01-31 | 2019-06-11 | 平安科技(深圳)有限公司 | 意图识别中的拒识方法、电子装置及存储介质 |
WO2019174422A1 (zh) * | 2018-03-16 | 2019-09-19 | 北京国双科技有限公司 | 实体关联关系的分析方法及相关装置 |
CN110309808A (zh) * | 2019-07-09 | 2019-10-08 | 北京林业大学 | 一种大范围尺度空间下的自适应烟雾根节点检测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8117203B2 (en) * | 2005-07-15 | 2012-02-14 | Fetch Technologies, Inc. | Method and system for automatically extracting data from web sites |
-
2019
- 2019-10-28 CN CN201911028855.4A patent/CN112733869B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101052948A (zh) * | 2004-09-10 | 2007-10-10 | 图形公司 | 对象过程图应用程序开发系统 |
CN103838933A (zh) * | 2014-03-18 | 2014-06-04 | 湖南大学 | 一种基于数字化技术的三维模型集成标注方法 |
RU2583150C1 (ru) * | 2014-11-28 | 2016-05-10 | Самсунг Электроникс Ко., Лтд. | Голосовая связь на естественном языке между человеком и устройством |
WO2018023981A1 (zh) * | 2016-08-03 | 2018-02-08 | 平安科技(深圳)有限公司 | 舆情分析方法、装置、设备及计算机可读存储介质 |
CN108288078A (zh) * | 2017-12-07 | 2018-07-17 | 腾讯科技(深圳)有限公司 | 一种图像中字符识别方法、装置和介质 |
WO2019174422A1 (zh) * | 2018-03-16 | 2019-09-19 | 北京国双科技有限公司 | 实体关联关系的分析方法及相关装置 |
CN109299458A (zh) * | 2018-09-12 | 2019-02-01 | 广州多益网络股份有限公司 | 实体识别方法、装置、设备及存储介质 |
CN109522463A (zh) * | 2018-10-18 | 2019-03-26 | 西南石油大学 | 应用程序的舆情分析方法和装置 |
CN109635123A (zh) * | 2018-11-28 | 2019-04-16 | 北京工业大学 | 一种增量式的中医文本概念识别方法 |
CN109871446A (zh) * | 2019-01-31 | 2019-06-11 | 平安科技(深圳)有限公司 | 意图识别中的拒识方法、电子装置及存储介质 |
CN110309808A (zh) * | 2019-07-09 | 2019-10-08 | 北京林业大学 | 一种大范围尺度空间下的自适应烟雾根节点检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112733869A (zh) | 2021-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111798312B (zh) | 一种基于孤立森林算法的金融交易系统异常识别方法 | |
CN111275198B (zh) | 一种轴承异常检测方法及系统 | |
CN112232366A (zh) | 一种基于rfid监测的电气设备故障预警方法及系统 | |
WO2023035757A1 (zh) | 生物聚合物的表征方法、装置、设备及计算机存储介质 | |
CN114265882A (zh) | 时序信号点异常检测方法、系统、设备及介质 | |
CN112232206B (zh) | 基于大数据和人工智能的人脸识别方法和人脸识别平台 | |
CN114842371A (zh) | 一种无监督视频异常检测方法 | |
CN112733869B (zh) | 训练文本识别模型的方法、装置、设备及存储介质 | |
CN116543538B (zh) | 一种物联网消防电气预警方法及预警系统 | |
CN113609461A (zh) | 口令强度识别方法、装置、设备和计算机可读存储介质 | |
CN116310713B (zh) | 红外图像识别方法、装置、电子设备及存储介质 | |
CN113726686A (zh) | 流量识别方法、装置、电子设备及存储介质 | |
CN117130615A (zh) | 页面数据生成方法、装置、设备及存储介质 | |
CN116366303A (zh) | 基于深度学习的网络异常检测方法、装置、设备及介质 | |
CN113098640B (zh) | 一种基于频道占用度预测的频谱异常检测方法 | |
CN115278757A (zh) | 一种检测异常数据的方法、装置及电子设备 | |
CN115063739A (zh) | 异常行为的检测方法、装置、设备及计算机存储介质 | |
CN113688953A (zh) | 基于多层gan网络的工控信号分类方法、装置和介质 | |
CN114117031A (zh) | 名单筛查方法、装置、设备及计算机存储介质 | |
CN115277352B (zh) | 网元指令纠错方法、装置、电子设备及计算机存储介质 | |
CN116630991B (zh) | 一种输电线路状态评价方法和系统 | |
CN112633243B (zh) | 信息识别方法、装置、设备及计算机存储介质 | |
CN111984634B (zh) | 告警事务提取方法、装置、设备及计算机存储介质 | |
CN114821327B (zh) | 电力线和杆塔进行特征提取处理方法、系统及存储介质 | |
CN118802026A (zh) | 信道质量的预测方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |