CN114281939A - 文本分类模型的训练方法、文本分类方法、装置和设备 - Google Patents
文本分类模型的训练方法、文本分类方法、装置和设备 Download PDFInfo
- Publication number
- CN114281939A CN114281939A CN202111419915.2A CN202111419915A CN114281939A CN 114281939 A CN114281939 A CN 114281939A CN 202111419915 A CN202111419915 A CN 202111419915A CN 114281939 A CN114281939 A CN 114281939A
- Authority
- CN
- China
- Prior art keywords
- text information
- text
- classification model
- feature vector
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013145 classification model Methods 0.000 title claims abstract description 104
- 238000000034 method Methods 0.000 title claims abstract description 76
- 238000012549 training Methods 0.000 title claims abstract description 63
- 239000013598 vector Substances 0.000 claims abstract description 104
- 230000011218 segmentation Effects 0.000 claims abstract description 81
- 238000012545 processing Methods 0.000 claims abstract description 70
- 239000000126 substance Substances 0.000 claims 1
- 238000012423 maintenance Methods 0.000 abstract description 13
- 238000010586 diagram Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种文本分类模型的训练方法、文本分类方法、装置和设备,该方法包括:获取多条浏览器的历史弹窗内的文本信息;对每个文本信息进行分词处理,根据分词结果确定出每个文本信息对应的第一特征向量;对第一特征向量进行聚类,得到至少一个文本信息组;从每个文本信息组中,分别选出至少一条目标文本信息,并对每个目标文本信息添加类型标识,以形成至少一个文本信息模板;根据至少一个文本信息模板,对初始文本分类模型进行训练,得到文本分类模型。通过该方法,能够解决现有技术中无法对浏览器弹窗日志进行分析的问题,基于训练得到的文本分类模型对系统进行监测和分析,能够提高系统运维效率。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种文本分类模型的训练方法、文本分类方法、装置和设备。
背景技术
随着信息化、数字化的不断深入,运维过程的智能化程度不断提升。日志数据作为互联网技术(Internet Technology,IT)的重要输出,在监测、分析系统运行情况方面发挥着重要的作用。
现有技术中针对运维日志的分析主要是针对机器人的运行日志进行分析,缺少针对浏览器弹窗日志分析方法。浏览器弹窗日志为用户通过浏览器访问系统时,浏览器上弹出的弹窗内的文本信息。
为了更好的监测和分析系统,急需一种文本分类方法,能够对浏览器弹窗日志进行分类。
发明内容
本申请提供一种文本分类模型的训练方法、文本分类方法、装置和设备,能够解决现有技术中无法对浏览器弹窗日志进行分析的问题,基于训练得到的文本分类模型对系统进行监测和分析,能够提高系统运维效率。
第一方面,本申请提供一种文本分类模型的训练方法,包括:获取多条浏览器的历史弹窗内的文本信息;对每个文本信息进行分词处理,根据分词结果确定出每个文本信息对应的第一特征向量;对第一特征向量进行聚类,得到至少一个文本信息组;从每个文本信息组中,分别选出至少一条目标文本信息,并对每个目标文本信息添加类型标识,以形成至少一个文本信息模板;根据至少一个文本信息模板,对初始文本分类模型进行训练,得到文本分类模型。
可选地,对每个文本信息进行分词处理,根据分词结果确定出每个文本信息对应的第一特征向量,包括:对每个文本信息进行分词处理,生成第一词袋;确定第一词袋中,任一第一词汇对应的第二特征向量;根据第二特征向量,确定每个文本信息对应的第一特征向量。
可选地,根据第二特征向量,确定每个历史弹窗内的文本信息对应的第一特征向量,包括:获取第一词袋中的第一词汇的总数量;获取第一词袋中的每个第一词汇在多个文本信息中的出现频次,以及包含每个第一词汇的文本信息数量;根据第一词袋中的第一词汇的总数量、每个第一词汇在多个历史弹窗内的文本信息中的出现频次,以及包含每个第一词汇的文本信息数量,确定每个第一词汇分别对应的权重;根据第一词袋中的每个第一词汇分别对应的权重,以及每个第一词汇对应的第二特征向量,确定每个历史弹窗内的文本信息对应的第一特征向量。
可选地,根据至少一个文本信息模板,对初始文本分类模型进行训练,得到文本分类模型,包括:对每个文本信息模板进行分词处理,生成第二词袋;确定第二词袋中,任一第二词汇对应的第三特征向量;根据文本相似度算法和第三特征向量,对初始文本分类模型进行训练,得到文本分类模型。
可选地,确定第一词袋中,任一第一词汇对应的第二特征向量之后,还包括:对第二特征向量进行降维处理,得到降维后的第二特征向量;相应的,根据第二特征向量,确定每个历史弹窗内的文本信息对应的第一特征向量,包括:根据降维后的第二特征向量,确定每个历史弹窗内的文本信息对应的第一特征向量。
可选地,对每个历史弹窗内的文本信息进行分词处理,包括:对每个历史弹窗内的文本信息进行预处理,得到预处理后的历史弹窗内的文本信息,以去除历史弹窗内的文本信息中包括的目标数据,目标数据包括如下类型的数据中的至少一种:数字、外语和符号;对预处理后的历史弹窗内的文本信息进行分词处理。
第二方面,本申请提供一种文本分类方法,包括:获取待分类文本信息,文本信息为浏览器的弹窗内的信息;对待分类文本信息进行分词处理,生成第三词袋;将第三词袋输入预先训练的文本分类模型中,得到待分类文本信息的类型,文本分类模型为通过多条浏览器的历史弹窗内的文本信息进行分词处理,根据分词结果确定出每个文本信息对应的第一特征向量,并对第一特征向量进行聚类,得到至少一个文本信息组,并从每个文本信息组中,分别选出至少一条目标文本信息,并对每个目标文本信息添加类型标识,以形成至少一个文本信息模板,并根据至少一个文本信息模板,对初始文本分类模型进行训练后得到。
可选地,将第三词袋输入预先训练的文本分类模型中,得到待分类文本信息的类型,包括:将第三词袋输入预先训练的文本分类模型中,得到待分类文本信息与每个文本信息模板之间的相似度值;若待分类文本信息与第一文本信息模板之间的相似度值小于或者等于第一预设阈值,且相似度值大于待分类文本信息与第二文本信息模板之间的相似度值,则将第一文本信息模板对应的类型确定待分类文本信息的类型。
可选地,还包括:统计预设时长内,确定出的任一类型的文本信息的数量;若数量大于第二预设阈值,则发送告警信息。
第三方面,本申请提供一种文本分类模型的训练装置,该装置包括:
获取模块,用于获取多条浏览器的历史弹窗内的文本信息。
处理模块,用于对每个文本信息进行分词处理,根据分词结果确定出每个文本信息对应的第一特征向量,对第一特征向量进行聚类,得到至少一个文本信息组;从每个文本信息组中,分别选出至少一条目标文本信息,并对每个目标文本信息添加类型标识,以形成至少一个文本信息模板;根据至少一个文本信息模板,对初始文本分类模型进行训练,得到文本分类模型。
可选地,处理模块,具体用于对每个文本信息进行分词处理,生成第一词袋;确定第一词袋中,任一第一词汇对应的第二特征向量;根据第二特征向量,确定每个文本信息对应的第一特征向量。
可选地,处理模块,具体用于获取第一词袋中的第一词汇的总数量;获取第一词袋中的每个第一词汇在多个文本信息中的出现频次,以及包含每个第一词汇的文本信息数量;根据第一词袋中的第一词汇的总数量、每个第一词汇在多个历史弹窗内的文本信息中的出现频次,以及包含每个第一词汇的文本信息数量,确定每个第一词汇分别对应的权重;根据第一词袋中的每个第一词汇分别对应的权重,以及每个第一词汇对应的第二特征向量,确定每个历史弹窗内的文本信息对应的第一特征向量。
可选地,处理模块,具体用于对每个文本信息模板进行分词处理,生成第二词袋;确定第二词袋中,任一第二词汇对应的第三特征向量;根据文本相似度算法和第三特征向量,对初始文本分类模型进行训练,得到文本分类模型。
可选地,处理模块,还用于对第二特征向量进行降维处理,得到降维后的第二特征向量。
相应的,处理模块,具体用于根据降维后的第二特征向量,确定每个历史弹窗内的文本信息对应的第一特征向量。
可选地,处理模块,具体用于对每个历史弹窗内的文本信息进行预处理,得到预处理后的历史弹窗内的文本信息,以去除历史弹窗内的文本信息中包括的目标数据,目标数据包括如下类型的数据中的至少一种:数字、外语和符号;对预处理后的历史弹窗内的文本信息进行分词处理。
第四方面,本申请提供一种文本分类装置,包括:
获取模块,用于获取待分类文本信息,文本信息为浏览器的弹窗内的信息。
处理模块,用于对待分类文本信息进行分词处理,生成第三词袋。
处理模块,还用于将第三词袋输入预先训练的文本分类模型中,得到待分类文本信息的类型,文本分类模型为通过多条浏览器的历史弹窗内的文本信息进行分词处理,根据分词结果确定出每个文本信息对应的第一特征向量,并对第一特征向量进行聚类,得到至少一个文本信息组,并从每个文本信息组中,分别选出至少一条目标文本信息,并对每个目标文本信息添加类型标识,以形成至少一个文本信息模板,并根据至少一个文本信息模板,对初始文本分类模型进行训练后得到。
可选地,处理模块,具体用于将第三词袋输入预先训练的文本分类模型中,得到待分类文本信息与每个文本信息模板之间的相似度值;若待分类文本信息与第一文本信息模板之间的相似度值小于或者等于第一预设阈值,且相似度值大于待分类文本信息与第二文本信息模板之间的相似度值,则将第一文本信息模板对应的类型确定待分类文本信息的类型。
可选地,处理模块,还用于统计预设时长内,确定出的任一类型的文本信息的数量;若数量大于第二预设阈值,则发送告警信息。
第五方面,本申请提供一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如第一方面或第一方面的可选方式的方法,或者,如第二方面或第二方面的可选方式的方法。
第六方面,本申请提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行时用于实现如第一方面或第一方面的可选方式的方法,或者,如第二方面或第二方面的可选方式的方法。
本申请提供的文本分类模型的训练方法、文本分类方法、装置和设备,通过获取多条浏览器的历史弹窗内的文本信息;对每个文本信息进行分词处理,根据分词结果确定出每个文本信息对应的第一特征向量;对第一特征向量进行聚类,得到至少一个文本信息组;从每个文本信息组中,分别选出至少一条目标文本信息,并对每个目标文本信息添加类型标识,以形成至少一个文本信息模板;根据至少一个文本信息模板,对初始文本分类模型进行训练,得到文本分类模型,能够解决现有技术中无法对浏览器弹窗日志进行分析的问题,基于训练得到的文本分类模型对系统进行监测和分析,能够提高系统运维效率。
附图说明
图1为本申请提供的一种文本分类模型的应用场景的示意图;
图2为本申请提供的一种文本分类模型的训练方法的流程示意图;
图3为本申请提供的另一种文本分类模型的训练方法的流程示意图;
图4为本申请提供的一种文本分类方法的流程示意图;
图5为本申请提供的一种文本分类模型的训练装置的结构示意图;
图6为本申请提供的一种文本分类装置的结构示意图;
图7为本申请提供的一种电子设备的结构示意图。
通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
随着信息化、数字化的不断深入,运维过程的智能化程度不断提升。日志数据作为互联网技术的重要输出,在监测、分析系统运行情况方面发挥着重要的作用。
现有技术中针对运维日志的分析主要是针对机器人的运行日志进行分析,缺少针对浏览器弹窗日志分析方法。浏览器弹窗日志为用户通过浏览器访问系统时,浏览器上弹出的弹窗内的文本信息。如果一段时间内,某一类型的弹窗日志数量激增或者产生类型不明的弹窗日志,则能够反映出系统可能存在故障。在统计不同类型的弹窗日志的数量之前,首先要解决的问题是如何对弹窗日志进行分类。如果能够训练得到一个分类模型,将采集到的新的弹窗日志输入该模型中,即可确定出该弹窗日志的类型,那么就能解决该问题。
本申请提供了一种文本分类模型的训练方法,该方法通过对多条浏览器的历史弹窗内的文本信息进行分析处理后,得到多个不同类型的目标文本信息,并对每个目标文本信息进行打标处理以形成多个训练样本,然后通过所得到的训练样本,对初始文本分类模型进行训练后得到文本分类模型。该模型能够用于对浏览器弹窗日志进行分类,进一步的,可以通过分析目标时间段内的分类情况,基于分析结果产生适宜的告警信息,降低系统运维过程中的人工参与度,减低运维难度,提高运维效率,可以对系统运行情况进行监测和分析,辅助系统故障定位。
图1为本申请提供的一种文本分类模型的应用场景的示意图,如图1所示,该应该场景包括至少一个第一电子设备11、第二电子设备12、第三电子设备13。第一电子设备11分别与第二电子设备12、第三电子设备13连接。
其中,每个第一电子设备11均安装有目标应用程序,用户可以通过操作该目标应用程序访问部署在远端第二电子设备12上的系统。在访问远端系统时,若产生弹窗信息,弹窗信息将以浏览器弹窗的形式展示给用户。
第三电子设备13用于获取任一第一电子设备11对应的浏览器弹窗中的文本信息,并将其作为待识别文本信息输入到预先训练得到的文本分类模型,得到其对应的类型。
具体的,第三电子设备用于获取待分类文本信息,文本信息为浏览器的弹窗内的信息;对待分类文本信息进行分词处理,生成第三词袋;将第三词袋输入预先训练的文本分类模型中,得到待分类文本信息的类型。
可选地,还包括第四电子设备14。第三电子设备13与第四电子设备14连接。
第三电子设备13还用于统计预设时长内,确定出的任一类型的文本信息的数量;若数量大于第二预设阈值,则向第四电子设备14发送告警信息。
图2为本申请提供的一种文本分类模型的训练方法的流程示意图,该方法应用于电子设备,如图2所示,该方法包括:
S201、获取多条浏览器的历史弹窗内的文本信息。
浏览器的弹窗内的文本信息,即浏览器弹窗日志,是采集到的操作人员通过浏览器访问系统时,浏览器弹出的弹窗中的文本信息。该文本信息具体可以是中文文本。
电子设备可以通过物理存储介质和/或网络存储介质中获取浏览器的历史弹窗内的文本信息;也可以通过其交互界面或者其外部接口,接收用户输入的浏览器的历史弹窗内的文本信息。
示例性的,操作人员为某个账户信息办理缴费业务时,缴费成功时浏览器界面弹出的“恭喜您,缴费成功!”即为浏览器日志。
S202、对每个文本信息进行分词处理,根据分词结果确定出每个文本信息对应的第一特征向量。
电子设备可以采用任意一种适用的分词工具或方法对文本信息进行分词处理。
示例性的,电子设备采用结巴(jieba)分词工具对每条浏览器的历史弹窗内的文本信息进行分词处理,得到其对应的词袋。结巴分词工具是基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图;采用了动态规划查找最大概率路径,找出基于词频的最大切分组合;对于未登录词,采用了基于汉字成词能力的隐马尔可夫模型(Hidden Markov Model,HMM)模型,使用了维特比(Viterbi)算法。
进一步的,基于得到的分词结果将文本信息向量化表示,得到每条文本信息对应的向量。
S203、对第一特征向量进行聚类,得到至少一个文本信息组。
对于浏览器弹窗日志而言,适用于无监督的聚类训练,其具体能训练能得到多少个类别是未知的。
示例性的,电子设备采用具有噪声的基于密度的聚类方法(Density-BasedSpatial Clustering of Applications with Noise,DBSCAN)。
DBSCAN可以对任意形状的稠密数据集进行聚类,相对的,K-Means之类的聚类算法一般只适用于凸数据集;可以在聚类的同时发现异常点,对数据集中的异常点不敏感;其聚类结果没有偏倚,相对的,K-Means之类的聚类算法初始值对聚类结果有很大影响。
S204、从每个文本信息组中,分别选出至少一条目标文本信息,并对每个目标文本信息添加类型标识,以形成至少一个文本信息模板。
示例性的,从每个聚类得到的文本信息组中,随机选出至少一条作为目标文本信息,并添加唯一的类型信息,进而形成类型信息不同的多个训练样本。
S205、根据至少一个文本信息模板,对初始文本分类模型进行训练,得到文本分类模型。
示例性的,电子设备通过python中的gensim中的similarities.SparseMatrixSimilarity算法训练得到相似度的模型,并基于该相似度模型,将进一步得到文本分类模型。
本申请通过获取多条浏览器的历史弹窗内的文本信息;对每个文本信息进行分词处理,根据分词结果确定出每个文本信息对应的第一特征向量;对第一特征向量进行聚类,得到至少一个文本信息组;从每个文本信息组中,分别选出至少一条目标文本信息,并对每个目标文本信息添加类型标识,以形成至少一个文本信息模板;根据至少一个文本信息模板,对初始文本分类模型进行训练,得到文本分类模型,能够训练得到用于对浏览器弹窗日志进行分类,解决了现有技术中无法对浏览器日志进行分类的问题。
图3为本申请提供的另一种文本分类模型的训练方法的流程示意图,该方法应用于电子设备,如图3所示,该方法包括:
S301、获取多条浏览器的历史弹窗内的文本信息。
S301与S201具有相同的技术特征,具体描述可参见S201,在此不做赘述。
S302、对每个历史弹窗内的文本信息进行预处理,得到预处理后的历史弹窗内的文本信息,以去除历史弹窗内的文本信息中包括的目标数据。
目标数据包括如下类型的数据中的至少一种:数字、外语和符号。
S303、对预处理后的历史弹窗内的文本信息进行分词处理,根据分词结果确定出每个文本信息对应的第一特征向量。
示例性的,电子设备采用结巴(jieba)分词工具对每条浏览器的历史弹窗内的文本信息进行分词处理,得到其对应的词袋。
在一种可能的实现方式中,对每个文本信息进行分词处理,根据分词结果确定出每个文本信息对应的第一特征向量,包括:对每个文本信息进行分词处理,生成第一词袋;确定第一词袋中,任一第一词汇对应的第二特征向量;根据第二特征向量,确定每个文本信息对应的第一特征向量。
通过该方法能够将每个文本信息所对应的词袋中的词汇向量化表示,便于对模型进行训练。
可选的,根据第二特征向量,确定每个历史弹窗内的文本信息对应的第一特征向量,包括:获取第一词袋中的第一词汇的总数量;获取第一词袋中的每个第一词汇在多个文本信息中的出现频次,以及包含每个第一词汇的文本信息数量;根据第一词袋中的第一词汇的总数量、每个第一词汇在多个历史弹窗内的文本信息中的出现频次,以及包含每个第一词汇的文本信息数量,确定每个第一词汇分别对应的权重;根据第一词袋中的每个第一词汇分别对应的权重,以及每个第一词汇对应的第二特征向量,确定每个历史弹窗内的文本信息对应的第一特征向量。
示例性的,通过信息检索与数据挖掘的常用加权技术term frequency–inversedocument frequency,简称TF-IDF基于第二特征向量,确定出每个历史弹窗内的文本信息对应的第一特征向量。其中,TF是词频(Term Frequency),IDF是逆文本频率指数(InverseDocument Frequency)。
可选的,在确定第一词袋中,任一第一词汇对应的第二特征向量之后,还包括:对第二特征向量进行降维处理,得到降维后的第二特征向量。
相应的,根据第二特征向量,确定每个历史弹窗内的文本信息对应的第一特征向量,包括:根据降维后的第二特征向量,确定每个历史弹窗内的文本信息对应的第一特征向量。
通过该方法,能够降低数据维度,减少数据量,提高电子设备运行效率,提升模型训练速度。
S304、对第一特征向量进行聚类,得到至少一个文本信息组。
S305、从每个文本信息组中,分别选出至少一条目标文本信息,并对每个目标文本信息添加类型标识,以形成至少一个文本信息模板。
S304、S305与S203、S204具有相同的技术特征,具体描述可参见S203、S204,在此不做赘述。
S306、根据至少一个文本信息模板,对初始文本分类模型进行训练,得到文本分类模型。
在一种可能的实现方式中,根据至少一个文本信息模板,对初始文本分类模型进行训练,得到文本分类模型包括:对每个文本信息模板进行分词处理,生成第二词袋;确定第二词袋中,任一第二词汇对应的第三特征向量;根据文本相似度算法和第三特征向量,对初始文本分类模型进行训练,得到文本分类模型。
示例性的,电子设备可以采用任意一种适用的分词工具或方法对文本信息模板进行分词处理。
示例性的,电子设备采用结巴(jieba)分词工具对每条文本信息模板进行分词处理,得到其对应的词袋。结巴分词工具是基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图;采用了动态规划查找最大概率路径,找出基于词频的最大切分组合;对于未登录词,采用了基于汉字成词能力的隐马尔可夫模型(HiddenMarkov Model,HMM)模型,使用了维特比(Viterbi)算法。
示例性的,电子设备通过python中的gensim中的similarities.SparseMatrixSimilarity算法训练得到相似度的模型,并基于该相似度模型,将进一步得到文本分类模型。
本申请在上述实施例的基础上,进一步的,通过对每个历史弹窗内的文本信息进行预处理,得到预处理后的历史弹窗内的文本信息,以去除历史弹窗内的文本信息中包括的目标数据,不仅能够去除掉文本信息中的干扰信息,提高模型训练的效率以及模型的准确性,还能够减少数据量,进一步的,通过对预处理后的历史弹窗内的文本信息进行分词处理,根据分词结果确定出每个文本信息对应的第一特征向量;对第一特征向量进行聚类,得到至少一个文本信息组;从每个文本信息组中,分别选出至少一条目标文本信息,并对每个目标文本信息添加类型标识,以形成至少一个文本信息模板,根据至少一个文本信息模板,对初始文本分类模型进行训练,得到文本分类模型,能够提高电子设备的运行效率。
图4为本申请提供的一种文本分类方法的流程示意图,该方法应用于电子设备,如图4所示,该方法包括:
S401、获取待分类文本信息。
文本信息为浏览器的弹窗内的信息。
电子设备可以通过物理存储介质和/或网络存储介质中获取待分类文本信息;也可以通过其交互界面或者其外部接口,接收用户输入的待分类文本信息。
示例性的,通过读取kafka获取待分类文本信息。kafka是一种分布式日志系统。
S402、对待分类文本信息进行分词处理,生成第三词袋。
电子设备可以采用任意一种适用的分词工具或方法对待分类文本信息进行分词处理。
示例性的,电子设备采用jieba分词工具对待分类文本信息进行分词处理,得到其对应的词袋。结巴分词工具是基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图;采用了动态规划查找最大概率路径,找出基于词频的最大切分组合;对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法。
可选地,在对待分类文本信息进行分词处理之前,还可以包括对对待分类文本信息进行预处理,得到预处理后的待分类文本信息,以去除待分类文本信息中包括的目标数据。
目标数据包括如下类型的数据中的至少一种:数字、外语和符号。
S403、将第三词袋输入预先训练的文本分类模型中,得到待分类文本信息的类型。
其中,文本分类模型为通过多条浏览器的历史弹窗内的文本信息进行分词处理,根据分词结果确定出每个文本信息对应的第一特征向量,并对第一特征向量进行聚类,得到至少一个文本信息组,并从每个文本信息组中,分别选出至少一条目标文本信息,并对每个目标文本信息添加类型标识,以形成至少一个文本信息模板,并根据至少一个文本信息模板,对初始文本分类模型进行训练后得到。
在一种可能的实现方式中,将第三词袋输入预先训练的文本分类模型中,得到待分类文本信息的类型,包括:将第三词袋输入预先训练的文本分类模型中,得到待分类文本信息与每个文本信息模板之间的相似度值;若待分类文本信息与第一文本信息模板之间的相似度值小于或者等于第一预设阈值,且相似度值大于待分类文本信息与第二文本信息模板之间的相似度值,则将第一文本信息模板对应的类型确定待分类文本信息的类型文本信息模板对应的类型确定待分类文本信息的类型。
示例性的,将待分类文本信息输入预先训练的文本分类模型中,得到待分类文本信息与各文本信息模板之间的相似度值,若待分类文本信息与第一文本信息模板之间的相似度最高且大于或等于预设阈值δ,则判定该待分类文本信息与该第一文本信息模板的类型一致,则可以进一步的,向待分类文本信息添加与第一文本信息一样的类型标识;若待分类文本信息与第一文本信息模板之间的相似度最高且小于预设阈值δ,则判定该待分类文本信息不属于任一已知类型。
其中,预设阈值δ在实际使用过程中,可能根据实际情况进行设置,对此本申请不做限制。
可选地,将未识别出类型的待分类文本信息作为新的样本对预先训练得到的文本分类模型进行补充训练,已更新该文本分类模型。
示例性的,存储未识别出类型的待分类文本信息,并实时监测或者周期性获取所存储的未识别出类型的待分类文本信息的数量,若数量达到预设数量,则将存储的未识别出类型的待分类文本信息处理后作为新的样本对预先训练得到的文本分类模型进行补充训练,已更新该文本分类模型。
还可以对未识别出类型的待分类文本信息添加特定类型标识,并统计存储的待分类文本信息中,添加该特定类型标识的待分类文本信息的数量,若数量达到预设数量,则将添加该特定类型标识的待分类文本信息处理后作为新的样本对预先训练得到的文本分类模型进行补充训练,已更新该文本分类模型。
可选的,该方法还包括:
S404、统计预设时长内,确定出的任一类型的文本信息的数量。
S405、若数量大于第二预设阈值,则发送告警信息。
在一种可能的实现方式中,若数量大于第二预设阈值,则发送告警信息,包括:若数量大于第二预设阈值,则根于预先存储的文本信息的类型与告警信息的对应关系,确定出于该类型文本信息对应的告警信息。
本申请通过获取待分类文本信息,文本信息为浏览器的弹窗内的信息;对待分类文本信息进行分词处理,生成第三词袋;将第三词袋输入预先训练的文本分类模型中,能够得到待分类文本信息的类型,进而还能够基于分类情况,通过统计预设时长内,确定出的任一类型的文本信息的数量;若数量大于第二预设阈值,则发送告警信息,能够实现对浏览器弹窗日志进行分类,进一步的,可以通过分析目标时间段内的分类情况,基于分析结果产生适宜的告警信息,降低系统运维过程中的人工参与度,减低运维难度,提高运维效率,可以对系统运行情况进行监测和分析,辅助系统故障定位。
图5为本申请提供的一种文本分类模型的训练装置的结构示意图,如图5所示,该装置包括:
获取模块51,用于获取多条浏览器的历史弹窗内的文本信息。
处理模块52,用于对每个文本信息进行分词处理,根据分词结果确定出每个文本信息对应的第一特征向量,对第一特征向量进行聚类,得到至少一个文本信息组;从每个文本信息组中,分别选出至少一条目标文本信息,并对每个目标文本信息添加类型标识,以形成至少一个文本信息模板;根据至少一个文本信息模板,对初始文本分类模型进行训练,得到文本分类模型。
可选地,处理模块52,具体用于对每个文本信息进行分词处理,生成第一词袋;确定第一词袋中,任一第一词汇对应的第二特征向量;根据第二特征向量,确定每个文本信息对应的第一特征向量。
可选地,处理模块52,具体用于获取第一词袋中的第一词汇的总数量;获取第一词袋中的每个第一词汇在多个文本信息中的出现频次,以及包含每个第一词汇的文本信息数量;根据第一词袋中的第一词汇的总数量、每个第一词汇在多个历史弹窗内的文本信息中的出现频次,以及包含每个第一词汇的文本信息数量,确定每个第一词汇分别对应的权重;根据第一词袋中的每个第一词汇分别对应的权重,以及每个第一词汇对应的第二特征向量,确定每个历史弹窗内的文本信息对应的第一特征向量。
可选地,处理模块52,具体用于对每个文本信息模板进行分词处理,生成第二词袋;确定第二词袋中,任一第二词汇对应的第三特征向量;根据文本相似度算法和第三特征向量,对初始文本分类模型进行训练,得到文本分类模型。
可选地,处理模块52,还用于对第二特征向量进行降维处理,得到降维后的第二特征向量。
相应的,处理模块52,具体用于根据降维后的第二特征向量,确定每个历史弹窗内的文本信息对应的第一特征向量。
可选地,处理模块52,具体用于对每个历史弹窗内的文本信息进行预处理,得到预处理后的历史弹窗内的文本信息,以去除历史弹窗内的文本信息中包括的目标数据,目标数据包括如下类型的数据中的至少一种:数字、外语和符号;对预处理后的历史弹窗内的文本信息进行分词处理。
该文本分类模型的训练装置可以执行上述图2或图3所示的文本分类模型的训练方法,其内容和效果可参考方法实施例部分,对此不再赘述。
图6为本申请提供的一种文本分类装置的结构示意图,如图6所示,该装置包括:
获取模块61,用于获取待分类文本信息,文本信息为浏览器的弹窗内的信息。
处理模块62,用于对待分类文本信息进行分词处理,生成第三词袋。
处理模块62,还用于将第三词袋输入预先训练的文本分类模型中,得到待分类文本信息的类型,文本分类模型为通过多条浏览器的历史弹窗内的文本信息进行分词处理,根据分词结果确定出每个文本信息对应的第一特征向量,并对第一特征向量进行聚类,得到至少一个文本信息组,并从每个文本信息组中,分别选出至少一条目标文本信息,并对每个目标文本信息添加类型标识,以形成至少一个文本信息模板,并根据至少一个文本信息模板,对初始文本分类模型进行训练后得到。
可选地,处理模块62,具体用于将第三词袋输入预先训练的文本分类模型中,得到待分类文本信息与每个文本信息模板之间的相似度值;若待分类文本信息与第一文本信息模板之间的相似度值小于或者等于第一预设阈值,且相似度值大于待分类文本信息与第二文本信息模板之间的相似度值,则将第一文本信息模板对应的类型确定待分类文本信息的类型。
可选地,处理模块62,还用于统计预设时长内,确定出的任一类型的文本信息的数量;若数量大于第二预设阈值,则发送告警信息。
该文本分类装置可以执行上述图4所示的文本分类方法,其内容和效果可参考方法实施例部分,对此不再赘述。
图7为本申请提供的一种电子设备的结构示意图,如图7所示,该电子设备包括:处理器71、存储器72;处理器71与存储器72通信连接。存储器72用于存储计算机程序。处理器71用于调用存储器72中存储的计算机程序,以实现上述方法实施例中的方法。
可选地,该电子设备还包括:收发器73,用于与其他设备实现通信。
该电子设备可以执行上述的文本分类模型的训练方法或文本分类方法,其内容和效果可参考方法实施例部分,对此不再赘述。
本申请还提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行时用于实现上述文本分类模型的训练方法。
该计算机可读存储介质所存储的计算机执行指令被处理器执行时能实现上述文本分类模型的训练方法,其内容和效果可参考方法实施例部分,对此不再赘述。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求书指出。应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求书来限制。
Claims (10)
1.一种文本分类模型的训练方法,其特征在于,包括:
获取多条浏览器的历史弹窗内的文本信息;
对每个所述文本信息进行分词处理,根据分词结果确定出每个所述文本信息对应的第一特征向量;
对所述第一特征向量进行聚类,得到至少一个文本信息组;
从每个所述文本信息组中,分别选出至少一条目标文本信息,并对每个所述目标文本信息添加类型标识,以形成至少一个文本信息模板;
根据所述至少一个文本信息模板,对初始文本分类模型进行训练,得到文本分类模型。
2.根据权利要求1所述的方法,其特征在于,所述对每个所述文本信息进行分词处理,根据分词结果确定出每个所述文本信息对应的第一特征向量,包括:
对每个所述文本信息进行分词处理,生成第一词袋;
确定所述第一词袋中,任一第一词汇对应的第二特征向量;
根据所述第二特征向量,确定所述每个文本信息对应的第一特征向量。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第二特征向量,确定所述每个所述历史弹窗内的文本信息对应的第一特征向量,包括:
获取所述第一词袋中的所述第一词汇的总数量;
获取所述第一词袋中的每个所述第一词汇在多个所述文本信息中的出现频次,以及包含每个所述第一词汇的文本信息数量;
根据所述第一词袋中的第一词汇的总数量、每个所述第一词汇在多个所述历史弹窗内的文本信息中的出现频次,以及包含每个所述第一词汇的文本信息数量,确定每个所述第一词汇分别对应的权重;
根据所述第一词袋中的每个所述第一词汇分别对应的权重,以及每个所述第一词汇对应的第二特征向量,确定每个所述历史弹窗内的文本信息对应的第一特征向量。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述根据所述至少一个文本信息模板,对初始文本分类模型进行训练,得到文本分类模型,包括:
对每个所述文本信息模板进行分词处理,生成第二词袋;
确定所述第二词袋中,任一第二词汇对应的第三特征向量;
根据文本相似度算法和所述第三特征向量,对初始文本分类模型进行训练,得到所述文本分类模型。
5.根据权利要求2所述的方法,其特征在于,所述确定所述第一词袋中,任一第一词汇对应的第二特征向量之后,还包括:
对所述第二特征向量进行降维处理,得到降维后的第二特征向量;
相应的,所述根据所述第二特征向量,确定所述每个所述历史弹窗内的文本信息对应的第一特征向量,包括:
根据所述降维后的第二特征向量,确定所述每个所述历史弹窗内的文本信息对应的第一特征向量。
6.一种文本分类方法,其特征在于,包括:
获取待分类文本信息,所述文本信息为浏览器的弹窗内的信息;
对所述待分类文本信息进行分词处理,生成第三词袋;
将所述第三词袋输入预先训练的文本分类模型中,得到所述待分类文本信息的类型,所述文本分类模型为通过多条浏览器的历史弹窗内的文本信息进行分词处理,根据分词结果确定出每个所述文本信息对应的第一特征向量,并对所述第一特征向量进行聚类,得到至少一个文本信息组,并从每个所述文本信息组中,分别选出至少一条目标文本信息,并对每个所述目标文本信息添加类型标识,以形成至少一个文本信息模板,并根据所述至少一个文本信息模板,对初始文本分类模型进行训练后得到。
7.根据权利要求6所述的方法,其特征在于,所述将所述第三词袋输入预先训练的文本分类模型中,得到所述待分类文本信息的类型,包括:
将所述第三词袋输入预先训练的文本分类模型中,得到所述待分类文本信息与每个所述文本信息模板之间的相似度值;
若所述待分类文本信息与第一所述文本信息模板之间的相似度值小于或者等于第一预设阈值,且所述相似度值大于所述待分类文本信息与第二所述文本信息模板之间的相似度值,则将所述第一所述文本信息模板对应的类型确定所述待分类文本信息的类型。
8.根据权利要求6或7所述的方法,其特征在于,还包括:
统计预设时长内,确定出的任一类型的文本信息的数量;
若所述数量大于第二预设阈值,则发送告警信息。
9.一种文本分类模型的训练装置,其特征在于,包括:
获取模块,用于获取多条浏览器的历史弹窗内的文本信息;
处理模块,用于对每个所述文本信息进行分词处理,根据分词结果确定出每个所述文本信息对应的第一特征向量,对所述第一特征向量进行聚类,得到至少一个文本信息组,从每个所述文本信息组中,分别选出至少一条目标文本信息,并对每个所述目标文本信息添加类型标识,以形成至少一个文本信息模板,根据所述至少一个文本信息模板,对初始文本分类模型进行训练,得到文本分类模型。
10.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111419915.2A CN114281939A (zh) | 2021-11-26 | 2021-11-26 | 文本分类模型的训练方法、文本分类方法、装置和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111419915.2A CN114281939A (zh) | 2021-11-26 | 2021-11-26 | 文本分类模型的训练方法、文本分类方法、装置和设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114281939A true CN114281939A (zh) | 2022-04-05 |
Family
ID=80869955
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111419915.2A Pending CN114281939A (zh) | 2021-11-26 | 2021-11-26 | 文本分类模型的训练方法、文本分类方法、装置和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114281939A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117370284A (zh) * | 2023-12-08 | 2024-01-09 | 和元达信息科技有限公司 | 一种日志错误数据追踪方法及系统 |
-
2021
- 2021-11-26 CN CN202111419915.2A patent/CN114281939A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117370284A (zh) * | 2023-12-08 | 2024-01-09 | 和元达信息科技有限公司 | 一种日志错误数据追踪方法及系统 |
CN117370284B (zh) * | 2023-12-08 | 2024-03-15 | 和元达信息科技有限公司 | 一种日志错误数据追踪方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110134952B (zh) | 一种错误文本拒识方法、装置及存储介质 | |
CN109547423B (zh) | 一种基于机器学习的web恶意请求深度检测系统及方法 | |
US20090112588A1 (en) | Method for segmenting communication transcripts using unsupervsed and semi-supervised techniques | |
CN108363701B (zh) | 命名实体识别方法及系统 | |
CN111866004B (zh) | 安全评估方法、装置、计算机系统和介质 | |
CN111428028A (zh) | 基于深度学习的信息分类方法及相关设备 | |
CN110869942B (zh) | 自馈深度学习方法和系统 | |
CN105956740B (zh) | 一种基于文本逻辑特征的语义风险计算方法 | |
CN111538836A (zh) | 一种识别文本类广告中金融广告的方法 | |
CN112100377B (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN112765003B (zh) | 一种基于app行为日志的风险预测方法 | |
CN112395421B (zh) | 课程标签的生成方法、装置、计算机设备及介质 | |
CN111782793A (zh) | 智能客服处理方法和系统及设备 | |
CN115510500B (zh) | 一种文本内容的敏感分析方法及系统 | |
CN113590764B (zh) | 训练样本构建方法、装置、电子设备和存储介质 | |
CN108681532B (zh) | 一种面向中文微博的情感分析方法 | |
CN111079029A (zh) | 敏感账号的检测方法、存储介质和计算机设备 | |
CN110728117A (zh) | 基于机器学习和自然语言处理的段落自动识别方法及系统 | |
CN110705250A (zh) | 一种用于识别聊天记录中目标内容的方法与系统 | |
CN116150651A (zh) | 基于ai的深度合成检测方法和系统 | |
CN114281939A (zh) | 文本分类模型的训练方法、文本分类方法、装置和设备 | |
CN115759033A (zh) | 一种轨迹数据的处理方法、装置及设备 | |
CN110020190B (zh) | 一种基于多示例学习的可疑威胁指标验证方法及系统 | |
CN112711944B (zh) | 一种分词方法、系统、分词器生成方法及系统 | |
CN115827867A (zh) | 文本类型的检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |