CN110008343A - 文本分类方法、装置、设备及计算机可读存储介质 - Google Patents
文本分类方法、装置、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN110008343A CN110008343A CN201910297133.2A CN201910297133A CN110008343A CN 110008343 A CN110008343 A CN 110008343A CN 201910297133 A CN201910297133 A CN 201910297133A CN 110008343 A CN110008343 A CN 110008343A
- Authority
- CN
- China
- Prior art keywords
- text
- sorted
- alarm
- template
- eigenvector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种文本分类方法。该文本分类方法包括:接收待分类报警文本,并对所述待分类报警文本进行分词处理,得到第一分词集;检测预设模板池中是否存在模板文本;若预设模板池中存在模板文本,则基于所述第一分词集和第一预设规则对所述待分类报警文本进行特征提取,得到第一文本特征向量,并对所述模板文本进行特征提取,得到第二文本特征向量;计算第一文本特征向量与第二文本特征向量之间的相似度,并根据计算结果对所述待分类报警文本进行分类。本发明还公开了一种文本分类装置、设备及计算机可读存储介质。本发明能解决现有针对运维场景的报警文本分类准确性较差的问题。
Description
技术领域
本发明涉及金融科技(Fintech)技术领域,尤其涉及一种文本分类方法、装置、设备及计算机可读存储介质。
背景技术
随着金融科技(Fintech),尤其是互联网科技金融的不断发展,企业业务数据中心的规模也日益庞大,在金融科技的日常运维中经常会出现许多报警信息。运维人员需定期对报警文本进行统计分析,以分析报警产生的根本原因,从而确定对应的解决方案。由于金融领域的报警信息的复杂性和庞大性,因此,需通过计算机系统对报警文本进行智能分类挖掘。然而,由于运维场景的报警文本中存在大量专业术语,大多都未被收入到字典中,如果采用现有的文本挖掘方法对运维场景的报警文本进行文本挖掘,会出现报警文本分类准确性较差的问题。因此,亟需一种可提高运维场景中报警文本分类准确性的方法。
发明内容
本发明的主要目的在于提供一种文本分类方法、装置、设备及计算机可读存储介质,旨在解决现有针对运维场景的报警文本分类准确性较差的问题。
为实现上述目的,本发明提供一种文本分类方法,所述文本分类方法包括:
接收待分类报警文本,并对所述待分类报警文本进行分词处理,得到第一分词集;
检测预设模板池中是否存在模板文本;
若预设模板池中存在模板文本,则基于所述第一分词集和第一预设规则对所述待分类报警文本进行特征提取,得到第一文本特征向量,并对所述模板文本进行特征提取,得到第二文本特征向量;
计算所述第一文本特征向量与所述第二文本特征向量之间的相似度,并根据计算结果对所述待分类报警文本进行分类。
可选地,所述基于所述第一分词集和第一预设规则对所述待分类报警文本进行特征提取,得到第一文本特征向量,并对所述模板文本进行特征提取,得到第二文本特征向量的步骤包括:
对所述模板文本进行分词处理,得到第二分词集;
基于所述第一分词集和所述第二分词集计算各预设特征词的第一属性值,并分别计算所述待分类报警文本中各预设特征词的第二属性值和所述模板文本中各预设特征词的第三属性值;
根据所述第一属性值和所述第二属性值计算所述待分类报警文本中各预设特征词的第一特征值,并对所述第一特征值进行拼接,得到第一文本特征向量;
根据所述第一属性值和所述第三属性值计算所述模板文本中各预设特征词的第二特征值,并对所述第二特征值进行拼接,得到第二文本特征向量。
可选地,所述第一属性值的计算公式为:
所述第二属性值的计算公式为:
所述第三属性值的计算公式为:
所述第一特征值的计算公式为:
Vs1=Fs1·Fs2;
所述第二特征值的计算公式为:
Vs2=Fs1·Fs3;
其中,Fs1为预设特征词s的第一属性值,ns为所述待分类报警文本和所述模板文本的文本总数,df(t,s)为所述待分类报警文本和所述模板文本中包含预设特征词s的文本数量,α为一预设值,Fs2为所述待分类报警文本中预设特征词s的第二属性值,ts1为预设特征词s在当前待分类报警文本中出现的次数,ttotal1为当前待分类报警文本中的分词总数,Fs3为所述模板文本中预设特征词s的第三属性值,ts2为预设特征词s在当前模板文本中出现的次数,ttotal2为当前模板文本中的分词总数,Vs1为所述待分类报警文本中预设特征词s的第一特征值,Vs2为所述模板文本中预设特征词s的第二特征值。
可选地,所述计算所述第一文本特征向量与所述第二文本特征向量之间的相似度,并根据计算结果对所述待分类报警文本进行分类的步骤包括:
计算所述第一文本特征向量与各所述第二文本特征向量之间的欧氏距离,并根据计算结果判断是否存在大于预设阈值的欧式距离;
若存在大于预设阈值的欧式距离,则将所述待分类报警文本与所述大于预设阈值的欧式距离对应的模板文本分为同一类;
若不存在大于预设阈值的欧式距离,则将所述待分类报警文本另分为一个新类,并将所述待分类报警文本保存至所述预设模板池中,作为一新模板文本。
可选地,所述对所述待分类报警文本进行分词处理,得到第一分词集的步骤之前,还包括:
对所述待分类报警文本进行词汇替换处理;其中,所述对所述待分类报警文本进行词汇替换处理的步骤包括:
检测所述待分类报警文本中是否存在预设目标词汇;
若所述待分类报警文本中存在预设目标词汇,则将所述待分类报警文本中所存在的预设目标词汇替换成对应的词汇标签;
所述对所述待分类报警文本进行分词处理,得到第一分词集的步骤包括:
对经词汇替换处理的待分类报警文本进行分词处理,得到第一分词集。
可选地,所述检测预设模板池中是否存在模板文本的步骤之后,还包括:
若预设模板池中不存在模板文本,则基于所述第一分词集和第二预设规则对所述待分类报警文本进行特征提取,得到第三文本特征向量;
对所述第三文本特征向量进行聚类,并根据聚类结果对所述待分类报警文本进行分类;
根据分类结果从每一分类中随机选取一待分类报警文本,作为模板文本,并保存至所述预设模板池中。
可选地,所述基于所述第一分词集和第二预设规则对所述待分类报警文本进行特征提取,得到第三文本特征向量的步骤包括:
基于所述第一分词集计算各预设特征词的第四属性值和第五属性值;
根据所述第四属性值和所述第五属性值计算所述待分类报警文本中各预设特征词的第三特征值,并对所述第三特征值进行拼接,得到第三文本特征向量。
此外,为实现上述目的,本发明还提供一种文本分类装置,所述文本分类装置包括:
分词处理模块,用于接收待分类报警文本,并对所述待分类报警文本进行分词处理,得到第一分词集;
模板检测模块,用于检测预设模板池中是否存在模板文本;
第一提取模块,用于若预设模板池中存在模板文本,则基于所述第一分词集和第一预设规则对所述待分类报警文本进行特征提取,得到第一文本特征向量,并对所述模板文本进行特征提取,得到第二文本特征向量;
文本分类模块,用于计算所述第一文本特征向量与所述第二文本特征向量之间的相似度,并根据计算结果对所述待分类报警文本进行分类。
此外,为实现上述目的,本发明还提供一种文本分类设备,所述文本分类设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的文本分类程序,所述文本分类程序被所述处理器执行时实现如上所述的文本分类方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有文本分类程序,所述文本分类程序被处理器执行时实现如上所述的文本分类方法的步骤。
本发明提供一种文本分类方法、装置、设备及计算机可读存储介质,通过接收待分类报警文本,并对待分类报警文本进行分词处理,得到第一分词集,并检测预设模板池中是否存在模板文本;若预设模板池中存在模板文本,则基于第一分词集和第一预设规则对待分类报警文本进行特征提取,得到第一文本特征向量,并对所述模板文本进行特征提取,得到第二文本特征向量;计算第一文本特征向量与第二文本特征向量之间的相似度,并根据计算结果对待分类报警文本进行分类。通过上述方式,本发明基于分词处理后的待分类报警文本和预设模板池中的模板文本分别提取得到第一文本特征向量和第二文本特征向量,并通过计算两者之间的相似度,可精确地对待分类报警信息进行分类,即可提高运维场景中报警文本分类的准确性。同时,本发明通过智能且准确地对运维场景中的报警文本进行分类,还可以提高运维工作人员的工作效率。
附图说明
图1为本发明实施例方案涉及的硬件运行环境的设备结构示意图;
图2为本发明文本分类方法第一实施例的流程示意图;
图3为本发明第一实施例中步骤S30的细化流程示意图;
图4为本发明文本分类方法第二实施例的流程示意图;
图5为本发明文本分类装置第一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的设备结构示意图。
本发明实施例文本分类设备可以是PC(Personal Computer,个人计算机),也可以是服务器、平板电脑、便携计算机、智能手机等终端设备。
如图1所示,该文本分类设备可以包括:处理器1001,例如CPU,通信总线1002,用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如Wi-Fi接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的文本分类设备结构并不构成对文本分类设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及文本分类程序。
在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端,与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的文本分类程序,并执行以下文本分类方法的各个步骤。
基于上述硬件结构,提出本发明文本分类方法的各实施例。
本发明提供一种文本分类方法。
参照图2,图2为本发明文本分类方法第一实施例的流程示意图。
在本实施例中,该文本分类方法包括:
步骤S10,接收待分类报警文本,并对所述待分类报警文本进行分词处理,得到第一分词集;
本实施例的文本分类方法是由文本分类设备实现的,该设备以服务器为例进行说明。在本实施例中,服务器先接收各业务系统(本实施例中,可选为银行机构的业务系统或金融理财机构的业务系统,当然也可以为其他类型的系统)发送的待分类报警文本,然后对待分类报警文本进行分词处理,得到第一分词集。其中,分词处理可以通过分词工具实施,例如汉语词法分析系统ICTCLAS,中文词法分析程序THULAC,语言技术平台LTP等。分词主要是根据中文语言的特点,将所述样本数据中的每条中文文本切割成一个一个的单词。
步骤S20,检测预设模板池中是否存在模板文本;
在通过分词处理得到第一分词集后,检测预设模板池中是否存在模板文本,其中,模板文本是指对分类完成的报警文本,在分类得到的每一类中所选取出的一报警文本,用于与后续接收到的待分类报警文本进行比较,以对后续接收到的待分类报警文本进行分类。
若预设模板池中存在模板文本,则执行步骤S30:基于所述第一分词集和第一预设规则对所述待分类报警文本进行特征提取,得到第一文本特征向量,并对所述模板文本进行特征提取,得到第二文本特征向量;
若检测到预设模板池中存在模板文本,则以待分类报警文本和模板文本为一个集合,进行文本特征向量提取,即:基于第一分词集和第一预设规则对待分类报警文本进行特征提取,得到第一文本特征向量,并对所述模板文本进行特征提取,得到第二文本特征向量。具体的,参照图3,步骤S30包括:
步骤S31,对所述模板文本进行分词处理,得到第二分词集;
先对模板文本进行分词处理,得到第二分词集,其中,分词处理方法可参照上述对待分类报警文本的分词处理方法,此处不作赘述。可以理解的是,由于模板文本也是经过分词处理、文本特征向量提取和分类等过程后,筛选得到的,因此在将模板文本保存至预设模板池中时,也可以将模板文本对应的分词集与模板文本进行关联保存,从而此时无需重新进行分词处理,可直接获取模板文本所对应的分词集。
步骤S32,基于所述第一分词集和所述第二分词集计算各预设特征词的第一属性值,并分别计算所述待分类报警文本中各预设特征词的第二属性值和所述模板文本中各预设特征词的第三属性值;
然后,基于第一分词集和第二分词集计算各预设特征词的第一属性值,并分别计算待分类报警文本中各预设特征词的第二属性值和模板文本中各预设特征词的第三属性值。其中,预设特征词是运维工作人员根据实际分类需要设定的,可以包括对报警文本的分类有实质性影响的词汇。第一属性值的计算公式为:
第二属性值的计算公式为:
第三属性值的计算公式为:
其中,Fs1为预设特征词s的第一属性值,该Fs1反映了预设特征词s在所有文本中出现的频率,如果一个词在很多的文本中出现,那么Fs1值应该较低,ns为所述待分类报警文本和所述模板文本的文本总数(即待分类报警文本与模板文本的数量之和),df(t,s)为待分类报警文本和模板文本中包含预设特征词s的文本数量,α为一预设值(可根据实际情况进行设定,此处不作限定),Fs2为待分类报警文本中预设特征词s的第二属性值,Fs2表示预设特征词s在当前待分类报警文本中的词频,ts1为预设特征词s在当前待分类报警文本中出现的次数,ttotal1为当前待分类报警文本中的分词总数,Fs3为模板文本中预设特征词s的第三属性值,Fs3表示预设特征词s在当前模板文本中的词频,ts2为预设特征词s在当前模板文本中出现的次数,ttotal2为当前模板文本中的分词总数。需要说明的是,本发明实施例中,对于第一属性值Fs1的计算,采用分段计算的方式,在时,定义Fs1=0,在时,定义通过上述计算方式,可使得各预设特征词的词频(即第二属性值)所对应的权重(即第一属性值)更具有区分度,可进一步提高后续分类的准确性。
步骤S33,根据所述第一属性值和所述第二属性值计算所述待分类报警文本中各预设特征词的第一特征值,并对所述第一特征值进行拼接,得到第一文本特征向量;
步骤S34,根据所述第一属性值和所述第三属性值计算所述模板文本中各预设特征词的第二特征值,并对所述第二特征值进行拼接,得到第二文本特征向量。
在得到第一属性值、第二属性值和第三属性值后,根据第一属性值和第二属性值计算待分类报警文本中各预设特征词的第一特征值,并对第一特征值进行拼接,得到第一文本特征向量,同时,根据第一属性值和第三属性值计算模板文本中各预设特征词的第二特征值,并对第二特征值进行拼接,得到第二文本特征向量。需要说明的是,步骤S33和S34的执行顺序不分先后。
其中,第一特征值的计算公式为:Vs1=Fs1·Fs2,第二特征值的计算公式为:Vs2=Fs1·Fs3。Vs1为待分类报警文本中预设特征词s的第一特征值,Vs2为模板文本中预设特征词s的第二特征值,Fs1为预设特征词s的第一属性值,Fs2为待分类报警文本中预设特征词s的第二属性值,Fs3为模板文本中预设特征词s的第三属性值。其中,第一文本特征向量的获取方式为:对待分类报警文本中各预设特征词的第一特征值进行拼接,例如,假设预设特征词有y个,计算得到预设特征词1-y的第一特征值分别为V11、V21、……Vs1、……、Vy1,可拼接得到第一文本特征向量为{V11,V21,…Vs1,…,Vy1}。第二文本特征向量与第一文本特征向量的获取方式相似,此处不再赘述。
步骤S40,计算所述第一文本特征向量与所述第二文本特征向量之间的相似度,并根据计算结果对所述待分类报警文本进行分类。
在得到第一文本特征向量和第二文本特征向量之后,计算第一文本特征向量与第二文本特征向量之间的相似度,并根据计算结果对待分类报警文本进行分类。具体的,步骤S40可以包括:
步骤a1,计算所述第一文本特征向量与各所述第二文本特征向量之间的欧氏距离,并根据计算结果判断是否存在大于预设阈值的欧式距离;
作为其中一种相似度的计算方式,可通过计算欧式距离来表征相似度。具体的,计算第一文本特征向量与各第二文本特征向量之间的欧氏距离,并根据计算结果判断是否存在大于预设阈值的欧式距离。其中,欧氏距离又称为欧几里得距离或欧几里得度量,是指欧几里得空间中两点之间的直线距离。当第一文本特征向量为{V11,V21,…Vs1,…,Vy1},第二文本特征向量为{V12,V22,…Vs2,…,Vy2}时,可计算得到两者之间的欧氏距离为:
当然,在具体实施例中,还可以通过计算第一文本特征向量与各第二文本特征向量之间的余弦相似度、或杰卡德Jaccard距离、或编辑距离,来表征两者之间的相似度。
步骤a2,若存在大于预设阈值的欧式距离,则将所述待分类报警文本与所述大于预设阈值的欧式距离对应的模板文本分为同一类;
若计算结果中存在大于预设阈值的欧式距离,则说明模板文本对应的第二文本特征向量中存在与待分类报警文本对应的第一文本特征向量较为相似的特征向量,即模板文本中存在一与待分类报警文本相似的文本,此时,可将两者划分为同一类,即将待分类报警文本与该大于预设阈值的欧式距离所对应的模板文本分为同一类。此外,该预设阈值可根据实际需要进行设定,此处不作限定。
步骤a3,若不存在大于预设阈值的欧式距离,则将所述待分类报警文本另分为一个新类,并将所述待分类报警文本保存至所述预设模板池中,作为一新模板文本。
若计算结果中不存在大于预设阈值的欧式距离,则说明该待分类报警文本与模板文本中的任一文本均不相似,此时,将待分类报警文本另分为一个新类,并将待分类报警文本保存至预设模板池中,作为一新模板文本,以用于对后续接收到的报警文本进行分类。
本发明实施例提供一种文本分类方法,通过接收待分类报警文本,并对待分类报警文本进行分词处理,得到第一分词集,并检测预设模板池中是否存在模板文本;若预设模板池中存在模板文本,则基于第一分词集和第一预设规则对待分类报警文本进行特征提取,得到第一文本特征向量,并对所述模板文本进行特征提取,得到第二文本特征向量;计算第一文本特征向量与第二文本特征向量之间的相似度,并根据计算结果对待分类报警文本进行分类。通过上述方式,本发明实施例基于分词处理后的待分类报警文本和预设模板池中的模板文本分别提取得到第一文本特征向量和第二文本特征向量,并通过计算两者之间的相似度,可精确地对待分类报警信息进行分类,即可提高运维场景中报警文本分类的准确性。同时,本发明通过智能且准确地对运维场景中的报警文本进行分类,还可以提高运维工作人员的工作效率。
为进一步的提高运维场景中报警文本分类的准确性,在上述步骤“对所述待分类报警文本进行分词处理,得到第一分词集”之前,该文本分类方法还可以包括以下步骤:
对所述待分类报警文本进行词汇替换处理;
此时,步骤“对所述待分类报警文本进行分词处理,得到第一分词集”包括:对经词汇替换处理的待分类报警文本进行分词处理,得到第一分词集。
在本实施例中,由于报警文本一般较为简短,各词汇在整个报警文本中所占的权重较大,为避免对整体语义判断扰动比较大的词汇影响后续特征值的计算结果及分类的准确性,需对同性质非标准的词汇进行预处理,将含有类似信息的词汇替换成相应的词汇标签或类名,从而降低词汇对语义判断的扰动,进而提高文本分类的准确性。本实施例中,通过对待分类报警文本进行词汇替换处理,以提高文本分类的准确性。具体的,步骤“对所述待分类报警文本进行词汇替换处理”包括:
步骤b1,接收待分类报警文本,检测所述待分类报警文本中是否存在预设目标词汇;
先接收待分类报警文本,并检测待分类报警文本中是否存在预设目标词汇。
步骤b2,若所述待分类报警文本中存在预设目标词汇,则将所述待分类报警文本中所存在的预设目标词汇替换成对应的词汇标签。
若待分类报警文本中存在预设目标词汇,则将待分类报警文本中所存在的预设目标词汇替换成对应的词汇标签。具体的,可预先构建预设目标词汇与词汇标签之间的映射关系,在检测到待分类报警文本中存在预设目标词汇时,根据该映射关系确定对应的词汇标签,并进行替换。例如,对于报警文本1:XXX系统的CPU占用率达到98.7%,报警文本2:XXX系统的CPU占用率达到90.1%,其中报警文本1和2中的具体数值,在整个报警文本中所占的权重较大,但对报警文本的分类无实质性的作用,因此,可将数值类的词汇替换成词汇标签<num>。此外,由于XXX系统命名差异巨大,同一(类)系统可能有不同的系统命名,因此可以设置将其进行替代成词汇标签<SUBSYS>。当然,上述例子仅作举例,并不用于限定本发明,本发明中对待分类报警文本进行预处理,是为了通过将同性质非标准的词汇替换为同一词汇标签,以助于待分类报警文本中纯粹的对后续分类有实质影响的信息被提取,降低同类词汇对语义判断的扰动,从而提高文本分类的准确性。
在对待分类报警文本进行词汇替换之后,然后对经词汇替换处理的待分类报警文本进行分词处理,得到第一分词集,进而执行后续步骤,具体过程可参照上述第一实施例,此处不作赘述。需要说明的是,在后续基于第一分词集和第二分词集计算各预设特征词的第一属性值,并分别计算待分类报警文本中各预设特征词的第二属性值和模板文本中各预设特征词的第三属性值时,预设特征词除可包括上述所说的对报警文本的分类有实质性影响的词汇外,还可以包括上述词汇替换后的词汇标签。
本发明实施例中通过对待分类报警文本进行词汇替换处理,将同性质非标准的词汇替换为同一词汇标签,降低同类词汇对语义判断的扰动,可有助于待分类报警文本中对分类有实质影响的特征信息被提取,从而可进一步提高报警文本分类的准确性。
进一步的,参照图4,图4为本发明文本分类方法第二实施例的流程示意图。
基于图2所示的第一实施例,在步骤S20之后,该文本分类方法还包括:
若预设模板池中不存在模板文本,则执行步骤S50:基于所述第一分词集和第二预设规则对所述待分类报警文本进行特征提取,得到第三文本特征向量;
在本实施例中,在检测预设模板池中是否存在模板文本之后,若该预设模板池中不存在模板文本,此时,则以待分类报警文本为一集合,对其进行聚类,进而分类。具体的,先基于第一分词集和第二预设规则对待分类报警文本进行特征,得到第三文本特征向量。步骤S50包括:
步骤c1,基于所述第一分词集计算各预设特征词的第四属性值和第五属性值;
先基于第一分词集计算各预设特征词的第四属性值和第五属性值,其中,第四属性值的计算公式为:
第五属性值的计算公式为:
其中,Fs4为预设特征词s的第四属性值,ns’为所述待分类报警文本的文本总数,df(t,s)’为待分类报警文本中包含预设特征词s的文本数量,α为一预设值(可根据实际情况进行设定,此处不作限定),Fs5为待分类报警文本中预设特征词s的第五属性值,Fs5表示预设特征词s在当前待分类报警文本中的词频,ts3为预设特征词s在当前待分类报警文本中出现的次数,ttotal3为当前待分类报警文本中的分词总数。
步骤c2,根据所述第四属性值和所述第五属性值计算所述待分类报警文本中各预设特征词的第三特征值,并对所述第三特征值进行拼接,得到第三文本特征向量。
然后,根据第四属性值和第五属性值计算待分类报警文本中各预设特征词的第三特征值,并对第三特征值进行拼接,得到第三文本特征向量。其中,第三特征值的计算公式为:Vs3=Fs4·Fs5,Vs3为待分类报警文本中预设特征词s的第三特征值,Fs4为预设特征词s的第四属性值,Fs5为待分类报警文本中预设特征词s的第五属性值。第三文本特征向量与第一文本特征向量的获取方式相似,可参照上述第一实施例,此处不再赘述。
步骤S60,对所述第三文本特征向量进行聚类,并根据聚类结果对所述待分类报警文本进行分类;
在得到第三文本特征向量之后,对第三文本特征向量进行聚类,并根据聚类结果对待分类报警文本进行分类。其中,聚类和分类方式可以包括但不限于:1)计算各第三文本特征向量之间的欧式距离,将欧氏距离大于预设阈值的第三文本特征向量所对应的待分类报警文本分类同一类;2)计算各第三文本特征向量之间的余弦相似度(或Jaccard距离等其他可表征相似度的值),根据计算结果对待分类报警文本进行分类;3)通过预设聚类算法(如K-Means(K均值)聚类、层次聚类算法等)对第三文本特征向量进行聚类,根据聚类结果对所述待分类报警文本进行分类,例如,聚为n类,则将聚成的每一类作为一分类,即得到n个类型的报警文本。
步骤S70,根据分类结果从每一分类中随机选取一待分类报警文本,作为模板文本,并保存至所述预设模板池中。
然后,根据分类结果从每一分类中随机选取一待分类报警文本,作为模板文本,并保存至预设模板池中,以便于对后续接收到的报警文本进行分类。
本发明实施例中介绍了预设模板池中不存在模板文本时,待分类报警文本的分类方法。通过对待分类报警文本进行特征提取,进而对提取得到的第三文本特征向量进行聚类,并根据聚类结果对待分类报警信息进行分类,可提高运维场景中报警文本分类的准确性。同时,本发明通过智能且准确地对运维场景中的报警文本进行分类,还可以提高运维工作人员的工作效率。
需要说明的是,在本实施例中,在分词处理之前,可先对待分类报警文本进行词汇替换处理,从而通过词汇替换处理,将同性质非标准的词汇替换为同一词汇标签,降低同类词汇对语义判断的扰动,可有助于待分类报警文本中对分类有实质影响的特征信息被提取,以进一步提高报警文本分类的准确性。其中,具体的词汇替换处理过程可参照上述实施例,此处不作赘述。
本发明还提供一种文本分类装置。
参照图5,图5为本发明文本分类装置第一实施例的功能模块示意图。
所述文本分类装置包括:
分词处理模块10,用于接收待分类报警文本,并对所述待分类报警文本进行分词处理,得到第一分词集;
模板检测模块20,用于检测预设模板池中是否存在模板文本;
第一提取模块30,用于若预设模板池中存在模板文本,则基于所述第一分词集和第一预设规则对所述待分类报警文本进行特征提取,得到第一文本特征向量,并对所述模板文本进行特征提取,得到第二文本特征向量;
文本分类模块40,用于计算所述第一文本特征向量与所述第二文本特征向量之间的相似度,并根据计算结果对所述待分类报警文本进行分类。
进一步的,所述第一提取模块30包括:
分词处理单元,用于对所述模板文本进行分词处理,得到第二分词集;
第一计算单元,用于基于所述第一分词集和所述第二分词集计算各预设特征词的第一属性值,并分别计算所述待分类报警文本中各预设特征词的第二属性值和所述模板文本中各预设特征词的第三属性值;
第一拼接单元,用于根据所述第一属性值和所述第二属性值计算所述待分类报警文本中各预设特征词的第一特征值,并对所述第一特征值进行拼接,得到第一文本特征向量;
第二拼接单元,用于根据所述第一属性值和所述第三属性值计算所述模板文本中各预设特征词的第二特征值,并对所述第二特征值进行拼接,得到第二文本特征向量。
进一步的,所述第一属性值的计算公式为:
所述第二属性值的计算公式为:
所述第三属性值的计算公式为:
所述第一特征值的计算公式为:
Vs1=Fs1·Fs2;
所述第二特征值的计算公式为:
Vs2=Fs1·Fs3;
其中,Fs1为预设特征词s的第一属性值,ns为所述待分类报警文本和所述模板文本的文本总数,df(t,s)为所述待分类报警文本和所述模板文本中包含预设特征词s的文本数量,α为一预设值,Fs2为所述待分类报警文本中预设特征词s的第二属性值,ts1为预设特征词s在当前待分类报警文本中出现的次数,ttotal1为当前待分类报警文本中的分词总数,Fs3为所述模板文本中预设特征词s的第三属性值,ts2为预设特征词s在当前模板文本中出现的次数,ttotal2为当前模板文本中的分词总数,Vs1为所述待分类报警文本中预设特征词s的第一特征值,Vs2为所述模板文本中预设特征词s的第二特征值。
进一步的,所述文本分类模块40包括:
第二计算单元,用于计算所述第一文本特征向量与各所述第二文本特征向量之间的欧氏距离,并根据计算结果判断是否存在大于预设阈值的欧式距离;
第一分类单元,用于若存在大于预设阈值的欧式距离,则将所述待分类报警文本与所述大于预设阈值的欧式距离对应的模板文本分为同一类;
第二分类单元,用于若不存在大于预设阈值的欧式距离,则将所述待分类报警文本另分为一个新类,并将所述待分类报警文本保存至所述预设模板池中,作为一新模板文本。
进一步的,所述文本分类装置还包括:
词汇替换模块,用于对所述待分类报警文本进行词汇替换处理;
其中,所述词汇替换模块包括:
文本检测单元,用于检测所述待分类报警文本中是否存在预设目标词汇;
词汇替换单元,用于若所述待分类报警文本中存在预设目标词汇,则将所述待分类报警文本中所存在的预设目标词汇替换成对应的词汇标签;
所述分词处理模块10,具体用于对经词汇替换处理的待分类报警文本进行分词处理,得到第一分词集。
进一步的,所述文本分类装置还包括:
第二提取模块,用于若预设模板池中不存在模板文本,则基于所述第一分词集和第二预设规则对所述待分类报警文本进行特征提取,得到第三文本特征向量;
向量聚类模块,用于对所述第三文本特征向量进行聚类,并根据聚类结果对所述待分类报警文本进行分类;
模板选取模块,用于根据分类结果从每一分类中随机选取一待分类报警文本,作为模板文本,并保存至所述预设模板池中。
进一步的,所述第二提取模块包括:
第三计算单元,用于基于所述第一分词集计算各预设特征词的第四属性值和第五属性值;
第三拼接单元,用于根据所述第四属性值和所述第五属性值计算所述待分类报警文本中各预设特征词的第三特征值,并对所述第三特征值进行拼接,得到第三文本特征向量。
其中,上述文本分类装置中各个模块的功能实现与上述文本分类方法实施例中各步骤相对应,其功能和实现过程在此处不再一一赘述。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质上存储有文本分类程序,所述文本分类程序被处理器执行时实现如以上任一项实施例所述的文本分类方法的步骤。
本发明计算机可读存储介质的具体实施例与上述文本分类方法各实施例基本相同,在此不作赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种文本分类方法,其特征在于,所述文本分类方法包括:
接收待分类报警文本,并对所述待分类报警文本进行分词处理,得到第一分词集;
检测预设模板池中是否存在模板文本;
若预设模板池中存在模板文本,则基于所述第一分词集和第一预设规则对所述待分类报警文本进行特征提取,得到第一文本特征向量,并对所述模板文本进行特征提取,得到第二文本特征向量;
计算所述第一文本特征向量与所述第二文本特征向量之间的相似度,并根据计算结果对所述待分类报警文本进行分类。
2.如权利要求1所述的文本分类方法,其特征在于,所述基于所述第一分词集和第一预设规则对所述待分类报警文本进行特征提取,得到第一文本特征向量,并对所述模板文本进行特征提取,得到第二文本特征向量的步骤包括:
对所述模板文本进行分词处理,得到第二分词集;
基于所述第一分词集和所述第二分词集计算各预设特征词的第一属性值,并分别计算所述待分类报警文本中各预设特征词的第二属性值和所述模板文本中各预设特征词的第三属性值;
根据所述第一属性值和所述第二属性值计算所述待分类报警文本中各预设特征词的第一特征值,并对所述第一特征值进行拼接,得到第一文本特征向量;
根据所述第一属性值和所述第三属性值计算所述模板文本中各预设特征词的第二特征值,并对所述第二特征值进行拼接,得到第二文本特征向量。
3.如权利要求2所述的文本分类方法,其特征在于,所述第一属性值的计算公式为:
所述第二属性值的计算公式为:
所述第三属性值的计算公式为:
所述第一特征值的计算公式为:
Vs1=Fs1·Fs2;
所述第二特征值的计算公式为:
Vs2=Fs1·Fs3;
其中,Fs1为预设特征词s的第一属性值,ns为所述待分类报警文本和所述模板文本的文本总数,df(t,s)为所述待分类报警文本和所述模板文本中包含预设特征词s的文本数量,α为一预设值,Fs2为所述待分类报警文本中预设特征词s的第二属性值,ts1为预设特征词s在当前待分类报警文本中出现的次数,ttotal1为当前待分类报警文本中的分词总数,Fs3为所述模板文本中预设特征词s的第三属性值,ts2为预设特征词s在当前模板文本中出现的次数,ttotal2为当前模板文本中的分词总数,Vs1为所述待分类报警文本中预设特征词s的第一特征值,Vs2为所述模板文本中预设特征词s的第二特征值。
4.如权利要求1所述的文本分类方法,其特征在于,所述计算所述第一文本特征向量与所述第二文本特征向量之间的相似度,并根据计算结果对所述待分类报警文本进行分类的步骤包括:
计算所述第一文本特征向量与各所述第二文本特征向量之间的欧氏距离,并根据计算结果判断是否存在大于预设阈值的欧式距离;
若存在大于预设阈值的欧式距离,则将所述待分类报警文本与所述大于预设阈值的欧式距离对应的模板文本分为同一类;
若不存在大于预设阈值的欧式距离,则将所述待分类报警文本另分为一个新类,并将所述待分类报警文本保存至所述预设模板池中,作为一新模板文本。
5.如权利要求1所述的文本分类方法,其特征在于,所述对所述待分类报警文本进行分词处理,得到第一分词集的步骤之前,还包括:
对所述待分类报警文本进行词汇替换处理;其中,所述对所述待分类报警文本进行词汇替换处理的步骤包括:
检测所述待分类报警文本中是否存在预设目标词汇;
若所述待分类报警文本中存在预设目标词汇,则将所述待分类报警文本中所存在的预设目标词汇替换成对应的词汇标签;
所述对所述待分类报警文本进行分词处理,得到第一分词集的步骤包括:
对经词汇替换处理的待分类报警文本进行分词处理,得到第一分词集。
6.如权利要求1至5中任一项所述的文本分类方法,其特征在于,所述检测预设模板池中是否存在模板文本的步骤之后,还包括:
若预设模板池中不存在模板文本,则基于所述第一分词集和第二预设规则对所述待分类报警文本进行特征提取,得到第三文本特征向量;
对所述第三文本特征向量进行聚类,并根据聚类结果对所述待分类报警文本进行分类;
根据分类结果从每一分类中随机选取一待分类报警文本,作为模板文本,并保存至所述预设模板池中。
7.如权利要求6所述的文本分类方法,其特征在于,所述基于所述第一分词集和第二预设规则对所述待分类报警文本进行特征提取,得到第三文本特征向量的步骤包括:
基于所述第一分词集计算各预设特征词的第四属性值和第五属性值;
根据所述第四属性值和所述第五属性值计算所述待分类报警文本中各预设特征词的第三特征值,并对所述第三特征值进行拼接,得到第三文本特征向量。
8.一种文本分类装置,其特征在于,所述文本分类装置包括:
分词处理模块,用于接收待分类报警文本,并对所述待分类报警文本进行分词处理,得到第一分词集;
模板检测模块,用于检测预设模板池中是否存在模板文本;
第一提取模块,用于若预设模板池中存在模板文本,则基于所述第一分词集和第一预设规则对所述待分类报警文本进行特征提取,得到第一文本特征向量,并对所述模板文本进行特征提取,得到第二文本特征向量;
文本分类模块,用于计算所述第一文本特征向量与所述第二文本特征向量之间的相似度,并根据计算结果对所述待分类报警文本进行分类。
9.一种文本分类设备,其特征在于,所述文本分类设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的文本分类程序,所述文本分类程序被所述处理器执行时实现如权利要求1至7中任一项所述的文本分类方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有文本分类程序,所述文本分类程序被处理器执行时实现如权利要求1至7中任一项所述的文本分类方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910297133.2A CN110008343A (zh) | 2019-04-12 | 2019-04-12 | 文本分类方法、装置、设备及计算机可读存储介质 |
PCT/CN2020/078389 WO2020207167A1 (zh) | 2019-04-12 | 2020-03-09 | 文本分类方法、装置、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910297133.2A CN110008343A (zh) | 2019-04-12 | 2019-04-12 | 文本分类方法、装置、设备及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110008343A true CN110008343A (zh) | 2019-07-12 |
Family
ID=67171668
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910297133.2A Pending CN110008343A (zh) | 2019-04-12 | 2019-04-12 | 文本分类方法、装置、设备及计算机可读存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110008343A (zh) |
WO (1) | WO2020207167A1 (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111460180A (zh) * | 2020-03-30 | 2020-07-28 | 维沃移动通信有限公司 | 信息显示方法、装置、电子设备及存储介质 |
WO2020207167A1 (zh) * | 2019-04-12 | 2020-10-15 | 深圳前海微众银行股份有限公司 | 文本分类方法、装置、设备及计算机可读存储介质 |
CN112328799A (zh) * | 2021-01-06 | 2021-02-05 | 腾讯科技(深圳)有限公司 | 问题分类方法和装置 |
CN112463934A (zh) * | 2019-09-06 | 2021-03-09 | 株式会社东芝 | 解析装置、解析方法及存储介质 |
CN112988954A (zh) * | 2021-05-17 | 2021-06-18 | 腾讯科技(深圳)有限公司 | 文本分类方法、装置、电子设备和计算机可读存储介质 |
CN112989050A (zh) * | 2021-03-31 | 2021-06-18 | 建信金融科技有限责任公司 | 一种表格分类方法、装置、设备及存储介质 |
CN113254653A (zh) * | 2021-07-05 | 2021-08-13 | 明品云(北京)数据科技有限公司 | 一种文本分类方法、系统、设备及介质 |
CN113377911A (zh) * | 2021-06-09 | 2021-09-10 | 广东电网有限责任公司广州供电局 | 一种文本信息提取方法、装置、电子设备及存储介质 |
CN113657445A (zh) * | 2021-07-13 | 2021-11-16 | 珠海金智维信息科技有限公司 | 基于Resnet的单行文本图片比对方法及系统 |
CN113704467A (zh) * | 2021-07-29 | 2021-11-26 | 大箴(杭州)科技有限公司 | 基于数据模板的海量文本监控方法及装置、介质、设备 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140052728A1 (en) * | 2011-04-27 | 2014-02-20 | Nec Corporation | Text clustering device, text clustering method, and computer-readable recording medium |
CN103257957B (zh) * | 2012-02-15 | 2017-09-08 | 深圳市腾讯计算机系统有限公司 | 一种基于中文分词的文本相似性识别方法及装置 |
CN104112026B (zh) * | 2014-08-01 | 2017-09-08 | 中国联合网络通信集团有限公司 | 一种短信文本分类方法及系统 |
CN105045812B (zh) * | 2015-06-18 | 2019-01-29 | 上海高欣计算机系统有限公司 | 文本主题的分类方法及系统 |
CN110008343A (zh) * | 2019-04-12 | 2019-07-12 | 深圳前海微众银行股份有限公司 | 文本分类方法、装置、设备及计算机可读存储介质 |
-
2019
- 2019-04-12 CN CN201910297133.2A patent/CN110008343A/zh active Pending
-
2020
- 2020-03-09 WO PCT/CN2020/078389 patent/WO2020207167A1/zh active Application Filing
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020207167A1 (zh) * | 2019-04-12 | 2020-10-15 | 深圳前海微众银行股份有限公司 | 文本分类方法、装置、设备及计算机可读存储介质 |
CN112463934A (zh) * | 2019-09-06 | 2021-03-09 | 株式会社东芝 | 解析装置、解析方法及存储介质 |
CN111460180A (zh) * | 2020-03-30 | 2020-07-28 | 维沃移动通信有限公司 | 信息显示方法、装置、电子设备及存储介质 |
CN111460180B (zh) * | 2020-03-30 | 2024-03-15 | 维沃移动通信有限公司 | 信息显示方法、装置、电子设备及存储介质 |
CN112328799A (zh) * | 2021-01-06 | 2021-02-05 | 腾讯科技(深圳)有限公司 | 问题分类方法和装置 |
CN112989050B (zh) * | 2021-03-31 | 2023-05-30 | 建信金融科技有限责任公司 | 一种表格分类方法、装置、设备及存储介质 |
CN112989050A (zh) * | 2021-03-31 | 2021-06-18 | 建信金融科技有限责任公司 | 一种表格分类方法、装置、设备及存储介质 |
CN112988954A (zh) * | 2021-05-17 | 2021-06-18 | 腾讯科技(深圳)有限公司 | 文本分类方法、装置、电子设备和计算机可读存储介质 |
CN113377911A (zh) * | 2021-06-09 | 2021-09-10 | 广东电网有限责任公司广州供电局 | 一种文本信息提取方法、装置、电子设备及存储介质 |
CN113254653A (zh) * | 2021-07-05 | 2021-08-13 | 明品云(北京)数据科技有限公司 | 一种文本分类方法、系统、设备及介质 |
CN113254653B (zh) * | 2021-07-05 | 2021-12-21 | 明品云(北京)数据科技有限公司 | 一种文本分类方法、系统、设备及介质 |
CN113657445A (zh) * | 2021-07-13 | 2021-11-16 | 珠海金智维信息科技有限公司 | 基于Resnet的单行文本图片比对方法及系统 |
CN113704467A (zh) * | 2021-07-29 | 2021-11-26 | 大箴(杭州)科技有限公司 | 基于数据模板的海量文本监控方法及装置、介质、设备 |
Also Published As
Publication number | Publication date |
---|---|
WO2020207167A1 (zh) | 2020-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110008343A (zh) | 文本分类方法、装置、设备及计算机可读存储介质 | |
CN111897970B (zh) | 基于知识图谱的文本比对方法、装置、设备及存储介质 | |
CN110909165B (zh) | 数据处理方法、装置、介质及电子设备 | |
CN109033200B (zh) | 事件抽取的方法、装置、设备及计算机可读介质 | |
Wei et al. | On the spatial distribution of buildings for map generalization | |
CN110059923A (zh) | 岗位画像和简历信息的匹配方法、装置、设备及存储介质 | |
CN111612038B (zh) | 异常用户检测方法及装置、存储介质、电子设备 | |
CN112114986B (zh) | 数据异常识别方法、装置、服务器和存储介质 | |
CN110287316A (zh) | 一种告警分类方法、装置、电子设备及存储介质 | |
US11727704B2 (en) | Systems and methods for processing a table of information in a document | |
CN112215288B (zh) | 目标企业的类别确定方法及装置、存储介质、电子装置 | |
CN112435137A (zh) | 一种基于社团挖掘的欺诈信息检测方法及系统 | |
CN112148881A (zh) | 用于输出信息的方法和装置 | |
CN110363206B (zh) | 数据对象的聚类、数据处理及数据识别方法 | |
CN111177367A (zh) | 案件分类方法、分类模型训练方法及相关产品 | |
CN115545103A (zh) | 异常数据识别、标签识别方法和异常数据识别装置 | |
Kapoor et al. | On discarding, caching, and recalling samples in active learning | |
CN109101487A (zh) | 对话角色区分方法、装置、终端设备及存储介质 | |
CN116955856A (zh) | 信息展示方法、装置、电子设备以及存储介质 | |
CN116155541A (zh) | 面向网络安全应用的自动化机器学习平台以及方法 | |
CN115495587A (zh) | 一种基于知识图谱的告警分析方法及装置 | |
CN115619245A (zh) | 一种基于数据降维方法的画像构建和分类方法及系统 | |
CN108510007A (zh) | 一种网页篡改检测方法、装置、电子设备及存储介质 | |
US11954685B2 (en) | Method, apparatus and computer program for selecting a subset of training transactions from a plurality of training transactions | |
CN116861226A (zh) | 一种数据处理的方法以及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |