CN111680161A - 一种文本处理方法、设备以及计算机可读存储介质 - Google Patents
一种文本处理方法、设备以及计算机可读存储介质 Download PDFInfo
- Publication number
- CN111680161A CN111680161A CN202010646654.7A CN202010646654A CN111680161A CN 111680161 A CN111680161 A CN 111680161A CN 202010646654 A CN202010646654 A CN 202010646654A CN 111680161 A CN111680161 A CN 111680161A
- Authority
- CN
- China
- Prior art keywords
- text
- sample
- target
- processed
- classification result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Abstract
本申请实施例公开了一种文本处理方法、设备以及计算机可读存储介质,其中,方法包括:获取待处理文本,在至少两个文本聚类簇中,确定待处理文本所属的目标文本聚类簇;获取目标文本聚类簇的目标中心文本样本,获取缓存数据库;若缓存数据库中包括针对目标中心文本样本的目标缓存文本分类结果,则将目标缓存文本分类结果确定为待处理文本的目标文本分类结果;若缓存数据库中不包括目标缓存文本分类结果,则将目标中心文本样本输入文本分类模型,通过文本分类模型确定待处理文本的目标文本分类结果,将目标文本分类结果添加至缓存数据库中。采用本申请,可以降低资源成本。
Description
技术领域
本申请涉及互联网技术领域,尤其涉及一种文本处理方法、设备以及计算机可读存储介质。
背景技术
随着网络技术的迅猛发展,人们的交流方式正在不断的多元化,由于邮件具备快速性以及隐秘性,成为人们生活工作中的一种重要交流方式,特别是在工作中,很多重要的信息都优先通过邮件进行通知和交流。然而,大量公司利用邮件投放广告或者传播垃圾内容等,这种垃圾邮件不仅浪费了网络宽度,也浪费了系统存储空间。
近两年深度网络模型在文本分类、语义理解方面均取得了不菲的成绩,在邮件实时分类的场景里面,也应用了大量的深度网络模型,现有技术中,每一封邮件都需要模型进行识别,以筛选出垃圾邮件,但由于邮件数量巨大,日邮件传输量可达数亿,且模型在识别邮件时计算量大,故利用深度网络模型进行邮件实时分类需要消耗大量的处理器以及内存,导致资源成本太高。
发明内容
本申请实施例提供一种文本处理方法、设备以及计算机可读存储介质,可以降低资源成本。
本申请实施例一方面提供一种文本处理方法,包括:
获取待处理文本,在至少两个文本聚类簇中,确定待处理文本所属的目标文本聚类簇;
获取目标文本聚类簇的目标中心文本样本,获取缓存数据库;
若缓存数据库中包括针对目标中心文本样本的目标缓存文本分类结果,则将目标缓存文本分类结果确定为待处理文本的目标文本分类结果;
若缓存数据库中不包括目标缓存文本分类结果,则将目标中心文本样本输入文本分类模型,通过文本分类模型确定待处理文本的目标文本分类结果,将目标文本分类结果添加至缓存数据库中。
本申请实施例一方面提供一种文本处理装置,包括:
第一获取模块,用于获取待处理文本,在至少两个文本聚类簇中,确定待处理文本所属的目标文本聚类簇;
第一获取模块,还用于获取目标文本聚类簇的目标中心文本样本,获取缓存数据库;
第一确定模块,用于若缓存数据库中包括针对目标中心文本样本的目标缓存文本分类结果,则将目标缓存文本分类结果确定为待处理文本的目标文本分类结果;
第一确定模块,还用于若缓存数据库中不包括目标缓存文本分类结果,则将目标中心文本样本输入文本分类模型,通过文本分类模型确定待处理文本的目标文本分类结果,将目标文本分类结果添加至缓存数据库中。
其中,上述文本处理装置,还包括:
第二确定模块,用于若目标文本分类结果为文本正常分类结果,则确定待处理文本为正常文本,对正常文本进行传输处理;
第二确定模块,还用于若目标文本分类结果为文本异常分类结果,则确定待处理文本为异常文本,对异常文本进行拦截处理。
其中,上述文本处理装置,还包括:
统计时长模块,用于统计缓存数据库中缓存文本分类结果的第一保存时长;
统计时长模块,还用于当第一保存时长大于保存时长阈值时,从缓存数据库中删除缓存文本分类结果。
其中,第一确定模块,包括:
统计数量单元,用于统计缓存数据库中缓存文本分类结果的结果数量;
添加结果单元,用于若结果数量小于结果数量阈值,则将目标文本分类结果添加至缓存数据库中;
统计时长单元,用于若结果数量等于结果数量阈值,则统计缓存文本分类结果的第二保存时长;
更新结果单元,用于从第二保存时长中确定最大保存时长,将最大保存时长对应的缓存文本分类结果确定为待更新文本分类结果,将待更新文本分类结果更新为目标文本分类结果。
其中,上述文本处理装置,还包括:
第二获取模块,用于从缓存数据库中获取缓存文本分类结果;
第二获取模块,还用于获取与缓存文本分类结果相关联的缓存中心文本样本,将缓存中心文本样本与目标中心文本样本进行对比;
第三确定模块,用于若存在与目标中心文本样本相同的缓存中心文本样本,则确定缓存数据库中包括针对目标中心文本样本的目标缓存文本分类结果;
第三确定模块,还用于若不存在与目标中心文本样本相同的缓存中心文本样本,则确定缓存数据库中不包括目标缓存文本分类结果。
其中,上述文本处理装置,还包括:
第三获取模块,用于从缓存数据库中获取缓存文本分类结果;
第三获取模块,还用于获取与缓存文本分类结果相关联的缓存中心标识,将缓存中心标识与目标中心标识进行对比;
第四确定模块,用于若存在与目标中心标识相同的缓存中心标识,则确定缓存数据库中包括针对目标中心文本样本的目标缓存文本分类结果;
第四确定模块,还用于若不存在与目标中心标识相同的缓存中心标识,则确定缓存数据库中不包括目标缓存文本分类结果。
其中,第一获取模块,包括:
第一输入单元,用于获取文本聚类簇Pi的中心文本样本Wi,将中心文本样本Wi以及待处理文本输入第一文本聚类模型,通过第一文本聚类模型输出中心文本样本Wi与待处理文本之间的第一相似度Si;
第一确定单元,用于若第一相似度Si大于或等于第一相似度阈值,则将文本聚类簇Pi确定为目标文本聚类簇,将中心文本样本Wi确定为目标中心文本样本,将待处理文本添加至目标文本聚类簇中。
其中,第一输入单元,包括:
第一生成子单元,用于生成中心文本样本Wi的初始中心样本向量,生成待处理文本的初始待处理向量;
第一确定子单元,用于根据哈希函数确定与初始中心样本向量对应的第一哈希数据,确定与初始待处理向量对应的第二哈希数据;
第一确定子单元,还用于根据第一哈希数据以及第二哈希数据,确定中心文本样本Wi以及待处理文本之间的第一相似度Si。
其中,第一获取模块,还包括:
第二输入单元,用于若第一相似度Si小于第一相似度阈值,则将中心文本样本Wi以及待处理文本输入第二文本聚类模型,通过第二文本聚类模型输出中心文本样本Wi与待处理文本之间的第二相似度Di;
第二确定单元,用于若第二相似度Di大于或等于第二相似度阈值,则将文本聚类簇Pi确定为目标文本聚类簇,将中心文本样本Wi确定为目标中心文本样本,将待处理文本添加至目标文本聚类簇中。
其中,第二输入单元,包括:
切分文本子单元,用于对中心文本样本Wi进行切分,得到中心文本样本Wi对应的至少两个中心分词;
切分文本子单元,还用于对待处理文本进行切分,得到待处理文本对应的至少两个待处理分词;
第二生成子单元,用于根据至少两个中心分词分别生成初始中心分词向量,根据至少两个待处理分词分别生成初始待处理分词向量;
第三生成子单元,用于对至少两个初始中心分词向量进行向量运算,生成针对中心文本样本Wi的中心分词语义向量;
第三生成子单元,还用于对至少两个初始待处理分词向量进行向量运算,生成针对待处理文本的待处理分词语义向量;
第二确定子单元,用于根据中心分词语义向量以及待处理分词语义向量,确定中心文本样本Wi与待处理文本之间的第二相似度Di。
其中,第一获取模块,还包括:
第三确定单元,用于若第二相似度Di小于第二相似度阈值,则创建文本聚类簇Pi+1,将文本聚类簇Pi+1确定为目标文本聚类簇,将待处理文本添加至目标文本聚类簇中,将待处理文本确定为目标中心文本样本。
其中,第一确定单元,包括:
统计样本子单元,用于若第一相似度Si大于或等于第一相似度阈值,则统计文本聚类簇Pi中文本样本的样本数量;
第三确定子单元,用于若样本数量小于或等于样本数量阈值,则通过第二文本聚类模型在至少两个文本聚类簇中,确定待处理文本所属的目标文本聚类簇;
第三确定子单元,还用于若样本数量大于样本数量阈值,则将文本聚类簇Pi确定为目标文本聚类簇。
其中,第一确定模块,包括:
切分目标单元,用于对目标中心文本样本进行切分,得到目标中心文本样本对应的至少两个分词样本;
获取向量单元,用于获取至少两个分词样本分别对应的样本初始向量,将至少两个样本初始向量输入文本分类模型,通过文本分类模型对至少两个样本初始向量进行编码组合,得到与至少两个样本初始向量分别对应的样本语义向量;
确定结果单元,用于根据至少两个样本语义向量确定目标中心文本样本的文本分类结果,将目标中心文本样本的文本分类结果确定为待处理文本的目标文本分类结果。
本申请一方面提供了一种计算机设备,包括:处理器、存储器、网络接口;
上述处理器与上述存储器、上述网络接口相连,其中,上述网络接口用于提供数据通信功能,上述存储器用于存储计算机程序,上述处理器用于调用上述计算机程序,以执行本申请实施例中的方法。
本申请实施例一方面提供了一种计算机可读存储介质,上述计算机可读存储介质存储有计算机程序,上述计算机程序包括程序指令,上述程序指令被处理器执行时,以执行本申请实施例中的方法。
本申请实施例一方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中,计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例中的方法。
本申请实施例通过将大量相同类别的待处理文本聚类到同一个文本聚类簇中,进而在分类时,无需对大量待处理文本一一进行分类,只需要确定文本聚类簇的中心文本样本的文本分类结果,并将该文本分类结果保存至缓存数据库中,就可以确定被聚类到该文本聚类簇中的待处理文本的文本分类结果,若待处理文本所属的文本聚类簇中的中心文本样本,在缓存数据库中没有文本分类结果,再调用文本分类模型对中心文本样本进行分类,从而可以避免文本分类模型对每一个待处理文本进行文本分类,通过上述过程可以快速地获取待处理文本的文本分类结果,且减少对文本分类模型的调用,因此还可以降低资源消耗。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本申请实施例提供的一种系统架构示意图;
图1b是本申请实施例提供的一种文本处理方法的流程示意图;
图1c是本申请实施例提供一种邮件处理的场景示意图;
图2是本申请实施例提供的一种文本处理方法的流程示意图;
图3是本申请实施例提供的一种文本处理的场景示意图;
图4a是本申请实施例提供的一种文本处理的场景示意图;
图4b是本申请实施例提供的一种文本处理方法的流程示意图;
图4c是本申请实施例提供的一种文本处理的场景示意图;
图4d是本申请实施例提供的一种文本处理的场景示意图;
图4e是本申请实施例提供的一种文本处理的场景示意图;
图5是本申请实施例提供的一种文本处理方法的流程示意图;
图6a是本申请实施例提供的一种文本聚类方法的流程示意图;
图6b是本申请实施例提供的一种文本聚类方法的流程示意图;
图7是本申请实施例提供的一种文本处理装置的结构示意图;
图8是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
本申请实施例提供的方案涉及人工智能的自然语言处理技术以及深度学习等技术,具体通过如下实施例进行说明,请参见图1a,图1a是本申请实施例提供的一种系统架构示意图。如图1a所示,该系统可以包括业务服务器10a以及用户终端集群,该用户终端集群可以包括用户终端10b、用户终端10c、…、用户终端10d,其中,用户终端集群之间可以存在通信连接,例如用户终端10b与用户终端10c之间存在通信连接,用户终端10b与用户终端10d之间存在通信连接,且用户终端集群中的任一用户终端可以与业务服务器10a存在通信连接,例如用户终端10b与业务服务器10a之间存在通信连接,用户终端10c与业务服务器10a之间存在通信连接。
用户终端集群(也包括上述的用户终端10b、用户终端10c以及用户终端10d)之间可以通过上述的通信连接传输邮件文本,但由于大量的网站以及公司利用邮件投放广告或者传播垃圾内容等,致使用户的体验感降低,也浪费了用户的宝贵时间,所以业务服务器10a先对邮件文本进行文本分类,识别邮件文本是否是垃圾邮件,再确定是否将邮件文本从发送终端(即用户终端集群中的任一用户终端)传输至接收终端(即用户终端集群中的另一用户终端),具体过程请参见图1b,图1b是本申请实施例提供的一种文本处理方法的流程示意图。下面将结合图1a-图1b,分别对邮件文本处理过程中涉及的各个过程进行详细介绍。
第一过程:邮件流入。邮件的发信以流水的方式,实时的流入到业务服务器10a包含的分类系统。下面以用户终端10b、用户终端10c以及用户终端10d为例进行叙述,当用户终端10b、用户终端10c以及用户终端10d均在可以发送邮件的应用中注册后,请一并参见图1c,图1c是本申请实施例提供一种邮件处理的场景示意图。如图1c所示,用户终端10b响应用户(即图1c中的发件人“天天向上”)触发发送邮件的操作,将邮件传输至业务服务器10a,即业务服务器10a实时获取邮件,如图1c所示,在根据发件人“天天向上”所选择的收件人(即“好好学习1”以及“好好学习2”),将邮件传输至分别对应的用户终端10c以及用户终端10d之前,业务服务器10a先识别该邮件,可以将邮件视作待处理文本,在确定待处理文本的文本分类结果后,再对待处理文本进行下一步处理。
第二过程:文本聚类。由于邮件数量巨大,一天的收发信邮件量可达6亿,采用实时的文本分类模型需要大量的处理器和内存,但结合实际应用场景,可以发现用户的邮箱里面的垃圾邮件基本是系统邮件和营销邮件,这些类型的邮件,其内容基本是相似的,因此业务服务器10a可以在确定邮件的邮件类别前,先对邮件进行实时文本聚类,如图1c所示,该邮件的主题为“房产介绍”,正文为“W市Y区的现有房屋”,所以业务服务器10a可以根据邮件的主题以及正文内容对其进行聚类,具体聚类过程如图1b所示,业务服务器10a首先根据最小哈希(minhash)算法对邮件(即待处理文本)进行实时文本聚类,其过程为:
1)、业务服务器10a对邮件文本(可以包括主题以及正文)进行minhash向量提取,对邮件簇中的中心邮件样本进行minhash向量提取;
2)、对1)中的由邮件文本所生成的minhash向量,与由中心邮件样本所生成的minhash向量进行相似度计算,如果相似度到达相似度阈值,即邮件聚类成功,业务服务器10a将当前邮件划分到目标邮件簇中,假设邮件簇a中的中心邮件样本的minhash向量与邮件的minhash向量的相似度大于相似度阈值,则可以将邮件簇a作为目标邮件簇,然后将邮件添加至邮件簇a中,添加方式可以为将邮件的文本内容添加至邮件簇a中,也可以为将邮件的邮件标识添加至邮件簇a中,还可以为其他方法,此处不限定。如果与已有的邮件簇都不相似,即邮件聚类失败,业务服务器10a将邮件输入词向量聚类模型中,其过程为:
1)、业务服务器10a对邮件的待处理文本进行切分,得到待处理文本对应的至少两个待处理分词,对邮件簇中的中心邮件样本进行文本切分,得到中心邮件样本对应的至少两个中心分词;
2)、业务服务器10a获取每个待处理分词的初始待处理分词向量,获取每个中心分词的初始中心分词向量;
3)、业务服务器10a分别对多个初始待处理分词向量进行叠加,生成多个待处理分词语义向量,进而可以根据多个待处理分词语义向量,确定针对待处理文本的待处理文本语义向量;分别对多个初始中心分词向量进行叠加,生成多个中心分词语义向量,进而可以根据多个中心分词语义向量,确定针对中心邮件样本的中心样本语义向量;
4)、业务服务器10a对3)中的待处理文本语义向量以及中心样本语义向量进行相似度计算,如果相似度到达相似度阈值,即邮件聚类成功,业务服务器10a将当前邮件划分到目标邮件簇中,如果与已有的邮件簇都不相似,即邮件聚类失败,业务服务器10a创建一个新的邮件簇,并将邮件作为新的邮件簇的中心邮件样本。
Minhash算法聚类速度快,聚类簇纯度(准确性)高,可以在极短时间内返回文本聚类结果;词向量模型聚类抗干扰性强、具有简单的语义理解,将两者结合,即minhash聚类的准确性+词向量模型聚类的抗干扰能力,可以很好的解决文本聚类的准确性和覆盖性的问题。需要理解的是,本申请实施例仅以Minhash算法以及词向量聚类模型示例说明文本聚类过程,实际上,应用场景的干扰种类多且程度深,因此可以根据应用场景设置聚类方法,例如在提前预知文本聚类簇的数量情况下,可以基于K均值(K-means)聚类算法对文本进行聚类;在不确定文本聚类簇的数量情况下,可以基于密度的聚类算法,如Density-BasedSpatial Clustering of Applications with Noise(DBSCAN)算法;在样本数量很大的情况下,可以基于层次的聚类方法,如利用层次方法的平衡迭代规约和聚类(BalancedIterative Reducing and Clustering Using Hierarchies,BIRCH)算法,此处并不限定聚类方法。
第三过程:将目标邮件簇的中心邮件样本输入缓存数据库。当确定邮件的目标邮件簇后,业务服务器10a获取缓存数据库,该缓存数据库包括大量邮件(文本)分类结果,本申请实施例部署缓存数据库的主要目的是减少对文本分类模型的调用,以广告邮件为例,假设用户终端10b发了1000万广告邮件,其中,1000万广告邮件聚类在10个邮件簇中,假如没有缓存数据库,则业务服务器10a需要调用1000万次文本分类模型,当有缓存数据库时,只需要对10个邮件簇中的中心邮件样本调用文本分类模型,当得到对应的文本分类结果时,实时的保存在缓存数据库中,后续再获取相似的广告邮件时,业务服务器10a无需调用文本分类模型,可以快速的从缓存数据库中确定广告邮件的文本分类结果。如图1b所示,如果中心邮件样本未命中缓存数据库中的文本分类结果,例如中心邮件样本属于一个新邮件簇的中心样本,显然,缓存数据库中没有针对新邮件簇的文本分类结果,此时业务服务器10a将中心邮件样本输入文本分类模型,即可得到该中心邮件样本的文本分类结果,将新的文本分类结果保存至缓存数据库中。
第四过程:处理邮件。假设文本分类模型输出的文本分类结果为一个二分类,包括文本正常分类结果以及文本异常分类结果,当文本分类结果为文本正常分类结果时,业务服务器10a可以确定用户终端10b所发送的邮件为正常文本,此时可以将邮件传输至用户终端10c以及用户终端10d;当文本分类结果为文本异常分类结果时,则可以确定邮件为异常文本,即垃圾邮件,此时将拦截或删除该邮件,不会传输至用户终端10c以及用户终端10d。
上述可知,本申请实施例通过minhash算法对邮件进行聚类,若minhash算法聚类失败,则将邮件输入词向量模型,使用两者结合的方式可以很好的解决邮件的聚类问题,然后引入缓存数据库,聚类在同一个邮件簇中的邮件只需调用一次文本分类模型,将得到的文本分类结果保存至缓存数据库中,这样就可以大大减少对文本分类模型的调用次数,同时完全不影响邮件分类的准确度。采用本申请,每天可以将文本分类模型的调用次数从6亿+减少到4000万,因此极大地节省了机器成本。
上述缓存数据库可视为电子化的文件柜——存储电子文件(本申请指中心文本样本以及其对应的文本分类结果)的处所,业务服务器10a可以对文件中的文本分类结果进行新增、查询、更新、删除等操作。所谓“数据库”是以一定方式储存在一起、能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。
可以理解的是,本申请实施例所提供的方法可以由计算机设备执行,计算机设备包括但不限于终端或服务器。本申请实施例中的业务服务器10a可以为计算机设备。上述服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。上述终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
其中,图1a中的用户终端10b、用户终端10c以及用户终端10d可以包括手机、平板电脑、笔记本电脑、掌上电脑、智能音响、移动互联网设备(MID,mobile internet device)、POS(Point Of Sales,销售点)机、可穿戴设备(例如智能手表、智能手环等)等。
需要注意的是,在本申请实施例中待处理文本是以邮件为例进行描述,但是实际应用场景中,待处理文本还可以包括论文、著作、小说等。
进一步地,请参见图2,图2是本申请实施例提供的一种文本处理方法的流程示意图。如图2所示,该文本处理过程包括如下步骤:
步骤S101,获取待处理文本,在至少两个文本聚类簇中,确定待处理文本所属的目标文本聚类簇。
本申请实施例所提供的方法可以由业务服务器执行,上述业务服务器可以获取文本聚类簇,可以理解的是,文本聚类簇可以视作文本聚类集合,同一个文本聚类集合中所存储的文本相似或文本类型相同,文本聚类簇可以存储在文本聚类数据库中,文本聚类数据库可以包括多个文本聚类簇,请一并参见图3,图3是本申请实施例提供的一种文本处理的场景示意图。如图3所示,文本聚类数据库20c包括至少两个文本聚类簇,假设文本聚类数据库20c包括10个文本聚类簇,分别为文本聚类簇P1、文本聚类簇P2、…、文本聚类簇P10。
可以理解的是,文本聚类数据库可视为电子化的文件柜——存储电子文件(本申请指文本)的处所,业务服务器可以对文件中的文本进行新增、查询、更新、删除等操作。所谓“数据库”是以一定方式储存在一起、能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。
请再参见图3,业务服务器10a获取用户终端10b发送的待处理文本,若上述待处理文本为用户终端10b发送给用户终端10c的邮件文本,在业务服务器10a传输至用户终端10c之前,首先对待处理文本进行聚类,具体过程如下:首先业务服务器10a从文本聚类数据库20c中确定文本聚类簇Pi,业务服务器10a可以按照特定顺序依次从文本聚类数据库20c中确定文本聚类簇Pi,例如根据文本聚类簇的簇名称,则首先获取文本聚类簇P1的中心文本样本,然后依次获取文本聚类簇P2的中心文本样本、…、文本聚类簇P10的中心文本样本,业务服务器10a也可以按照文本聚类簇所包含的文本数量确定获取中心文本样本的顺序,例如文本聚类簇P1已包含1000万个文本,文本聚类簇P2已包含500万个文本,…,文本聚类簇P10已包含700万个文本,则业务服务器可以先获取文本聚类簇P1的中心文本样本,再获取文本聚类簇P10的中心文本样本,再获取文本聚类簇P2的中心文本样本,业务服务器10a还可以随机地从文本聚类数据库20c中确定文本聚类簇Pi,例如首先获取文本聚类簇P2的中心文本样本,再获取文本聚类簇P10的中心文本样本,…,最后获取文本聚类簇P1的中心文本样本,此处不限定业务服务器10a获取中心文本样本Wi的顺序方式。
业务服务器10a从文本聚类数据库20c中获取中心文本样本Wi后,如图3所示,将中心文本样本Wi以及待处理文本输入第一文本聚类模型20a,通过第一文本聚类模型20a可以确定中心文本样本Wi与待处理文本之间的第一相似度Si。本申请实施例以业务服务器10a根据文本聚类簇的簇名称为例获取中心文本样本Wi,其他获取中心文本样本Wi的方法可以参照本实施例。当获取到待处理文本后,业务服务器10a从文本聚类簇P1中获取中心文本样本W1,然后将中心文本样本W1以及待处理文本输入第一文本聚类模型20a,通过第一文本聚类模型20a输出中心文本样本W1与待处理文本之间的第一相似度S1。业务服务器10a将第一相似度S1与第一相似度阈值进行对比,若第一相似度S1大于或等于第一相似度阈值,此时,业务服务器10a不再获取剩余文本聚类簇(也包括图3中文本聚类簇P2以及文本聚类簇P10)中的中心文本样本,可以将文本聚类簇P1确定为目标文本聚类簇,将中心文本样本W1确定为目标中心文本样本,将待处理文本添加至目标文本聚类簇(即文本聚类簇P1)中。
可选的,业务服务器10a可以在第一相似度S1大于或等于上述第一相似度阈值的情况下,进一步地,统计文本聚类簇P1中文本样本的样本数量,若系统设置的样本数量阈值为100万,而文本聚类簇P1中文本样本的样本数量为20万,即样本数量小于样本数量阈值,此时,业务服务器10a不会把文本聚类簇P1确定为目标文本聚类簇,同理,也不会把中心文本样本W1确定为目标中心文本样本,因此,就不会把待处理文本添加至文本聚类簇P1中。业务服务器10a通过第二文本聚类模型20b在至少两个文本聚类簇中,确定待处理文本所属的目标文本聚类簇;若系统设置的样本数量阈值为100万,而文本聚类簇P1中文本样本的样本数量为200万,此时,样本数量大于样本数量阈值,业务服务器10a将文本聚类簇P1确定为目标文本聚类簇。
若第一相似度S1小于第一相似度阈值,此时,业务服务器10a从文本聚类簇P2中获取中心文本样本W2,然后将中心文本样本W2以及待处理文本输入第一文本聚类模型20a,通过第一文本聚类模型20a输出中心文本样本W2与待处理文本之间的第一相似度S2。业务服务器10a将第一相似度S2与第一相似度阈值进行对比,若第一相似度S2大于或等于第一相似度阈值,此时,业务服务器10a不再获取剩余文本聚类簇(也包括图3中文本聚类簇P10)中的中心文本样本,可以将文本聚类簇P2确定为目标文本聚类簇,将中心文本样本W2确定为目标中心文本样本,将待处理文本添加至目标文本聚类簇(即文本聚类簇P2)中。若第一相似度S2小于第一相似度阈值,业务服务器10a从文本聚类数据库20c中获取下一个文本聚类簇Pi中的中心文本样本Wi,直至第一相似度Si大于或等于第一相似度阈值,i为3,…10。
如果第一相似度S9小于第一相似度阈值,业务服务器10a从文本聚类簇P10中获取中心文本样本W10,将中心文本样本W10以及待处理文本10x输入第一文本聚类模型20a,通过第一文本聚类模型20a输出中心文本样本W10与待处理文本10x之间的第一相似度S10,此时,若第一相似度S10小于第一相似度阈值,则将中心文本样本Wi以及待处理文本输入第二文本聚类模型20b,通过第二文本聚类模型20b输出中心文本样本Wi与待处理文本之间的第二相似度Di。依然以业务服务器10a根据邮件聚类簇的簇名称为例获取中心邮件样本Wi,其他获取中心邮件样本Wi的方法可以参照本实施例。当第一文本聚类模型20a对待处理文本聚类失败后,业务服务器10a将文本聚类簇P1中的中心文本样本W1,以及待处理文本输入第二文本聚类模型20b,通过第二文本聚类模型20b输出中心文本样本W1与待处理文本之间的第二相似度D1。业务服务器10a将第二相似度D1与第二相似度阈值进行对比,若第二相似度D1大于或等于第二相似度阈值,此时,业务服务器10a不再获取剩余文本聚类簇(也包括图3中文本聚类簇P2以及文本聚类簇P10)中的中心文本样本,可以将文本聚类簇P1确定为目标文本聚类簇,将中心文本样本W1确定为目标中心文本样本,将待处理文本添加至目标文本聚类簇(即文本聚类簇P1)中。
若第二相似度度D1小于第二相似度阈值,此时,业务服务器10a从文本聚类簇P2中获取中心文本样本W2,然后将中心文本样本W2以及待处理文本输入第二文本聚类模型20b,通过第二文本聚类模型20b输出中心文本样本W2与待处理文本之间的第二相似度D2。业务服务器10a将第二相似度D2与第二相似度阈值进行对比,若第二相似度D2大于或等于第二相似度阈值,此时,业务服务器10a不再获取剩余文本聚类簇(也包括图3中文本聚类簇P10)中的中心文本样本,可以将文本聚类簇P2确定为目标文本聚类簇,将中心文本样本W2确定为目标中心文本样本,将待处理文本添加至目标文本聚类簇(即文本聚类簇P2)中。若第二相似度S2小于第二相似度阈值,业务服务器10a从文本聚类数据库20c中获取下一个文本聚类簇Pi中的中心文本样本Wi,直至第二相似度Di大于或等于第二相似度阈值,i为3,…10。
如果第二相似度D9小于第二相似度阈值,业务服务器10a从文本聚类簇P10中获取中心文本样本W10,将中心文本样本W10以及待处理文本输入第二文本聚类模型20a,通过第二文本聚类模型20a输出中心文本样本W10与待处理文本之间的第二相似度D10,此时,若第二相似度D10小于第二相似度阈值,请再参见图3,业务服务器10a在文本聚类数据库20c中创建文本聚类簇P11,将文本聚类簇P11确定为目标文本聚类簇,将待处理文本添加至目标文本聚类簇中,将待处理文本确定为目标中心文本样本。
步骤S102,获取目标文本聚类簇的目标中心文本样本,获取缓存数据库。
具体的,从缓存数据库中获取缓存文本分类结果;获取与缓存文本分类结果相关联的缓存中心文本样本,将缓存中心文本样本与目标中心文本样本进行对比;若存在与目标中心文本样本相同的缓存中心文本样本,则确定缓存数据库中包括针对目标中心文本样本的目标缓存文本分类结果;若不存在与目标中心文本样本相同的缓存中心文本样本,则确定缓存数据库中不包括目标缓存文本分类结果。
可选的,目标中心文本样本携带目标中心标识,从缓存数据库中获取缓存文本分类结果;获取与缓存文本分类结果相关联的缓存中心标识,将缓存中心标识与目标中心标识进行对比;若存在与目标中心标识相同的缓存中心标识,则确定缓存数据库中包括针对目标中心文本样本的目标缓存文本分类结果;若不存在与目标中心标识相同的缓存中心标识,则确定缓存数据库中不包括目标缓存文本分类结果。
请一并参见图4a,图4a是本申请实施例提供的一种文本处理的场景示意图。如图4a所示,当确定待处理文本的目标文本聚类簇后,业务服务器10a获取缓存数据库20d,缓存数据库20d包括中心文本样本以及中心文本样本对应的文本分类结果,本申请实施例部署缓存数据库的主要目的是减少对文本分类模型的调用,以广告邮件为例,假设广告商利用终端或服务器发送1000万广告邮件至1000万个用户,其中,1000万广告邮件可以被聚类在10个邮件簇中,假如没有部署缓存数据库20d,业务服务器10a对每个广告邮件聚类后,均需要调用文本分类模型对广告邮件进行分类,则需要调用文本分类模型1000万次,当有缓存数据库20d时,只需要对10个邮件簇中的中心邮件样本调用文本分类模型,当得到中心邮件样本对应的文本分类结果时,实时的将文本分类结果保存在缓存数据库20d中,后续再获取相似的广告邮件时,业务服务器10a无需调用文本分类模型,可以快速的从缓存数据库20d中确定广告邮件的文本分类结果。如果中心邮件样本未命中缓存数据库20d中的文本分类结果,例如中心邮件样本属于一个新邮件簇的中心样本,显然,缓存数据库20d中没有针对新邮件簇的文本分类结果,此时业务服务器10a将中心邮件样本输入文本分类模型,即可得到该中心邮件样本的文本分类结果,将新的文本分类结果保存至缓存数据库中。
请再参见图4a,该缓存数据库20d包含一个缓存索引表,该索引表中的键是缓存中心文本样本,值是缓存文本分类结果,由上述缓存索引表可知,该缓存数据库20d包括文本聚类簇P1的中心文本样本W1、文本聚类簇P2的中心文本样本W2、…、文本聚类簇P7的中心文本样本W7、文本聚类簇P8的中心文本样本W8、文本聚类簇P9的中心文本样本W9、文本聚类簇P10的中心文本样本W10,其中,中心文本样本W1的文本分类结果是文本正常分类结果,中心文本样本W2的文本分类结果是文本正常分类结果,…,中心文本样本W7的文本分类结果是文本异常分类结果,中心文本样本W8的文本分类结果是文本异常分类结果,中心文本样本W9的文本分类结果是文本异常分类结果,中心文本样本W10的文本分类结果是文本异常分类结果。
业务服务器10a将目标中心文本样本与缓存索引表中的键进行匹配,即将缓存中心文本样本与目标中心文本样本进行对比,若存在与目标中心文本样本相同的缓存中心文本样本,假设目标中心文本样本为中心文本样本W8,则确定缓存数据集20d中包括针对目标中心文本样本的目标缓存文本分类结果,即文本异常分类结果。若不存在与目标中心文本样本相同的缓存中心文本样本,假设目标中心文本样本为中心文本样本W11,则确定缓存数据,20d中不包括目标缓存文本分类结果。
可选的,在保存一个文本聚类簇的文本分类结果时,可以将文本聚类簇的中心文本样本作为键存储至缓存数据库20d中,也可以将文本聚类簇的簇标识作为键存储至缓存数据库20d中,还可以将中心文本样本的中心标识作为键存储至缓存数据库20d中,此处不限定存储内容,可以根据实际应用场景确定。
步骤S103,若缓存数据库中包括针对目标中心文本样本的目标缓存文本分类结果,则将目标缓存文本分类结果确定为待处理文本的目标文本分类结果。
请再参见图4a,假设目标中心文本样本为中心文本样本W8,则确定缓存数据集20d中包括针对目标中心文本样本的目标缓存文本分类结果,即文本异常分类结果,业务服务器10c可以将文本异常分类结果确定为待处理文本的目标文本分类结果。
步骤S104,若缓存数据库中不包括目标缓存文本分类结果,则将目标中心文本样本输入文本分类模型,通过文本分类模型确定待处理文本的目标文本分类结果,将目标文本分类结果添加至缓存数据库中。
对目标中心文本样本进行切分,得到目标中心文本样本对应的至少两个分词样本;获取至少两个分词样本分别对应的样本初始向量,将至少两个样本初始向量输入文本分类模型,通过文本分类模型对至少两个样本初始向量进行编码组合,得到与至少两个样本初始向量分别对应的样本语义向量;根据至少两个样本语义向量确定目标中心文本样本的文本分类结果,将目标中心文本样本的文本分类结果确定为待处理文本的目标文本分类结果。
统计缓存数据库中缓存文本分类结果的结果数量,若结果数量小于结果数量阈值,则将目标文本分类结果添加至缓存数据库中;若结果数量等于结果数量阈值,则统计缓存文本分类结果的第二保存时长;从第二保存时长中确定最大保存时长,将最大保存时长对应的缓存文本分类结果确定为待更新文本分类结果,将待更新文本分类结果更新为目标文本分类结果。
为了便于理解和叙述,本申请实施例先对以下关键术语进行简单说明。
1、分词系统:文本的粒度一般包含字符、词语、句子、段落、篇章等级别。其中,字符可称作单字,也可简称为字;词语,也可以简称为词。例如短文本:“人工智能是计算机科学的重要组成部分”,则字符级别为以下:“人”,“工”,“智”,“能”,“是”,“计”,“算”,“机”,“科”,“学”,“的”,“重”,“要”,“组”,“成”,“部”,“分”;词语级别为:“人工”,“智能”,“是”,“计算机”,“科学”,“的”,“重要”,“组成”,“部分”;句子级别是整个短文本。段落级别和篇章级别是针对更广泛的定义。分词系统可以将输入文本切分为字符级别或者词语级别的表示形式,例如标准分词技术(StandardAnalyzer)、被忽略分词器(StopAnalyzer)、空格分词器(WhitespaceAnalyzer)等。本申请所说的“分词”可以为外语中的单词、如advertising,可以为中文中的词语,如人工,也可以为短语,如汪星人。
2、词典数据库:是指预先已经构建好的用于进行文本处理的大数据词语集合或者短语集合。该词典数据库中的词语可以包括中文文本(各个不同地方的不同方言文本)、英文文本等语言文本。该词典数据库的建立过程可以是,通过将任意一个或者多个数据库中的文本信息按照常见标点符号切分为短语,例如“人工智能”、“中华人民共和国”等由多个词语构成,所述常见标点符号可以为顿号、逗号、封号、冒号、句号以及英文形式的间隔号(“.”)等等。需要注意的是,在实际应用中,可能包含在短语中的标点不能用来切分文档,比如用于连接上下文语句的破折号等。
3、文本分类模型:是经过预训练得到的双向语言模型,包括但不限于ELMO网络(Embedding from Language Models)、BERT网络(Bidirectional EncoderRepresentation from Transformers)。文本分类网络模型需要基于词典数据库进行预先训练,请一并参见图4b,图4b是本申请实施例提供的一种文本处理方法的流程示意图。如图4b所示,在本申请实施例中,文本分类模型的主要流程分如下三个阶段:
a、预训练(Pretraining)阶段。
文本分类模型的预训练主要是利用文本数据(无标注数据)在初始分类模型中做预训练。
b、微调(Finetuneing)阶段。
假设实际应用为识别垃圾邮件场景,即待处理文本是邮件文本,此时,文本分类模型主要是分类哪些文本是垃圾邮件,哪些文本不是垃圾邮件,因此,可以抽取部分邮件数据对训练好的文本分类模型进行训练,生成文本分类模型。
c、应用阶段:
文本分类模型,例如BERT模型旨在联合调节所有层的上下文来预先训练深度双向表示,因此,训练好的BERT模型可以通过一个额外的输出层对文本进行微调,生成文本分类模型,从而达到文本处理要求。
请再参见图4b,训练好的初始分类模型可以生成深度双向语言模型,通过该模型的内部结构,学习到输入文本所对应的词向量或词嵌入(Word embedding),词嵌入是指从数据中自动学习到输入空间到分布式表示空间的映射,以此降低训练所需的数据量,也可理解为把一个高维空间嵌入到一个低维空间中,每个单词或词组被映射为实数域上的向量。其中,ELMO模型是基于双向语言模型,用各层之间的线性组合来表示词向量的一种方式。BERT模型,基于transformer双向编码器表示,国际先进的文本表示方法,可以将输入的文本表示为一个低维密集的向量。在计算机科学中,低维密集向量一般不超过一千维,向量中每个元素均不是0,而是处于0和1之间的一个小数,对应的高维稀疏向量一般超过一千维,向量中绝大部分元素是0。
请一并参见图4c,图4c是本申请实施例提供的一种文本处理的场景示意图。当缓存数据库中不包括针对目标中心文本样本的缓存文本分类结果时,业务服务器10a需要将目标中心文本样本输入文本分类模型,具体过程为:对目标中心文本样本进行切分,得到目标中心文本样本对应的至少两个分词样本,如图4c所示,业务服务器10a对目标中心文本样本进行分词处理,即通过分词系统将目标中心文本样本切分成词语或短语,得到“A,B,C,…,D”分词样本10f,例如目标中心文本样本为“人工智能是计算机科学的重要组成部分”,至少两个分词样本10f可以为“人工,智能,是,计算机,科学,的,重要,组成,部分”。通过查询字向量表等方法将至少两个分词样本中的每个分词样本转换为一维分词向量,即对“A,B,C,…,D”分词样本10f中的每个分词样本生成分别对应的样本初始向量,则得到“A,B,C,…,D”分词样本10f对应的样本初始向量序列10g,业务服务器10a将样本初始向量序列10g输入文本分类模型10h中进一步编码,获得包含目标中心文本样本上下文语义信息的样本语义向量序列10i。根据至少两个样本语义向量(即图4c中的样本语义向量序列10i)确定目标中心文本样本的文本分类结果,将目标中心文本样本的文本分类结果确定为待处理文本的目标文本分类结果。
由于缓存数据库中不包括由文本聚类模型确定的目标文本分类结果,所以将目标文本分类结果添加至缓存数据库中。请一并参见图4d,图4d是本申请实施例提供的一种文本处理的场景示意图,如图4d所示,在添加目标文本分类结果前,业务服务器10a统计缓存数据库20d中缓存文本分类结果的结果数量,即图4d中的缓存索引表中的键数量,由上述缓存索引表可知,该缓存数据库20d包括中心文本样本W1、中心文本样本W2、…、中心文本样本W8、中心文本样本W9、中心文本样本W10,其中,中心文本样本W1的文本分类结果是文本正常分类结果,中心文本样本W2的文本分类结果是文本正常分类结果,…,中心文本样本W8的文本分类结果是文本异常分类结果,中心文本样本W9的文本分类结果是文本异常分类结果,中心文本样本W10的文本分类结果是文本异常分类结果。业务服务器10a统计的结果数量若小于结果数量阈值,则将目标文本分类结果直接添加至缓存数据库20d中;若上述结果数量等于结果数量阈值,业务服务器10a统计缓存文本分类结果的第二保存时长,即统计中心文本样本W1对应的保存时长、中心文本样本W2对应的保存时长、…、中心文本样本W8对应的保存时长、中心文本样本W9对应的保存时长、中心文本样本W10对应的保存时长;业务服务器10a从第二保存时长中确定最大保存时长,假设中心文本样本W1对应的保存时长最长,则将中心文本样本W1对应的缓存文本分类结果确定为待更新文本分类结果,将待更新文本分类结果更新为目标文本分类结果,此时缓存数据库20d中不再包括中心文本样本W1的文本分类结果。后续,若业务服务器10a再次获取到与文本聚类簇P1相似的待处理文本,则需要将中心文本样本W1输入至文本分类模型,以得到中心文本样本W1的文本分类结果。
可选的,统计缓存数据库中缓存文本分类结果的第一保存时长;当第一保存时长大于保存时长阈值时,从缓存数据库中删除缓存文本分类结果。
业务服务器的分类系统可以设置缓存数据库中,缓存文本分类结果的保存时长阈值,则缓存数据库中的缓存文本分类结果可以定时进行更新,以保证缓存文本分类结果的准确性。
可选的,目标文本分类结果包括文本正常分类结果以及文本异常分类结果,若目标文本分类结果为文本正常分类结果,则确定待处理文本为正常文本,对正常文本进行传输处理;若目标文本分类结果为文本异常分类结果,则确定待处理文本为异常文本,对异常文本进行拦截处理。
请一并参见图4e,图4e是本申请实施例提供的一种文本处理的场景示意图。如图4e所示,用户“天天向上”通过用户终端10b在某平台想要发布一条“口红最低价,速抢购!!”文本,当用户“天天向上”点击“发送”按钮时,用户终端10b将该文本传输至业务服务器10a,通过本申请所述方法,业务服务器10a可以高效率地获取到该文本的文本分类结果,假设该文本的文本分类结果为文本异常分类结果,即业务服务器10a确认该文本为异常文本,此时,业务服务器10a将不会在平台上发布该文本,并可以返回提示信息,如“包含异常文字,禁止发布”,至用户终端10b,以提示用户“天天向上”其发送的文本中包含异常文字,不被允许发布。
本申请实施例获取待处理文本,首先对待处理文本进行聚类,即在至少两个文本聚类簇中,确定待处理文本所属的目标文本聚类簇,获取该目标文本聚类簇的目标中心文本样本,此时,不是直接对待处理文本进行分类处理,而是对目标文本聚类簇所包括的目标中心文本样本进行文本分类结果匹配,因为该目标中心文本样本的文本类别与待处理文本的文本类别相同,具体过程为:获取缓存数据库,若该缓存数据库中包括针对目标中心文本样本的目标缓存文本分类结果,则可以将目标缓存文本分类结果确定为待处理文本的目标文本分类结果;若缓存数据库中不包括目标缓存文本分类结果,则需要将目标中心文本样本输入文本分类模型,可以通过文本分类模型确定待处理文本的目标文本分类结果,然后将目标文本分类结果添加至缓存数据库中。上述可知,本申请实施例通过将大量相同类别的待处理文本聚类到同一个文本聚类簇中,进而在分类时,无需对大量待处理文本一一进行分类,只需要确定文本聚类簇的中心文本样本的文本分类结果,并将该文本分类结果保存至缓存数据库中,就可以确定被聚类到该文本聚类簇中的待处理文本的文本分类结果,若待处理文本所属的文本聚类簇中的中心文本样本,在缓存数据库中没有文本分类结果,再调用文本分类模型对中心文本样本进行分类,从而可以避免文本分类模型对每一个待处理文本进行文本分类,通过上述过程可以快速地获取待处理文本的文本分类结果,且减少对文本分类模型的调用,因此还可以降低资源消耗。
进一步地,请参见图5,图5是本申请实施例提供的一种文本处理方法的流程示意图。如图5所示,该文本处理过程包括如下步骤:
步骤S201,获取文本聚类簇Pi的中心文本样本Wi,将中心文本样本Wi以及待处理文本输入第一文本聚类模型,通过第一文本聚类模型输出中心文本样本Wi与待处理文本之间的第一相似度Si。
具体的,至少两个文本聚类簇包括文本聚类簇Pi,i为正整数,i小于或等于至少两个文本聚类簇中的文本聚类簇的总数;生成中心文本样本Wi的初始中心样本向量,生成待处理文本的初始待处理向量;根据哈希函数确定与初始中心样本向量对应的第一哈希数据,确定与初始待处理向量对应的第二哈希数据,根据第一哈希数据以及第二哈希数据,确定中心文本样本Wi以及待处理文本之间的第一相似度Si。
确定第一相似度Si的具体过程请一并参见图6a,图6a是本申请实施例提供的一种文本聚类方法的流程示意图。第一文本聚类模型20a是根据minhash算法所构建的模型,如图6a所示,业务服务器10a根据待处理文本生成由K个字符串所组成的集合J1,根据中心文本样本Wi生成由K个字符串所组成的集合J2,一个文本可以看成是一个字符串,文本的K个字符串(k-shingle)为在该文本中长度为k的所有子串,任意一个文本都可以表示为k-shingles的集合,例如k为3,待处理文本为“15hkjghgs。”,中心文本样本Wi为“12hkjghgs”,则集合J1为{“15h”,“5hk”,“hkj”,“kjg”,“jgh”,“ghg”,“hgs”,“gs。”},集合J2为{“12h”,“2hk”,“hkj”,“kjg”,“jgh”,“ghg”,“hgs”},根据集合J1以及集合J2生成全集{“15h”,“5hk”,“hkj”,“kjg”,“jgh”,“ghg”,“hgs”,“gs。”,“12h”,“2hk”}。
业务服务器10a可以根据集合J1,集合J2以及全集生成针对待处理文本的初始待处理向量,以及针对中心文本样本Wi的初始中心样本向量,例如,全集={a,b,c,d,e},集合J1={a,d,e},集合J2={b,c,d},上述的元素“a、b、c、d、e”均表示字符串,将集合J1在全集中存在的元素确定为1,集合J1在全集中不存在的元素确定为0,同理,将集合J2在全集中存在的元素确定为1,集合J2在全集中不存在的元素确定为0,则初始待处理向量以及初始中心样本向量如表1所示。
表1
元素 | 初始待处理向量 | 初始中心向量 |
a | 1 | 0 |
b | 0 | 1 |
c | 0 | 1 |
d | 1 | 1 |
e | 1 | 0 |
业务服务器10a由初始向量(包括初始待处理向量以及初始中心样本向量)分别生成第一哈希数据(即图6a中的最小哈希签名向量T2),以及第二哈希数据(即图6a中的最小哈希签名向量T1)的具体过程为,使用N个哈希函数计算初始向量,然后分别选取最小哈希值,得到N维的最小哈希签名向量,例如,N为3,哈希函数1为(r+1)对5取模,哈希函数2为(3r+1)对5取模,哈希函数3为(3r+1)对5取模,其中,r表示初始向量的行,即r=0,1,2,3,4,则根据表1可以得到表2。
表2
根据表2可得,将初始待处理向量中元素为1的行哈希值提取,即可得到初始待处理向量经过哈希函数1后的待处理向量1,为{1,4,0},待处理向量2为{1,2,4},待处理向量3为{1,0,3},从3个待处理向量中分别获取最小元素值,即可得到第二哈希数据(0,1,0);同理,将初始中心样本向量中元素为1的行哈希值提取,即可得到初始中心样本向量经过哈希函数1后的中心样本向量1,为{2,3,4},中心样本向量2为{3,0,2},中心样本向量3为{4,2,0},从3个待处理向量中分别获取最小元素值,即可得到第一哈希数据(2,0,0),可以根据杰卡德(Jaccard)相似性对第一哈希数据以及第二哈希数据计算相似度,确定中心文本样本Wi以及待处理文本之间的第一相似度Si为1/3。
步骤S202,若第一相似度Si大于或等于第一相似度阈值,则将文本聚类簇Pi确定为目标文本聚类簇,将中心文本样本Wi确定为目标中心文本样本,将待处理文本添加至目标文本聚类簇中。
本申请实施例以业务服务器10a根据文本聚类簇的簇名称为例获取中心文本样本Wi,其他获取中心文本样本Wi的方法可以参照本实施例。当获取到待处理文本后,业务服务器10a从文本聚类簇P1中获取中心文本样本W1,然后将中心文本样本W1以及待处理文本输入第一文本聚类模型20a,通过第一文本聚类模型20a输出中心文本样本W1与待处理文本之间的第一相似度S1,具体过程请参见上述,此处不再进行赘述。业务服务器10a将第一相似度S1与第一相似度阈值进行对比,若第一相似度S1大于或等于第一相似度阈值,此时,业务服务器10a不再获取剩余文本聚类簇中的中心文本样本,可以将文本聚类簇P1确定为目标文本聚类簇,将中心文本样本W1确定为目标中心文本样本,将待处理文本添加至目标文本聚类簇中。
若第一相似度S1小于第一相似度阈值,此时,业务服务器10a从文本聚类簇P2中获取中心文本样本W2,然后将中心文本样本W2以及待处理文本输入第一文本聚类模型20a,通过第一文本聚类模型20a输出中心文本样本W2与待处理文本之间的第一相似度S2。业务服务器10a将第一相似度S2与第一相似度阈值进行对比,若第一相似度S2大于或等于第一相似度阈值,此时,业务服务器10a不再获取剩余文本聚类簇中的中心文本样本,可以将文本聚类簇P2确定为目标文本聚类簇,将中心文本样本W2确定为目标中心文本样本,将待处理文本添加至目标文本聚类簇中。若第一相似度S2小于第一相似度阈值,业务服务器10a从文本聚类数据库20c中获取下一个文本聚类簇Pi中的中心文本样本Wi,直至第一相似度Si大于或等于第一相似度阈值,i为3,…10。
步骤S203,若第一相似度Si小于第一相似度阈值,则将中心文本样本Wi以及待处理文本输入第二文本聚类模型,通过第二文本聚类模型输出中心文本样本Wi与待处理文本之间的第二相似度Di。
对中心文本样本Wi进行切分,得到中心文本样本Wi对应的至少两个中心分词,对待处理文本进行切分,得到待处理文本对应的至少两个待处理分词;根据至少两个中心分词分别生成初始中心分词向量,根据至少两个待处理分词分别生成初始待处理分词向量;对至少两个初始中心分词向量进行向量运算,生成针对中心文本样本Wi的中心分词语义向量,对至少两个初始待处理分词向量进行向量运算,生成针对待处理文本的待处理分词语义向量;根据中心分词语义向量以及待处理分词语义向量,确定中心文本样本Wi与待处理文本之间的第二相似度Di。
确定第二相似度Di的具体过程请一并参见图6b,图6b是本申请实施例提供的一种文本聚类方法的流程示意图。第二文本聚类模型20b是根据词向量所构建的模型,如图6b所示,业务服务器10a对待处理文本进行切分,得到由至少两个待处理分词所组成的待处理分词集合J3,对中心文本样本Wi进行切分,得到由至少两个中心分词所组成的中心分词集合J4,例如待处理文本为“人工智能是计算机科学的重要组成部分”,待处理分词集合J3可以为{“人工”,“智能”,“是”,“计算机”,“科学”,“的”,“重要”,“组成”,“部分”},中心文本样本Wi为“人工智能在当今社会中起着重要的作用”,中心分词集合J4可以为{“人工”,“智能”,“在”,“当今”,“社会”,“中”,“起”,“着”,“重要”,“的”,“作用”},将待处理分词集合J3以及中心分词集合J4作为子集,则可以得到全集{“人工”,“智能”,“是”,“计算机”,“科学”,“的”,“重要”,“组成”,“部分”,“在”,“当今”,“社会”,“中”,“起”,“着”,“作用”}。
业务服务器10a可以根据待处理分词集合J3,中心分词集合J4以及全集生成针对待处理文本的初始待处理分词向量T3,以及针对中心文本样本Wi的初始中心分词向量T4,例如,全集={a,b,c,d,e},集合J1={a,b,c},集合J2={a,d,e},上述的元素“a、b、c、d、e”均表示词语或字符,将待处理分词集合J3在全集中存在的元素确定为1,待处理分词集合J3在全集中不存在的元素确定为0,同理,将中心分词集合J4在全集中存在的元素确定为1,中心分词集合J4在全集中不存在的元素确定为0,则初始待处理分词向量T3以及初始中心分词向量T4如表3所示。
表3
元素 | 初始待处理分词向量T3 | 初始中心分词向量T4 |
a | 1 | 1 |
b | 1 | 0 |
c | 1 | 0 |
d | 0 | 1 |
e | 0 | 1 |
可选的,初始分词向量(包括初始待处理分词向量T3以及初始中心分词向量T4)的生成还可以根据文本语料库等方式,此处不限定。
word2vec是神经网络自然语言处理的基础,包括两种模型:跳字模型(skip-gram)和连续词袋模型(continuous bag of words,CBOW),其中,CBOW模型是根据目标分词的上下文预测目标分词,Skip-Gram模型是根据目标分词预测上下文;因为word2vec能够对有大量干扰的待处理文本进行文本聚类,可以比较好的弥补minhash算法文本聚类不能抗干扰的问题,所以本申请实施例利用词向量(word2vec)对至少两个初始中心分词向量T3进行向量运算,生成针对中心文本样本Wi的中心分词语义向量(即图6b中的中心分词语义向量T6;对至少两个初始待处理分词向量进行向量运算,生成针对待处理文本的待处理分词语义向量(即图6b中的待处理分词语义向量T5)。同理,根据杰卡德(Jaccard)相似性对中心分词语义向量以及待处理分词语义向量计算相似度,确定中心文本样本Wi以及待处理文本之间的第二相似度Di。
步骤S204,若第二相似度Di大于或等于第二相似度阈值,则将文本聚类簇Pi确定为目标文本聚类簇,将中心文本样本Wi确定为目标中心文本样本,将待处理文本添加至目标文本聚类簇中。
依然以业务服务器10a根据文本聚类簇的簇名称为例获取中心文本样本Wi,其他获取中心文本样本Wi的方法可以参照本实施例。当第一文本聚类模型20a对待处理文本聚类失败后,业务服务器10a将文本聚类簇P1中的中心文本样本W1,以及待处理文本输入第二文本聚类模型20b,通过第二文本聚类模型20b输出中心文本样本W1与待处理文本之间的第二相似度D1,具体过程请参见上述,此处不再进行赘述。业务服务器10a将第二相似度D1与第二相似度阈值进行对比,若第二相似度D1大于或等于第二相似度阈值,此时,业务服务器10a不再获取剩余文本聚类簇中的中心文本样本,可以将文本聚类簇P1确定为目标文本聚类簇,将中心文本样本W1确定为目标中心文本样本,将待处理文本添加至目标文本聚类簇中。
若第二相似度度D1小于第二相似度阈值,此时,业务服务器10a从文本聚类簇P2中获取中心文本样本W2,然后将中心文本样本W2以及待处理文本输入第二文本聚类模型20b,通过第二文本聚类模型20b输出中心文本样本W2与待处理文本之间的第二相似度度D2。业务服务器10a将第二相似度D2与第二相似度阈值进行对比,若第二相似度D2大于或等于第二相似度阈值,此时,业务服务器10a不再获取剩余文本聚类簇中的中心文本样本,可以将文本聚类簇P2确定为目标文本聚类簇,将中心文本样本W2确定为目标中心文本样本,将待处理文本添加至目标文本聚类簇中。若第二相似度S2小于第二相似度阈值,业务服务器10a从文本聚类数据库20c中获取下一个文本聚类簇Pi中的中心文本样本Wi,直至第二相似度Di大于或等于第二相似度阈值,i为3,…10。
步骤S205,若第二相似度Di小于第二相似度阈值,则创建文本聚类簇Pi+1,将文本聚类簇Pi+1确定为目标文本聚类簇,将待处理文本添加至目标文本聚类簇中,将待处理文本确定为目标中心文本样本。
如果第二相似度D9小于第二相似度阈值,业务服务器10a从文本聚类簇P10中获取中心文本样本W10,将中心文本样本W10以及待处理文本输入第二文本聚类模型20a,通过第二文本聚类模型20a输出中心文本样本W10与待处理文本之间的第二相似度D10,此时,若第二相似度D10小于第二相似度阈值,请再参见图3,业务服务器10a在文本聚类数据库20c中创建文本聚类簇P11,将文本聚类簇P11确定为目标文本聚类簇,将待处理文本添加至目标文本聚类簇中,将待处理文本确定为目标中心文本样本。
本申请实施例获取待处理文本,首先对待处理文本进行聚类,即在至少两个文本聚类簇中,确定待处理文本所属的目标文本聚类簇,获取该目标文本聚类簇的目标中心文本样本,此时,不是直接对待处理文本进行分类处理,而是对目标文本聚类簇所包括的目标中心文本样本进行文本分类结果匹配,因为该目标中心文本样本的文本类别与待处理文本的文本类别相同,具体过程为:获取缓存数据库,若该缓存数据库中包括针对目标中心文本样本的目标缓存文本分类结果,则可以将目标缓存文本分类结果确定为待处理文本的目标文本分类结果;若缓存数据库中不包括目标缓存文本分类结果,则需要将目标中心文本样本输入文本分类模型,可以通过文本分类模型确定待处理文本的目标文本分类结果,然后将目标文本分类结果添加至缓存数据库中。上述可知,本申请实施例通过将大量相同类别的待处理文本聚类到同一个文本聚类簇中,进而在分类时,无需对大量待处理文本一一进行分类,只需要确定文本聚类簇的中心文本样本的文本分类结果,并将该文本分类结果保存至缓存数据库中,就可以确定被聚类到该文本聚类簇中的待处理文本的文本分类结果,若待处理文本所属的文本聚类簇中的中心文本样本,在缓存数据库中没有文本分类结果,再调用文本分类模型对中心文本样本进行分类,从而可以避免文本分类模型对每一个待处理文本进行文本分类,通过上述过程可以快速地获取待处理文本的文本分类结果,且减少对文本分类模型的调用,因此还可以降低资源消耗。
进一步地,请参见图7,图7是本申请实施例提供的一种文本处理装置的结构示意图。上述文本处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该文本处理装置为一个应用软件;该装置可以用于执行本申请实施例提供的方法中的相应步骤。如图7所示,该文本处理装置1可以包括:第一获取模块11以及第一确定模块12。
第一获取模块11,用于获取待处理文本,在至少两个文本聚类簇中,确定待处理文本所属的目标文本聚类簇;
第一获取模块11,还用于获取目标文本聚类簇的目标中心文本样本,获取缓存数据库;
第一确定模块12,用于若缓存数据库中包括针对目标中心文本样本的目标缓存文本分类结果,则将目标缓存文本分类结果确定为待处理文本的目标文本分类结果;
第一确定模块12,还用于若缓存数据库中不包括目标缓存文本分类结果,则将目标中心文本样本输入文本分类模型,通过文本分类模型确定待处理文本的目标文本分类结果,将目标文本分类结果添加至缓存数据库中。
其中,第一获取模块11以及第一确定模块12的具体功能实现方式可以参见上述图2对应实施例中的步骤S101-步骤S104,这里不再进行赘述。
再请参见图7,文本处理装置1还可以包括:第二确定模块13。
第二确定模块13,用于若目标文本分类结果为文本正常分类结果,则确定待处理文本为正常文本,对正常文本进行传输处理;
第二确定模块13,还用于若目标文本分类结果为文本异常分类结果,则确定待处理文本为异常文本,对异常文本进行拦截处理。
其中,第二确定模块13的具体功能实现方式可以参见上述图2对应实施例中的步骤S104,这里不再进行赘述。
再请参见图7,文本处理装置1还可以包括:统计时长模块14。
统计时长模块14,用于统计缓存数据库中缓存文本分类结果的第一保存时长;
统计时长模块14,还用于当第一保存时长大于保存时长阈值时,从缓存数据库中删除缓存文本分类结果。
其中,统计时长模块14的具体功能实现方式可以参见上述图2对应实施例中的步骤S104,这里不再进行赘述。
再请参见图7,第一确定模块12可以包括:统计数量单元121、添加结果单元122、统计时长单元123以及更新结果单元124。
统计数量单元121,用于统计缓存数据库中缓存文本分类结果的结果数量;
添加结果单元122,用于若结果数量小于结果数量阈值,则将目标文本分类结果添加至缓存数据库中;
统计时长单元123,用于若结果数量等于结果数量阈值,则统计缓存文本分类结果的第二保存时长;
更新结果单元124,用于从第二保存时长中确定最大保存时长,将最大保存时长对应的缓存文本分类结果确定为待更新文本分类结果,将待更新文本分类结果更新为目标文本分类结果。
其中,统计数量单元121、添加结果单元122、统计时长单元123以及更新结果单元124的具体功能实现方式可以参见上述图2对应实施例中的步骤S104,这里不再进行赘述。
再请参见图7,上述文本处理装置1还可以包括:第二获取模块15以及第三确定模块16。
第二获取模块15,用于从缓存数据库中获取缓存文本分类结果;
第二获取模块15,还用于获取与缓存文本分类结果相关联的缓存中心文本样本,将缓存中心文本样本与目标中心文本样本进行对比;
第三确定模块16,用于若存在与目标中心文本样本相同的缓存中心文本样本,则确定缓存数据库中包括针对目标中心文本样本的目标缓存文本分类结果;
第三确定模块16,还用于若不存在与目标中心文本样本相同的缓存中心文本样本,则确定缓存数据库中不包括目标缓存文本分类结果。
其中,第二获取模块15以及第三确定模块16的具体功能实现方式可以参见上述图2对应实施例中的步骤S102,这里不再进行赘述。
再请参见图7,文本处理装置1还可以包括:第三获取模块17以及第四确定模块18。
第三获取模块17,用于从缓存数据库中获取缓存文本分类结果;
第三获取模块17,还用于获取与缓存文本分类结果相关联的缓存中心标识,将缓存中心标识与目标中心标识进行对比;
第四确定模块18,用于若存在与目标中心标识相同的缓存中心标识,则确定缓存数据库中包括针对目标中心文本样本的目标缓存文本分类结果;
第四确定模块18,还用于若不存在与目标中心标识相同的缓存中心标识,则确定缓存数据库中不包括目标缓存文本分类结果。
其中,第三获取模块17以及第四确定模块18的具体功能实现方式可以参见上述图2对应实施例中的步骤S102,这里不再进行赘述。
再请参见图7,第一获取模块11可以包括:第一输入单元111以及第一确定单元112。
第一输入单元111,用于获取文本聚类簇Pi的中心文本样本Wi,将中心文本样本Wi以及待处理文本输入第一文本聚类模型,通过第一文本聚类模型输出中心文本样本Wi与待处理文本之间的第一相似度Si;
第一确定单元112,用于若第一相似度Si大于或等于第一相似度阈值,则将文本聚类簇Pi确定为目标文本聚类簇,将中心文本样本Wi确定为目标中心文本样本,将待处理文本添加至目标文本聚类簇中。
其中,第一输入单元111以及第一确定单元112的具体功能实现方式可以参见上述图5对应实施例中的步骤S201-步骤S202,这里不再进行赘述。
再请参见图7,第一输入单元111可以包括:第一生成子单元1111以及第一确定子单元1112。
第一生成子单元1111,用于生成中心文本样本Wi的初始中心样本向量,生成待处理文本的初始待处理向量;
第一确定子单元1112,用于根据哈希函数确定与初始中心样本向量对应的第一哈希数据,确定与初始待处理向量对应的第二哈希数据;
第一确定子单元1112,还用于根据第一哈希数据以及第二哈希数据,确定中心文本样本Wi以及待处理文本之间的第一相似度Si。
其中,第一生成子单元1111以及第一确定子单元1112的具体功能实现方式可以参见上述图5对应实施例中的步骤S201,这里不再进行赘述。
再请参见图7,第一获取模块11还可以包括:第二输入单元113以及第二确定单元114。
第二输入单元113,用于若第一相似度Si小于第一相似度阈值,则将中心文本样本Wi以及待处理文本输入第二文本聚类模型,通过第二文本聚类模型输出中心文本样本Wi与待处理文本之间的第二相似度Di;
第二确定单元114,用于若第二相似度Di大于或等于第二相似度阈值,则将文本聚类簇Pi确定为目标文本聚类簇,将中心文本样本Wi确定为目标中心文本样本,将待处理文本添加至目标文本聚类簇中。
其中,第二输入单元113以及第二确定单元114的具体功能实现方式可以参见上述图5对应实施例中的步骤S203-步骤S204,这里不再进行赘述。
再请参见图7,第二输入单元113可以包括:切分文本子单元1131、第二生成子单元1132、第三生成子单元1133以及第二确定子单元1134。
切分文本子单元1131,用于对中心文本样本Wi进行切分,得到中心文本样本Wi对应的至少两个中心分词;
切分文本子单元1131,还用于对待处理文本进行切分,得到待处理文本对应的至少两个待处理分词;
第二生成子单元1132,用于根据至少两个中心分词分别生成初始中心分词向量,根据至少两个待处理分词分别生成初始待处理分词向量;
第三生成子单元1133,用于对至少两个初始中心分词向量进行向量运算,生成针对中心文本样本Wi的中心分词语义向量;
第三生成子单元1133,还用于对至少两个初始待处理分词向量进行向量运算,生成针对待处理文本的待处理分词语义向量;
第二确定子单元1134,用于根据中心分词语义向量以及待处理分词语义向量,确定中心文本样本Wi与待处理文本之间的第二相似度Di。
其中,切分文本子单元1131、第二生成子单元1132、第三生成子单元1133以及第二确定子单元1134的具体功能实现方式可以参见上述图5对应实施例中的步骤S203,这里不再进行赘述。
再请参见图7,第一获取模块11还可以包括:第三确定单元115。
第三确定单元115,用于若第二相似度Di小于第二相似度阈值,则创建文本聚类簇Pi+1,将文本聚类簇Pi+1确定为目标文本聚类簇,将待处理文本添加至目标文本聚类簇中,将待处理文本确定为目标中心文本样本。
其中,第三确定单元115的具体功能实现方式可以参见上述图5对应实施例中的步骤S205,这里不再进行赘述。
再请参见图7,其中,第一确定单元112可以包括:统计样本子单元1121以及第三确定子单元1122。
统计样本子单元1121,用于若第一相似度Si大于或等于第一相似度阈值,则统计文本聚类簇Pi中文本样本的样本数量;
第三确定子单元1122,用于若样本数量小于或等于样本数量阈值,则通过第二文本聚类模型在至少两个文本聚类簇中,确定待处理文本所属的目标文本聚类簇;
第三确定子单元1122,还用于若样本数量大于样本数量阈值,则将文本聚类簇Pi确定为目标文本聚类簇。
其中,统计样本子单元1121以及第三确定子单元1122的具体功能实现方式可以参见上述图2对应实施例中的步骤S101,这里不再进行赘述。
再请参见图7,第一确定模块12可以包括:切分目标单元125、获取向量单元126以及确定结果单元127。
切分目标单元125,用于对目标中心文本样本进行切分,得到目标中心文本样本对应的至少两个分词样本;
获取向量单元126,用于获取至少两个分词样本分别对应的样本初始向量,将至少两个样本初始向量输入文本分类模型,通过文本分类模型对至少两个样本初始向量进行编码组合,得到与至少两个样本初始向量分别对应的样本语义向量;
确定结果单元127,用于根据至少两个样本语义向量确定目标中心文本样本的文本分类结果,将目标中心文本样本的文本分类结果确定为待处理文本的目标文本分类结果。
其中,切分目标单元125、获取向量单元126以及确定结果单元127的具体功能实现方式可以参见上述图2对应实施例中的步骤S104,这里不再进行赘述。
本申请实施例获取待处理文本,首先对待处理文本进行聚类,即在至少两个文本聚类簇中,确定待处理文本所属的目标文本聚类簇,获取该目标文本聚类簇的目标中心文本样本,此时,不是直接对待处理文本进行分类处理,而是对目标文本聚类簇所包括的目标中心文本样本进行文本分类结果匹配,因为该目标中心文本样本的文本类别与待处理文本的文本类别相同,具体过程为:获取缓存数据库,若该缓存数据库中包括针对目标中心文本样本的目标缓存文本分类结果,则可以将目标缓存文本分类结果确定为待处理文本的目标文本分类结果;若缓存数据库中不包括目标缓存文本分类结果,则需要将目标中心文本样本输入文本分类模型,可以通过文本分类模型确定待处理文本的目标文本分类结果,然后将目标文本分类结果添加至缓存数据库中。上述可知,通过将大量相同类别的待处理文本聚类到同一个文本聚类簇中,进而在分类时,无需对大量待处理文本一一进行分类,只需要确定文本聚类簇的中心文本样本的文本分类结果,并将该文本分类结果保存至缓存数据库中,就可以确定被聚类到该文本聚类簇中的待处理文本的文本分类结果,若待处理文本所属的文本聚类簇中的中心文本样本,在缓存数据库中没有文本分类结果,再调用文本分类模型对中心文本样本进行分类,从而可以避免文本分类模型对每一个待处理文本进行文本分类,通过上述过程可以快速地获取待处理文本的文本分类结果,且减少对文本分类模型的调用,因此还可以降低资源消耗。
进一步地,请参见图8,图8是本申请实施例提供的一种计算机设备的结构示意图。如图8所示,上述计算机设备1000可以包括:处理器1001,网络接口1004和存储器1005,此外,上述计算机设备1000还可以包括:用户接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非易失性的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图8所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在图8所示的计算机设备1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
获取待处理文本,在至少两个文本聚类簇中,确定待处理文本所属的目标文本聚类簇;
获取目标文本聚类簇的目标中心文本样本,获取缓存数据库;
若缓存数据库中包括针对目标中心文本样本的目标缓存文本分类结果,则将目标缓存文本分类结果确定为待处理文本的目标文本分类结果;
若缓存数据库中不包括目标缓存文本分类结果,则将目标中心文本样本输入文本分类模型,通过文本分类模型确定待处理文本的目标文本分类结果,将目标文本分类结果添加至缓存数据库中。
在一个实施例中,目标文本分类结果包括文本正常分类结果以及文本异常分类结果;
上述处理器1001还具体执行以下步骤:
若目标文本分类结果为文本正常分类结果,则确定待处理文本为正常文本,对正常文本进行传输处理;
若目标文本分类结果为文本异常分类结果,则确定待处理文本为异常文本,对异常文本进行拦截处理。
在一个实施例中,上述处理器1001还具体执行以下步骤:
统计缓存数据库中缓存文本分类结果的第一保存时长;
当第一保存时长大于保存时长阈值时,从缓存数据库中删除缓存文本分类结果。
在一个实施例中,上述处理器1001在执行将目标文本分类结果添加至缓存数据库中时,具体执行以下步骤:
统计缓存数据库中缓存文本分类结果的结果数量;
若结果数量小于结果数量阈值,则将目标文本分类结果添加至缓存数据库中;
若结果数量等于结果数量阈值,则统计缓存文本分类结果的第二保存时长;
从第二保存时长中确定最大保存时长,将最大保存时长对应的缓存文本分类结果确定为待更新文本分类结果,将待更新文本分类结果更新为目标文本分类结果。
在一个实施例中,上述处理器1001还具体执行以下步骤:
从缓存数据库中获取缓存文本分类结果;
获取与缓存文本分类结果相关联的缓存中心文本样本,将缓存中心文本样本与目标中心文本样本进行对比;
若存在与目标中心文本样本相同的缓存中心文本样本,则确定缓存数据库中包括针对目标中心文本样本的目标缓存文本分类结果;
若不存在与目标中心文本样本相同的缓存中心文本样本,则确定缓存数据库中不包括目标缓存文本分类结果。
在一个实施例中,目标中心文本样本携带目标中心标识;
上述处理器1001还具体执行以下步骤:
从缓存数据库中获取缓存文本分类结果;
获取与缓存文本分类结果相关联的缓存中心标识,将缓存中心标识与目标中心标识进行对比;
若存在与目标中心标识相同的缓存中心标识,则确定缓存数据库中包括针对目标中心文本样本的目标缓存文本分类结果;
若不存在与目标中心标识相同的缓存中心标识,则确定缓存数据库中不包括目标缓存文本分类结果。
在一个实施例中,至少两个文本聚类簇包括文本聚类簇Pi,i为正整数,i小于或等于至少两个文本聚类簇中的文本聚类簇的总数;
上述处理器1001在执行在至少两个文本聚类簇中,确定待处理文本所属的目标文本聚类簇时,具体执行以下步骤:
获取文本聚类簇Pi的中心文本样本Wi,将中心文本样本Wi以及待处理文本输入第一文本聚类模型,通过第一文本聚类模型输出中心文本样本Wi与待处理文本之间的第一相似度Si;
若第一相似度Si大于或等于第一相似度阈值,则将文本聚类簇Pi确定为目标文本聚类簇,将中心文本样本Wi确定为目标中心文本样本,将待处理文本添加至目标文本聚类簇中。
在一个实施例中,上述处理器1001在执行通过第一文本聚类模型输出中心文本样本Wi与待处理文本之间的第一相似度Si时,具体执行以下步骤:
生成中心文本样本Wi的初始中心样本向量,生成待处理文本的初始待处理向量;
根据哈希函数确定与初始中心样本向量对应的第一哈希数据,确定与初始待处理向量对应的第二哈希数据;
根据第一哈希数据以及第二哈希数据,确定中心文本样本Wi以及待处理文本之间的第一相似度Si。
上述处理器1001在执行在至少两个文本聚类簇中,确定待处理文本所属的目标文本聚类簇时,具体执行以下步骤:
若第一相似度Si小于第一相似度阈值,则将中心文本样本Wi以及待处理文本输入第二文本聚类模型,通过第二文本聚类模型输出中心文本样本Wi与待处理文本之间的第二相似度Di;
若第二相似度Di大于或等于第二相似度阈值,则将文本聚类簇Pi确定为目标文本聚类簇,将中心文本样本Wi确定为目标中心文本样本,将待处理文本添加至目标文本聚类簇中。
在一个实施例中,上述处理器1001在执行通过第二文本聚类模型输出中心文本样本Wi与待处理文本之间的第二相似度Di时,具体执行以下步骤:
对中心文本样本Wi进行切分,得到中心文本样本Wi对应的至少两个中心分词;
对待处理文本进行切分,得到待处理文本对应的至少两个待处理分词;
根据至少两个中心分词分别生成初始中心分词向量,根据至少两个待处理分词分别生成初始待处理分词向量;
对至少两个初始中心分词向量进行向量运算,生成针对中心文本样本Wi的中心分词语义向量;
对至少两个初始待处理分词向量进行向量运算,生成针对待处理文本的待处理分词语义向量;
根据中心分词语义向量以及待处理分词语义向量,确定中心文本样本Wi与待处理文本之间的第二相似度Di。
上述处理器1001在执行在至少两个文本聚类簇中,确定待处理文本所属的目标文本聚类簇时,具体执行以下步骤:
若第二相似度Di小于第二相似度阈值,则创建文本聚类簇Pi+1,将文本聚类簇Pi+1确定为目标文本聚类簇,将待处理文本添加至目标文本聚类簇中,将待处理文本确定为目标中心文本样本。
在一个实施例中,上述处理器1001在执行若第一相似度Si大于或等于第一相似度阈值,则将文本聚类簇Pi确定为目标文本聚类簇时,具体执行以下步骤:
若第一相似度Si大于或等于第一相似度阈值,则统计文本聚类簇Pi中文本样本的样本数量;
若样本数量小于或等于样本数量阈值,则通过第二文本聚类模型在至少两个文本聚类簇中,确定待处理文本所属的目标文本聚类簇;
若样本数量大于样本数量阈值,则将文本聚类簇Pi确定为目标文本聚类簇。
在一个实施例中,上述处理器1001在执行将目标中心文本样本输入文本分类模型,通过文本分类模型确定待处理文本的目标文本分类结果时,具体执行以下步骤:
对目标中心文本样本进行切分,得到目标中心文本样本对应的至少两个分词样本;
获取至少两个分词样本分别对应的样本初始向量,将至少两个样本初始向量输入文本分类模型,通过文本分类模型对至少两个样本初始向量进行编码组合,得到与至少两个样本初始向量分别对应的样本语义向量;
根据至少两个样本语义向量确定目标中心文本样本的文本分类结果,将目标中心文本样本的文本分类结果确定为待处理文本的目标文本分类结果。
本申请实施例获取待处理文本,首先对待处理文本进行聚类,即在至少两个文本聚类簇中,确定待处理文本所属的目标文本聚类簇,获取该目标文本聚类簇的目标中心文本样本,此时,不是直接对待处理文本进行分类处理,而是对目标文本聚类簇所包括的目标中心文本样本进行文本分类结果匹配,因为该目标中心文本样本的文本类别与待处理文本的文本类别相同,具体过程为:获取缓存数据库,若该缓存数据库中包括针对目标中心文本样本的目标缓存文本分类结果,则可以将目标缓存文本分类结果确定为待处理文本的目标文本分类结果;若缓存数据库中不包括目标缓存文本分类结果,则需要将目标中心文本样本输入文本分类模型,可以通过文本分类模型确定待处理文本的目标文本分类结果,然后将目标文本分类结果添加至缓存数据库中。上述可知,通过将大量相同类别的待处理文本聚类到同一个文本聚类簇中,进而在分类时,无需对大量待处理文本一一进行分类,只需要确定文本聚类簇的中心文本样本的文本分类结果,并将该文本分类结果保存至缓存数据库中,就可以确定被聚类到该文本聚类簇中的待处理文本的文本分类结果,若待处理文本所属的文本聚类簇中的中心文本样本,在缓存数据库中没有文本分类结果,再调用文本分类模型对中心文本样本进行分类,从而可以避免文本分类模型对每一个待处理文本进行文本分类,通过上述过程可以快速地获取待处理文本的文本分类结果,且减少对文本分类模型的调用,因此还可以降低资源消耗。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令被处理器执行时实现图2中各个步骤所提供的文本处理方法,具体可参见上述图2各个步骤所提供的实现方式,在此不再赘述。
上述计算机可读存储介质可以是前述任一实施例提供的文本处理装置或者上述计算机设备的内部存储单元,例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(smart media card,SMC),安全数字(secure digital,SD)卡,闪存卡(flash card)等。进一步地,该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本申请实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括没有列出的步骤或模块,或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的,具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。
Claims (15)
1.一种文本处理方法,其特征在于,包括:
获取待处理文本,在至少两个文本聚类簇中,确定所述待处理文本所属的目标文本聚类簇;
获取所述目标文本聚类簇的目标中心文本样本,获取缓存数据库;
若所述缓存数据库中包括针对所述目标中心文本样本的目标缓存文本分类结果,则将所述目标缓存文本分类结果确定为所述待处理文本的目标文本分类结果;
若所述缓存数据库中不包括所述目标缓存文本分类结果,则将所述目标中心文本样本输入文本分类模型,通过所述文本分类模型确定所述待处理文本的所述目标文本分类结果,将所述目标文本分类结果添加至所述缓存数据库中。
2.根据权利要求1所述的方法,其特征在于,所述目标文本分类结果包括文本正常分类结果以及文本异常分类结果;
所述方法还包括:
若所述目标文本分类结果为所述文本正常分类结果,则确定所述待处理文本为正常文本,对所述正常文本进行传输处理;
若所述目标文本分类结果为所述文本异常分类结果,则确定所述待处理文本为异常文本,对所述异常文本进行拦截处理。
3.根据权利要求1所述的方法,其特征在于,还包括:
统计所述缓存数据库中缓存文本分类结果的第一保存时长;
当所述第一保存时长大于保存时长阈值时,从所述缓存数据库中删除所述缓存文本分类结果。
4.根据权利要求1所述的方法,其特征在于,所述将所述目标文本分类结果添加至所述缓存数据库中,包括:
统计所述缓存数据库中缓存文本分类结果的结果数量;
若所述结果数量小于结果数量阈值,则将所述目标文本分类结果添加至所述缓存数据库中;
若所述结果数量等于所述结果数量阈值,则统计所述缓存文本分类结果的第二保存时长;
从所述第二保存时长中确定最大保存时长,将所述最大保存时长对应的缓存文本分类结果确定为所述待更新文本分类结果,将所述待更新文本分类结果更新为所述目标文本分类结果。
5.根据权利要求1所述的方法,其特征在于,还包括:
从所述缓存数据库中获取缓存文本分类结果;
获取与所述缓存文本分类结果相关联的缓存中心文本样本,将所述缓存中心文本样本与所述目标中心文本样本进行对比;
若存在与所述目标中心文本样本相同的缓存中心文本样本,则确定所述缓存数据库中包括针对所述目标中心文本样本的所述目标缓存文本分类结果;
若不存在与所述目标中心文本样本相同的缓存中心文本样本,则确定所述缓存数据库中不包括所述目标缓存文本分类结果。
6.根据权利要求1所述的方法,其特征在于,所述目标中心文本样本携带目标中心标识;
所述方法还包括:
从所述缓存数据库中获取缓存文本分类结果;
获取与所述缓存文本分类结果相关联的缓存中心标识,将所述缓存中心标识与所述目标中心标识进行对比;
若存在与所述目标中心标识相同的缓存中心标识,则确定所述缓存数据库中包括针对所述目标中心文本样本的所述目标缓存文本分类结果;
若不存在与所述目标中心标识相同的缓存中心标识,则确定所述缓存数据库中不包括所述目标缓存文本分类结果。
7.根据权利要求1所述的方法,其特征在于,所述至少两个文本聚类簇包括文本聚类簇Pi,i为正整数,i小于或等于所述至少两个文本聚类簇中的文本聚类簇的总数;
所述在至少两个文本聚类簇中,确定所述待处理文本所属的目标文本聚类簇,包括:
获取所述文本聚类簇Pi的中心文本样本Wi,将所述中心文本样本Wi以及所述待处理文本输入第一文本聚类模型,通过所述第一文本聚类模型输出所述中心文本样本Wi与所述待处理文本之间的第一相似度Si;
若所述第一相似度Si大于或等于第一相似度阈值,则将所述文本聚类簇Pi确定为所述目标文本聚类簇,将所述中心文本样本Wi确定为所述目标中心文本样本,将所述待处理文本添加至所述目标文本聚类簇中。
8.根据权利要求7所述的方法,其特征在于,所述通过所述第一文本聚类模型输出所述中心文本样本Wi与所述待处理文本之间的第一相似度Si,包括:
生成所述中心文本样本Wi的初始中心样本向量,生成所述待处理文本的初始待处理向量;
根据哈希函数确定与所述初始中心样本向量对应的第一哈希数据,确定与所述初始待处理向量对应的第二哈希数据;
根据所述第一哈希数据以及所述第二哈希数据,确定所述中心文本样本Wi以及所述待处理文本之间的所述第一相似度Si。
9.根据权利要求7所述的方法,其特征在于,还包括:
若所述第一相似度Si小于所述第一相似度阈值,则将所述中心文本样本Wi以及所述待处理文本输入第二文本聚类模型,通过所述第二文本聚类模型输出所述中心文本样本Wi与所述待处理文本之间的第二相似度Di;
若所述第二相似度Di大于或等于第二相似度阈值,则将所述文本聚类簇Pi确定为所述目标文本聚类簇,将所述中心文本样本Wi确定为所述目标中心文本样本,将所述待处理文本添加至所述目标文本聚类簇中。
10.根据权利要求9所述的方法,其特征在于,所述通过所述第二文本聚类模型输出所述中心文本样本Wi与所述待处理文本之间的第二相似度Di,包括:
对所述中心文本样本Wi进行切分,得到所述中心文本样本Wi对应的至少两个中心分词;
对所述待处理文本进行切分,得到所述待处理文本对应的至少两个待处理分词;
根据至少两个中心分词分别生成初始中心分词向量,根据至少两个待处理分词分别生成初始待处理分词向量;
对至少两个初始中心分词向量进行向量运算,生成针对所述中心文本样本Wi的中心分词语义向量;
对至少两个初始待处理分词向量进行向量运算,生成针对所述待处理文本的待处理分词语义向量;
根据所述中心分词语义向量以及所述待处理分词语义向量,确定所述中心文本样本Wi与所述待处理文本之间的所述第二相似度Di。
11.根据权利要求9所述的方法,其特征在于,还包括:
若所述第二相似度Di小于所述第二相似度阈值,则创建文本聚类簇Pi+1,将所述文本聚类簇Pi+1确定为所述目标文本聚类簇,将所述待处理文本添加至所述目标文本聚类簇中,将所述待处理文本确定为所述目标中心文本样本。
12.根据权利要求7所述的方法,其特征在于,所述若所述第一相似度Si大于或等于第一相似度阈值,则将所述文本聚类簇Pi确定为所述目标文本聚类簇,包括:
若所述第一相似度Si大于或等于所述第一相似度阈值,则统计所述文本聚类簇Pi中文本样本的样本数量;
若所述样本数量小于或等于样本数量阈值,则通过所述第二文本聚类模型在所述至少两个文本聚类簇中,确定所述待处理文本所属的所述目标文本聚类簇;
若所述样本数量大于所述样本数量阈值,则将所述文本聚类簇Pi确定为所述目标文本聚类簇。
13.根据权利要求1所述的方法,其特征在于,所述将所述目标中心文本样本输入文本分类模型,通过所述文本分类模型确定所述待处理文本的所述目标文本分类结果,包括:
对所述目标中心文本样本进行切分,得到所述目标中心文本样本对应的至少两个分词样本;
获取所述至少两个分词样本分别对应的样本初始向量,将至少两个样本初始向量输入所述文本分类模型,通过所述文本分类模型对所述至少两个样本初始向量进行编码组合,得到与所述至少两个样本初始向量分别对应的样本语义向量;
根据至少两个样本语义向量确定所述目标中心文本样本的文本分类结果,将所述目标中心文本样本的文本分类结果确定为所述待处理文本的所述目标文本分类结果。
14.一种计算机设备,其特征在于,包括:处理器、存储器以及网络接口;
所述处理器与所述存储器、所述网络接口相连,其中,所述网络接口用于提供数据通信功能,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,以执行权利要求1至13中任一项所述方法的步骤。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时,执行权利要求1至13中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010646654.7A CN111680161A (zh) | 2020-07-07 | 2020-07-07 | 一种文本处理方法、设备以及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010646654.7A CN111680161A (zh) | 2020-07-07 | 2020-07-07 | 一种文本处理方法、设备以及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111680161A true CN111680161A (zh) | 2020-09-18 |
Family
ID=72457143
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010646654.7A Pending CN111680161A (zh) | 2020-07-07 | 2020-07-07 | 一种文本处理方法、设备以及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111680161A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112163145A (zh) * | 2020-10-09 | 2021-01-01 | 杭州安恒信息技术股份有限公司 | 基于编辑距离与余弦夹角的网站检索方法、装置及设备 |
CN112835798A (zh) * | 2021-02-03 | 2021-05-25 | 广州虎牙科技有限公司 | 聚类学习方法、测试步骤聚类方法及相关装置 |
WO2023272850A1 (zh) * | 2021-06-29 | 2023-01-05 | 未鲲(上海)科技服务有限公司 | 基于决策树的产品匹配方法、装置、设备及存储介质 |
-
2020
- 2020-07-07 CN CN202010646654.7A patent/CN111680161A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112163145A (zh) * | 2020-10-09 | 2021-01-01 | 杭州安恒信息技术股份有限公司 | 基于编辑距离与余弦夹角的网站检索方法、装置及设备 |
CN112163145B (zh) * | 2020-10-09 | 2024-01-30 | 杭州安恒信息技术股份有限公司 | 基于编辑距离与余弦夹角的网站检索方法、装置及设备 |
CN112835798A (zh) * | 2021-02-03 | 2021-05-25 | 广州虎牙科技有限公司 | 聚类学习方法、测试步骤聚类方法及相关装置 |
CN112835798B (zh) * | 2021-02-03 | 2024-02-20 | 广州虎牙科技有限公司 | 聚类学习方法、测试步骤聚类方法及相关装置 |
WO2023272850A1 (zh) * | 2021-06-29 | 2023-01-05 | 未鲲(上海)科技服务有限公司 | 基于决策树的产品匹配方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110347835B (zh) | 文本聚类方法、电子装置及存储介质 | |
AU2017355420B2 (en) | Systems and methods for event detection and clustering | |
CN111368996A (zh) | 可传递自然语言表示的重新训练投影网络 | |
WO2015185019A1 (zh) | 一种基于语义理解的表情输入方法和装置 | |
Suleiman et al. | SMS spam detection using H2O framework | |
CN111291195B (zh) | 一种数据处理方法、装置、终端及可读存储介质 | |
CN111680161A (zh) | 一种文本处理方法、设备以及计算机可读存储介质 | |
Merugu et al. | Text message classification using supervised machine learning algorithms | |
CN113095080B (zh) | 基于主题的语义识别方法、装置、电子设备和存储介质 | |
CN107239447B (zh) | 垃圾信息识别方法及装置、系统 | |
Cao et al. | Generative steganography based on long readable text generation | |
CN111159409A (zh) | 基于人工智能的文本分类方法、装置、设备、介质 | |
Bahgat et al. | An e-mail filtering approach using classification techniques | |
CN113553510A (zh) | 一种文本信息推荐方法、装置及可读介质 | |
WO2019227629A1 (zh) | 文本信息的生成方法、装置、计算机设备及存储介质 | |
Athar et al. | Sentimental analysis of movie reviews using soft voting ensemble-based machine learning | |
CN113221553A (zh) | 一种文本处理方法、装置、设备以及可读存储介质 | |
CN111581377B (zh) | 文本分类方法、装置、存储介质及计算机设备 | |
Almahdawi et al. | Emotion recognition in text using PPM | |
Bhowmik et al. | Robust multi-domain descriptive text classification leveraging conventional and hybrid deep learning models | |
CN111555960A (zh) | 信息生成的方法 | |
Vikas et al. | User Gender Classification Based on Twitter Profile Using Machine Learning | |
Rahman et al. | Towards a framework for acquisition and analysis of speeches to identify suspicious contents through machine learning | |
CN115205085A (zh) | 通信地址联想方法及其装置、设备、介质、产品 | |
Nisha et al. | Deep KNN Based Text Classification for Cyberbullying Tweet Detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |