CN109902170A - 一种文本的分类方法、装置及电子设备 - Google Patents

一种文本的分类方法、装置及电子设备 Download PDF

Info

Publication number
CN109902170A
CN109902170A CN201910090056.3A CN201910090056A CN109902170A CN 109902170 A CN109902170 A CN 109902170A CN 201910090056 A CN201910090056 A CN 201910090056A CN 109902170 A CN109902170 A CN 109902170A
Authority
CN
China
Prior art keywords
classification
business
feature vector
semantic
semantic classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910090056.3A
Other languages
English (en)
Other versions
CN109902170B (zh
Inventor
刘佳
崔恒斌
顾江涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910090056.3A priority Critical patent/CN109902170B/zh
Publication of CN109902170A publication Critical patent/CN109902170A/zh
Application granted granted Critical
Publication of CN109902170B publication Critical patent/CN109902170B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本申请公开了一种文本的分类方法、装置及电子设备。该方法包括:获取预测文本的特征向量;基于所述预测文本的特征向量与语义分类的特征向量之间的向量距离,从所述语义分类中确定所述预测文本对应的目标语义分类,其中,所述语义分类是基于业务分类的语料在各自的业务分类内进行聚类得到的;从所述业务分类中,确定所述目标语义分类对应的业务分类为所述预测文本的目标业务分类。

Description

一种文本的分类方法、装置及电子设备
技术领域
本申请涉及计算机技术领域,尤其涉及一种文本的分类方法、装置及电子设备。
背景技术
随着人工智能技术的快速发展和普及,很多业务的客服人员,都逐渐由智能机器人替代。目前,智能机器人对用户的语音类或者文字类的文本进行分类,往往是按照语义和业务逻辑,预先将多个样本文本进行归类,比如将多个样本文本归为至少一个业务类别,并将每个业务类别的文本通过一个语义特征向量来表示。在对新输入的预测文本进行归类时,则可以基于预测文本的语义特征向量和各个业务类别的文本对应的语义特征向量,来对预测文本进行归类。
若同一业务类别中包含的多个文本的语义均类似,则对应的语义特征向量则能够准确地表征该类别文本的语义特征,而若某一业务类别中包含的多个文本的语义并不完全类似,即包含有多个语义,则对应的语义特征向量则难以准确表征该业务类别的文本的语义特征。
在上述场景中,若某些业务类别中包含的多个文本对应于两种或两种以上的语义时,那么在对输入的预测文本进行归类时,也就不能基于该预测文本的语义特征向量和各个业务类别的文本对应的语义特征向量,来准确地将该预测文本进行归类。
因此,亟需一种文本的分类方法,用于解决现有技术中的文本分类方法不够准确的问题。
发明内容
本申请实施例提供了一种文本的分类方法、装置及电子设备,以解决现有技术中文本分类方法不够准确的问题。
为解决上述技术问题,本申请实施例是这样实现的:
第一方面,提出了一种文本的分类方法,包括:
获取预测文本的特征向量;
基于所述预测文本的特征向量与语义分类的特征向量之间的向量距离,从所述语义分类中确定所述预测文本对应的目标语义分类,其中,所述语义分类是基于业务分类的语料在各自的业务分类内进行聚类得到的;
从所述业务分类中,确定所述目标语义分类对应的业务分类为所述预测文本的目标业务分类。
第二方面,提出了一种文本的分类装置,包括:
获取单元,获取预测文本的特征向量;
第一确定单元,基于所述预测文本的特征向量与语义分类的特征向量之间的向量距离,从所述语义分类中确定所述预测文本对应的目标语义分类,其中,所述语义分类是基于业务分类的语料在各自的业务分类内进行聚类得到的;
第二确定单元,从所述业务分类中,确定所述目标语义分类对应的业务分类为所述预测文本的目标业务分类。
第三方面,提出了一种电子设备,该电子设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
获取预测文本的特征向量;
基于所述预测文本的特征向量与语义分类的特征向量之间的向量距离,从所述语义分类中确定所述预测文本对应的目标语义分类,其中,所述语义分类是基于业务分类的语料在各自的业务分类内进行聚类得到的;
从所述业务分类中,确定所述目标语义分类对应的业务分类为所述预测文本的目标业务分类。
第四方面,提出了一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
获取预测文本的特征向量;
基于所述预测文本的特征向量与语义分类的特征向量之间的向量距离,从所述语义分类中确定所述预测文本对应的目标语义分类,其中,所述语义分类是基于业务分类的语料在各自的业务分类内进行聚类得到的;
从所述业务分类中,确定所述目标语义分类对应的业务分类为所述预测文本的目标业务分类。
本申请实施例采用上述技术方案至少可以达到下述技术效果:
在对预测文本进行分类时,由于能够获取预测文本的特征向量,并基于该预测文本的特征向量与语义分类的特征向量之间的向量距离,从该语义分类中确定预测文本对应的目标语义分类,其中,语义分类是基于业务分类的语料在各自的业务分类内进行聚类得到的,最后从业务分类中,确定目标语义分类对应的业务分类为预测文本的目标业务分类。由于语义分类是基于业务分类后的语料再次聚类得到的,这样确定的预测文本的特征向量与语义分类的特征向量之间的向量距离则更加准确,从而能够准确地确定预测文本所归属的目标语义分类,再基于目标语义分类对应的业务分类便可以准确确定出预测文本的目标业务分类,避免了业务分类中包含多个语义分类而导致对预测文本的分类不准确的问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本说明书一个实施例提供的一种文本的分类方法的实现流程示意图;
图2为本说明书一个实施例提供的文本的分类方法中对业务分类的语料进行聚类得到语义分类的实现流程示意图;
图3为本说明书一个实施例提供的文本的分类装置的结构示意图;
图4为本说明书一个实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
以下结合附图,详细说明本申请各实施例提供的技术方案。
为解决解决现有技术中文本分类方法不够准确的问题,本说明书实施例提供一种文本的分类方法。本说明书实施例提供的文本的分类方法的执行主体可以但不限于服务器、个人电脑等能够被配置为执行本发明实施例提供的该方法终端中的至少一种。
为便于描述,下文以该方法的执行主体为能够执行该方法的服务器为例,对该方法的实施方式进行介绍。可以理解,该方法的执行主体为服务器只是一种示例性的说明,并不应理解为对该方法的限定。
具体地,本说明书一个或多个实施例提供的一种文本的分类方法的实现流程示意图如图1所示,包括:
步骤110,获取预测文本的特征向量;
如背景技术中所述,随着人工智能技术的快速发展,为了减小客服人员的工作量,提高其工作效率,越来越多业务的客服人员也逐渐由智能机器人替代,比如购物应用中有关投诉交易的客服人员、店铺的客服人员、保险咨询业务的客服、等等,都逐渐由智能机器人替代,而人工客服只需要解决智能机器人识别错误或者之前没有遇到的问题内容。
应理解,为了快速识别用户输入的问题,即预测文本的语义,可以基于用户输入的预测文本,获取该预测文本的特征向量,该特征向量用于表征该预测文本的语义特征,具体可以用一个多维向量来表示。
步骤120,基于预测文本的特征向量与语义分类的特征向量之间的向量距离,从语义分类中确定预测文本对应的目标语义分类,其中,语义分类是基于业务分类的语料在各自的业务分类内进行聚类得到的;
可选地,为了避免业务分类中的某个业务分类的语料包含多个语义,而影响对预测文本的准确分类。比如在对未按时还款的用户进行针对未按时还款原因的电话访问时,在智能机器人询问未按时还款的用户“您的借款已逾期,请问什么时候还款?”,有些用户可能会回答“下个月可以还款”,而有些用户则可能会回答“目前没有钱来还款”。
基于还款业务的业务逻辑,智能机器人则可以预先将这两种回答都归为“无法还款”的业务分类中,而由于“下个月可以还款”和“目前没有钱来还款”这两个语料文本的语义并不相同,那么在实际获取了未按时还款的用户的回答,即预测文本之后,则难以准确确定出能够表征该“无法还款”的业务分类的语料的特征向量。进而,也就难以基于预测文本的特征向量与业务分类的特征向量之间的向量距离,来从业务分类中确定该预测文本对应的目标业务分类。
本说明书一个或多个实施例为了解决这一问题,在获取了基于业务逻辑和语义的业务分类之后,还可以针对每个业务分类的语料中的语义进行聚类,以获取语义分类,使得一个语义分类的语料包含一种语义。那么,语义分类是基于业务分类的语料在各自的业务分类内进行聚类得到的,包括:
语义分类是基于业务分类的语料中的语义在各自的业务分类内进行聚类得到的,一个语义分类的语料包含一种语义。
继续以上述“无法还款”的业务分类为例,该“无法还款”的业务分类的多个语料中包含有“下个月可以还款”和“目前没有钱来还款”两种语义,为了实现准确对预测文本进行分类,可以基于该“无法还款”的业务分类的多个语料的语义,在其业务分类内进行聚类,以得到两个语义分类:“可延迟还款”语义分类和“无能力还款”语义分类。
其中,基于业务分类的语料中的语义在各自的业务分类内进行聚类,具体可以通过多种聚类方式,比如k-means或者基于密度的聚类方法等。
如图2所示,为本说明书一个或多个实施例提供的文本的分类方法中对业务分类的语料进行聚类得到语义分类的实现流程示意图。在图2中,有M个业务分类,即业务分类C1、业务分类C2、……、业务分类Cm,其中,基于业务分类C1的语料中的语义进行聚类得到语义分类C1_1,基于业务分类C2的语料中的语义进行聚类得到语义分类C2_1、语义分类C2_2和语义分类C2_3,……,基于业务分类Cm的语料中的语义进行聚类得到语义分类Cm_1和语义分类Cm_2。
可选地,为了准确地获取语义分类的特征向量,该语义分类的特征向量可以是基于对应的语义分类内的语料训练得到的。
可选地,由于语义分类是基于业务分类的语料在各自的业务分类内进行聚类得到的,那么各个语义分类中的语料样本容量相较于业务分类中的语料样本容量,则有所减小,可能减半甚至更少。在实际应用中,为了准确地获取语义分类的特征向量,则可以通过原型网络(英文全称为Prototypical Networks),这一针对小样本分类的训练方法来获取语义分类的特征向量。即,语义分类的特征向量可以是基于对应的语义分类内的语料通过原型网络训练得到的。
假设语义分类包括语义分类1、语义分类2、…、语义分类N,那么通过PrototypicalNetworks获取各个语义分类的特征向量,也就是通过Prototypical Networks分别对语义分类1、语义分类2、…、语义分类N进行训练,分别得到语义分类1、语义分类2、…、语义分类N的特征向量。在实际应用中,通过Prototypical Networks获取语义分类1、语义分类2、…、语义分类N的特征向量,也就是通过Prototypical Networks获取语义分类1、语义分类2、…、语义分类N的类簇中心,即能够表征语义分类1、语义分类2、…、语义分类N的语义特征的多维向量。
继续以图2为例,在分别基于业务分类C1、业务分类C2、……、业务分类Cm的语料中的语义在各自的业务分类内进行聚类,得到语义分类C1_1、语义分类C2_1、语义分类C2_2、语义分类C2_3、……、语义分类Cm_1和语义分类Cm_2之后,还可以通过PrototypicalNetworks分别获取语义分类C1_1、语义分类C2_1、语义分类C2_2、语义分类C2_3、……、语义分类Cm_1和语义分类Cm_2的特征向量。即,图2所示的语义分类C1_1的特征向量V1、语义分类C2_1的特征向量V2、语义分类C2_2的特征向量V3、语义分类C2_3的特征向量V4、……、语义分类Cm_1的特征向量Vn-1和语义分类Cm_2的特征向量Vn。
可选地,为了准确获取与预测文本最接近的语义分类,可以通过计算预测文本的特征向量与语义分类的特征向量之间的向量距离来确定,也就是说,可以从语义分类的特征向量中,选取与预测文本的特征向量之间的向量距离最短的特征向量,并将该特征向量对应的语义分类确定为预测文本的目标语义分类。那么,基于预测文本的特征向量与语义分类的特征向量之间的向量距离,确定预测文本对应的目标语义分类,包括:
基于预测文本的特征向量与语义分类的特征向量之间的向量距离,从语义分类的特征向量中,确定与预测文本的特征向量之间的向量距离最小的特征向量;
将距离最小的特征向量对应的语义分类,确定为预测文本对应的目标语义分类。
以图2所示为例,假设语义分类包括语义分类C1_1、语义分类C2_1、语义分类C2_2、语义分类C2_3、……、语义分类Cm_1和语义分类Cm_2,且这些语义分类的特征向量为特征向量V1、特征向量V2、特征向量V3、特征向量V4、……、特征向量Vn-1和特征向量Vn。那么,在确定预测文本的所属业务分类时,则可以分别确定该预测文本的特征向量Vx与特征向量V1、特征向量V2、特征向量V3、特征向量V4、……、特征向量Vn-1和特征向量Vn之间的向量距离,假设特征向量Vx与特征向量V1的向量距离为D1、特征向量Vx与特征向量V2的向量距离为D2、特征向量Vx与特征向量V3的向量距离为D3、特征向量Vx与特征向量V4的向量距离为D4、……、特征向量Vx与特征向量Vn-1的向量距离为Dn-1、特征向量Vx与特征向量Vn的向量距离为Dn。
那么,可以基于向量距离D1、向量距离D2、向量距离D3、向量距离D4、……、向量距离Dn-1、向量距离Dn由大到小的顺序进行排序,并从中选取最小的向量距离,假设是向量距离D4,其对应的特征向量为V4,而特征向量V4为语义分类C2_3的特征向量,因此,可以确定预测文本所属的目标语义分类为语义分类C2_3。
可选地,基于预测文本的特征向量与语义分类的特征向量之间的向量距离,从语义分类中确定预测文本对应的目标语义分类,包括:
基于预测文本的特征向量与语义分类的特征向量之间的欧式距离,从语义分类中确定预测文本对应的目标语义分类。
步骤130,从业务分类中,确定目标语义分类对应的业务分类为预测文本的目标业务分类。
可选地,由于语义分类是基于业务分类的语料在各自的业务分类内进行聚类得到的,因此,语义分类与业务分类之间也就存在对应关系,即一个或多个语义分类可以对应于一个业务分类,那么从业务分类中,确定目标语义分类对应的业务分类为预测文本的目标业务分类,包括:
获取语义分类与业务分类之间的对应关系;
基于语义分类与业务分类之间的对应关系,从业务分类中,确定目标语义分类对应的业务分类为预测文本的目标业务分类。
继续以图2为例,在图2中,由于语义分类C1_1、语义分类C2_1、语义分类C2_2、语义分类C2_3、……、语义分类Cm_1和语义分类Cm_2是基于业务分类C1、业务分类C2、……、业务分类Cm的语料在各自的业务分类内进行聚类得到的,因此,语义分类C1_1、语义分类C2_1、语义分类C2_2、语义分类C2_3、……、语义分类Cm_1和语义分类Cm_2与业务分类C1、业务分类C2、……、业务分类Cm之间也就存在对应关系,即一个或多个语义分类可以对应于一个业务分类。
由图2可知,业务分类C1与语义分类C1_1之间存在对应关系、业务分类C2与语义分类C2_1、语义分类C2_2、语义分类C2_3之间存在对应关系,也就是说业务分类C2对应于三个语义分类(即语义分类C2_1、语义分类C2_2和语义分类C2_3)、……、业务分类Cm与语义分类Cm_1和语义分类Cm_2之间存在对应关系,也就是说业务分类Cm对应于两个语义分类(即语义分类Cm_1和语义分类Cm_2)。
那么,在确定了预测文本所属的目标语义分类为语义分类C2_3之后,由于语义分类C2_3是基于业务分类C2的语料中的语义在业务分类C2内进行聚类得到的,那么可以基于语义分类C2_3与业务分类C2之间的对应关系来确定预测文本所属的目标业务分类为业务分类C2。
在对预测文本进行分类时,由于能够获取预测文本的特征向量,并基于该预测文本的特征向量与语义分类的特征向量之间的向量距离,从该语义分类中确定预测文本对应的目标语义分类,其中,语义分类是基于业务分类的语料在各自的业务分类内进行聚类得到的,最后从业务分类中,确定目标语义分类对应的业务分类为预测文本的目标业务分类。由于语义分类是基于业务分类后的语料再次聚类得到的,这样确定的预测文本的特征向量与语义分类的特征向量之间的向量距离则更加准确,从而能够准确地确定预测文本所归属的目标语义分类,再基于目标语义分类对应的业务分类便可以准确确定出预测文本的目标业务分类,避免了业务分类中包含多个语义分类而导致对预测文本的分类不准确的问题。
图3是本说明书提供的文本的分类装置300的结构示意图。请参考图3,在一种软件实施方式中,文本的分类装置300可包括获取单元301、第一确定单元302和第二确定单元303,其中:
获取单元301,获取预测文本的特征向量;
第一确定单元302,基于所述预测文本的特征向量与语义分类的特征向量之间的向量距离,从所述语义分类中确定所述预测文本对应的目标语义分类,其中,所述语义分类是基于业务分类的语料在各自的业务分类内进行聚类得到的;
第二确定单元303,从所述业务分类中,确定所述目标语义分类对应的业务分类为所述预测文本的目标业务分类。
在对预测文本进行分类时,由于获取单元301能够获取预测文本的特征向量,第一确定单元302能够基于该预测文本的特征向量与语义分类的特征向量之间的向量距离,从该语义分类中确定预测文本对应的目标语义分类,其中,语义分类是基于业务分类的语料在各自的业务分类内进行聚类得到的,最后第二确定单元303可以从业务分类中,确定目标语义分类对应的业务分类为预测文本的目标业务分类。由于语义分类是基于业务分类后的语料再次聚类得到的,这样确定的预测文本的特征向量与语义分类的特征向量之间的向量距离则更加准确,从而能够准确地确定预测文本所归属的目标语义分类,再基于目标语义分类对应的业务分类便可以准确确定出预测文本的目标业务分类,避免了业务分类中包含多个语义分类而导致对预测文本的分类不准确的问题。
可选地,在一种实施方式中,
所述语义分类的特征向量是基于对应的语义分类内的语料训练得到的。
可选地,在一种实施方式中,
所述语义分类的特征向量是基于对应的语义分类内的语料通过原型网络训练得到的。
可选地,在一种实施方式中,所述第一确定单元302,用于:
基于所述预测文本的特征向量与所述语义分类的特征向量之间的向量距离,从所述语义分类的特征向量中,确定与所述预测文本的特征向量之间的向量距离最小的特征向量;
将所述距离最小的特征向量对应的语义分类,确定为所述预测文本对应的目标语义分类。
可选地,在一种实施方式中,所述语义分类是基于业务分类的语料在各自的业务分类内进行聚类得到的,包括:
所述语义分类是基于所述业务分类的语料中的语义在各自的业务分类内进行聚类得到的,一个所述语义分类的语料包含一种语义。
可选地,在一种实施方式中,所述第二确定单元303,用于:
获取所述语义分类与所述业务分类之间的对应关系;
基于所述语义分类与所述业务分类之间的对应关系,从所述业务分类中,确定所述目标语义分类对应的业务分类为所述预测文本的目标业务分类。
可选地,在一种实施方式中,所述第一确定单元302,用于:
基于所述预测文本的特征向量与语义分类的特征向量之间的欧式距离,从所述语义分类中确定所述预测文本对应的目标语义分类。
文本的分类装置300能够实现图1~图2的方法实施例的方法,具体可参考图1~图2所示实施例的文本的分类方法,不再赘述。
图4是本说明书的一个实施例提供的电子设备的结构示意图。请参考图4,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成文本的分类装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
获取预测文本的特征向量;
基于所述预测文本的特征向量与语义分类的特征向量之间的向量距离,从所述语义分类中确定所述预测文本对应的目标语义分类,其中,所述语义分类是基于业务分类的语料在各自的业务分类内进行聚类得到的;
从所述业务分类中,确定所述目标语义分类对应的业务分类为所述预测文本的目标业务分类。
在对预测文本进行分类时,由于能够获取预测文本的特征向量,并基于该预测文本的特征向量与语义分类的特征向量之间的向量距离,从该语义分类中确定预测文本对应的目标语义分类,其中,语义分类是基于业务分类的语料在各自的业务分类内进行聚类得到的,最后从业务分类中,确定目标语义分类对应的业务分类为预测文本的目标业务分类。由于语义分类是基于业务分类后的语料再次聚类得到的,这样确定的预测文本的特征向量与语义分类的特征向量之间的向量距离则更加准确,从而能够准确地确定预测文本所归属的目标语义分类,再基于目标语义分类对应的业务分类便可以准确确定出预测文本的目标业务分类,避免了业务分类中包含多个语义分类而导致对预测文本的分类不准确的问题。
上述如本说明书图1所示实施例揭示的文本的分类方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书一个或多个实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书一个或多个实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
该电子设备还可执行图1的文本的分类方法,本说明书在此不再赘述。
当然,除了软件实现方式之外,本说明书的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
总之,以上所述仅为本说明书的较佳实施例而已,并非用于限定本说明书的保护范围。凡在本说明书一个或多个实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例的保护范围之内。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

Claims (10)

1.一种文本的分类方法,包括:
获取预测文本的特征向量;
基于所述预测文本的特征向量与语义分类的特征向量之间的向量距离,从所述语义分类中确定所述预测文本对应的目标语义分类,其中,所述语义分类是基于业务分类的语料在各自的业务分类内进行聚类得到的;
从所述业务分类中,确定所述目标语义分类对应的业务分类为所述预测文本的目标业务分类。
2.如权利要求1所述的方法,
所述语义分类的特征向量是基于对应的语义分类内的语料训练得到的。
3.如权利要求2所述的方法,
所述语义分类的特征向量是基于对应的语义分类内的语料通过原型网络训练得到的。
4.如权利要求1所述的方法,基于所述预测文本的特征向量与语义分类的特征向量之间的向量距离,确定所述预测文本对应的目标语义分类,包括:
基于所述预测文本的特征向量与所述语义分类的特征向量之间的向量距离,从所述语义分类的特征向量中,确定与所述预测文本的特征向量之间的向量距离最小的特征向量;
将所述距离最小的特征向量对应的语义分类,确定为所述预测文本对应的目标语义分类。
5.如权利要求1所述的方法,所述语义分类是基于业务分类的语料在各自的业务分类内进行聚类得到的,包括:
所述语义分类是基于所述业务分类的语料中的语义在各自的业务分类内进行聚类得到的,一个所述语义分类的语料包含一种语义。
6.如权利要求1所述的方法,从所述业务分类中,确定所述目标语义分类对应的业务分类为所述预测文本的目标业务分类,包括:
获取所述语义分类与所述业务分类之间的对应关系;
基于所述语义分类与所述业务分类之间的对应关系,从所述业务分类中,确定所述目标语义分类对应的业务分类为所述预测文本的目标业务分类。
7.如权利要求1~6中任一所述的方法,基于所述预测文本的特征向量与语义分类的特征向量之间的向量距离,从所述语义分类中确定所述预测文本对应的目标语义分类,包括:
基于所述预测文本的特征向量与语义分类的特征向量之间的欧式距离,从所述语义分类中确定所述预测文本对应的目标语义分类。
8.一种文本的分类装置,包括:
获取单元,获取预测文本的特征向量;
第一确定单元,基于所述预测文本的特征向量与语义分类的特征向量之间的向量距离,从所述语义分类中确定所述预测文本对应的目标语义分类,其中,所述语义分类是基于业务分类的语料在各自的业务分类内进行聚类得到的;
第二确定单元,从所述业务分类中,确定所述目标语义分类对应的业务分类为所述预测文本的目标业务分类。
9.一种电子设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
获取预测文本的特征向量;
基于所述预测文本的特征向量与语义分类的特征向量之间的向量距离,从所述语义分类中确定所述预测文本对应的目标语义分类,其中,所述语义分类是基于业务分类的语料在各自的业务分类内进行聚类得到的;
从所述业务分类中,确定所述目标语义分类对应的业务分类为所述预测文本的目标业务分类。
10.一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
获取预测文本的特征向量;
基于所述预测文本的特征向量与语义分类的特征向量之间的向量距离,从所述语义分类中确定所述预测文本对应的目标语义分类,其中,所述语义分类是基于业务分类的语料在各自的业务分类内进行聚类得到的;
从所述业务分类中,确定所述目标语义分类对应的业务分类为所述预测文本的目标业务分类。
CN201910090056.3A 2019-01-30 2019-01-30 一种文本的分类方法、装置及电子设备 Active CN109902170B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910090056.3A CN109902170B (zh) 2019-01-30 2019-01-30 一种文本的分类方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910090056.3A CN109902170B (zh) 2019-01-30 2019-01-30 一种文本的分类方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN109902170A true CN109902170A (zh) 2019-06-18
CN109902170B CN109902170B (zh) 2023-08-22

Family

ID=66944454

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910090056.3A Active CN109902170B (zh) 2019-01-30 2019-01-30 一种文本的分类方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN109902170B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113032534A (zh) * 2019-12-24 2021-06-25 中国移动通信集团四川有限公司 对话文本的分类方法和电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107436875A (zh) * 2016-05-25 2017-12-05 华为技术有限公司 文本分类方法及装置
CN107992596A (zh) * 2017-12-12 2018-05-04 百度在线网络技术(北京)有限公司 一种文本聚类方法、装置、服务器和存储介质
CN108597519A (zh) * 2018-04-04 2018-09-28 百度在线网络技术(北京)有限公司 一种话单分类方法、装置、服务器和存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107436875A (zh) * 2016-05-25 2017-12-05 华为技术有限公司 文本分类方法及装置
CN107992596A (zh) * 2017-12-12 2018-05-04 百度在线网络技术(北京)有限公司 一种文本聚类方法、装置、服务器和存储介质
CN108597519A (zh) * 2018-04-04 2018-09-28 百度在线网络技术(北京)有限公司 一种话单分类方法、装置、服务器和存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113032534A (zh) * 2019-12-24 2021-06-25 中国移动通信集团四川有限公司 对话文本的分类方法和电子设备

Also Published As

Publication number Publication date
CN109902170B (zh) 2023-08-22

Similar Documents

Publication Publication Date Title
US11488055B2 (en) Training corpus refinement and incremental updating
TWI696194B (zh) 投訴舉報類別的排序方法和裝置
CN109544166A (zh) 一种风险识别方法和装置
CN108510313A (zh) 一种信息转化率的预测、信息推荐方法和装置
CN108563680A (zh) 资源推荐方法及装置
CN110119860B (zh) 一种垃圾账号检测方法、装置以及设备
CN109034583A (zh) 异常交易识别方法、装置及电子设备
CN108550046A (zh) 一种资源和营销推荐方法、装置及电子设备
CN110489449A (zh) 一种图表推荐方法、装置和电子设备
CN110392155B (zh) 通知消息的显示、处理方法、装置及设备
CN110503435B (zh) 基于区块链的交易预警方法、装置及设备
CN109598414A (zh) 风险评估模型训练、风险评估方法、装置及电子设备
CN109408522A (zh) 一种用户特征数据的更新方法和装置
CN109271611A (zh) 一种数据校验方法、装置及电子设备
CN111582872A (zh) 异常账号检测模型训练、异常账号检测方法、装置及设备
CN109903166B (zh) 一种数据风险预测方法、装置及设备
CN109903140A (zh) 一种信用服务推荐方法、装置及设备
CN111275071B (zh) 预测模型训练、预测方法、装置及电子设备
CN108492112A (zh) 判定虚假资源转移及虚假交易的方法、装置及电子设备
CN108446738A (zh) 一种聚类方法、装置及电子设备
CN109902170A (zh) 一种文本的分类方法、装置及电子设备
CN110334936B (zh) 一种信贷资质评分模型的构建方法、装置和设备
CN110020780A (zh) 信息输出的方法、装置和电子设备
CN109409875A (zh) 一种账单校验方法、装置及电子设备
CN115660105A (zh) 一种模型训练的方法、业务风控的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200925

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200925

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

GR01 Patent grant
GR01 Patent grant