CN112988954B - 文本分类方法、装置、电子设备和计算机可读存储介质 - Google Patents

文本分类方法、装置、电子设备和计算机可读存储介质 Download PDF

Info

Publication number
CN112988954B
CN112988954B CN202110534726.3A CN202110534726A CN112988954B CN 112988954 B CN112988954 B CN 112988954B CN 202110534726 A CN202110534726 A CN 202110534726A CN 112988954 B CN112988954 B CN 112988954B
Authority
CN
China
Prior art keywords
vector
text
short text
classified
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110534726.3A
Other languages
English (en)
Other versions
CN112988954A (zh
Inventor
陈裕通
刘新春
刘增健
刘胜宇
蒋道宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110534726.3A priority Critical patent/CN112988954B/zh
Publication of CN112988954A publication Critical patent/CN112988954A/zh
Application granted granted Critical
Publication of CN112988954B publication Critical patent/CN112988954B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种文本分类方法、装置、电子设备和计算机可读存储介质;本发明实施例在获取分类短文本后,采用云平台对分类短文本进行特征提取,得到分类短文本的文本特征,然后,将分类短文本的文本特征转换为特征向量,并构建分类短文本的向量索引,然后,获取用于反映短文本分类结果的预设特征向量簇集合,并基于分类短文本的特征向量与预设特征向量簇集合中特征向量簇的中心向量的相似度,将分类短文本的向量索引设置在对应的特征向量簇中,以对分类短文本进行分类;该方案可以提升文本分类的分类效率。

Description

文本分类方法、装置、电子设备和计算机可读存储介质
技术领域
本发明涉及通信技术领域,具体涉及一种文本分类方法、装置、电子设备和计算机可读存储介质。
背景技术
近年来,随着互联网技术的飞速发展,网络上形成的海量的信息,比如,海量的文本等信息,往往需要对这些海量的文本进行分类。现有的文本处理方法往往只是基于文本特征之间的相似度对文本进行分类。
在对现有技术的研究和实践过程中,本发明的发明人发现对于文本分类方法来说,基于文本相似度对文本进行分类时,在海量文本中找到每一个文本的相似文本需要巨大的计算开销,使得计算时间大大增减,因此,会导致文本分类的分类效率大大降低。
发明内容
本发明实施例提供一种文本分类方法、装置、电子设备和计算机可读存储介质,可以提高文本分类的分类效率。
一种文本分类方法,包括:
获取分类短文本;
对所述分类短文本进行特征提取,得到所述分类短文本的文本特征;
将所述分类短文本的文本特征转换为特征向量,并构建所述分类短文本的向量索引;
获取用于反映短文本分类结果的预设特征向量簇集合,基于所述分类短文本的特征向量与预设特征向量簇集合中特征向量簇的中心向量的相似度,将所述分类短文本的向量索引设置在对应的特征向量簇中,以对所述分类短文本进行分类。
相应的,本发明实施例提供一种文本分类装置,包括:
获取单元,用于获取分类短文本;
提取单元,用于对所述分类短文本进行特征提取,得到所述分类短文本的文本特征;
转换单元,用于将所述分类短文本的文本特征转换为特征向量,并构建所述分类短文本的向量索引;
分类单元,用于获取用于反映短文本分类结果的预设特征向量簇集合,基于所述分类短文本的特征向量与预设特征向量簇集合中特征向量簇的中心向量的相似度,将所述分类短文本的向量索引设置在对应的特征向量簇中,以对所述分类短文本进行分类。
可选的,在一些实施例中,所述分类单元,可以包括:
获取子单元,用于获取短文本样本集合,并对所述短文本样本集合中的短文本进行特征提取,得到每一短文本样本的文本特征;
生成子单元,用于根据所述短文本样本的文本特征的相似度,生成所述短文本样本的样本特征向量,并构建每一所述短文本样本的样本向量索引;
分类子单元,用于基于所述短文本样本的样本特征向量的相似度,对所述样本特征向量进行分类,并采用所述样本特征向量的样本向量索引构建预设特征向量簇集合。
可选的,在一些实施例中,所述分类单元,还可以包括:
计算子单元,用于计算所述分类短文本的特征向量与预设特征向量簇集合中特征向量簇的中心向量的相似度,得到向量相似度;
筛选子单元,用于当所述向量相似度超过预设相似度阈值时,在所述预设特征向量簇集合中筛选出所述分类短文本对应的目标特征向量簇,并将所述分类短文本的向量索引设置在所述目标特征向量簇中,以对所述分类短文本进行分类;
创建子单元,用于当所述向量相似度未超过所述预设相似度阈值时,创建目标特征向量簇,将所述目标特征向量簇添加至所述预设特征向量簇集合,并将所述分类短文本的向量索引设置在所述目标特征向量簇中,以对所述分类短文本进行分类。
可选的,在一些实施例中,所述分类单元,具体可以用于将所述分类短文本的向量索引设置于所述目标特征向量簇;获取所述目标特征向量簇中设置的向量索引数量;根据所述向量索引数量和目标特征向量簇中设置的向量索引,确定所述分类短文本的分类结果。
可选的,在一些实施例中,所述分类单元,具体可以用于当所述向量索引数量未超过预设数量阈值时,根据所述目标特征向量簇中设置的向量索引,确定所述分类短文本的分类结果;当所述向量索引数量超过所述预设数量阈值时,对所述目标特征向量簇中的向量索引进行清洗,并根据清洗后的向量索引,确定所述分类短文本的分类结果。
可选的,在一些实施例中,所述分类单元,具体可以用于根据所述目标特征向量簇中的向量索引对应的特征向量,计算所述目标特征向量簇的中心向量;分别计算所述目标特征向量簇中的向量索引对应的特征向量与目标特征向量簇的中心向量之间的相似度,得到每一向量索引对应的目标向量相似度;当所述目标向量相似度超过预设相似度阈值时,将所述目标向量相似度对应的目标向量索引从所述目标特征向量簇中剔除,得到所述目标特征向量簇中清洗后的向量索引。
可选的,在一些实施例中,所述分类单元,具体可以用于将所述目标向量索引对应的特征向量作为分类短文本的特征向量;返回执行所述计算所述分类短文本的特征向量与预设特征向量簇集合中特征向量簇的中心向量的相似度的步骤,直至将所述目标向量索引设置在特征向量簇中为止。
可选的,在一些实施例中,所述分类单元,具体可以用于根据所述分类短文本的分类结果,获取与所述分类短文本为同一类型的目标短文本;基于所述目标短文本和分类短文本构建文本簇,并将所述文本簇内的短文本进行聚合,得到聚合后短文本;将所述聚合后短文本发送至终端,以便所述终端展示所述聚合后文本。
可选的,在一些实施例中,所述分类单元,具体可以用于获取所述聚合后短文本的文本属性信息,并基于所述文本属性信息,计算所述聚合后短文本的展示热度;基于所述展示热度,确定所述聚合后短文本的展示信息;将所述展示信息和聚合后短文本发送至所述终端,以便所述终端根据所述展示信息展示所述聚合后短文本。
此外,本发明实施例还提供一种电子设备,包括处理器和存储器,所述存储器存储有应用程序,所述处理器用于运行所述存储器内的应用程序实现本发明实施例提供的文本分类方法。
此外,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本发明实施例所提供的任一种文本分类方法中的步骤。
本发明实施例在获取分类短文本后,对分类短文本进行特征提取,得到分类短文本的文本特征,然后,将分类短文本的文本特征转换为特征向量,并构建分类短文本的向量索引,然后,获取用于反映短文本分类结果的预设特征向量簇集合,并基于分类短文本的特征向量与预设特征向量簇集合中特征向量簇的中心向量的相似度,将分类短文本的向量索引设置在对应的特征向量簇中,以对分类短文本进行分类;由于该方案可以将分类短文本的文本特征转换为特征向量,并构建分类短文本的向量索引,然后,基于向量索引对分类短文本进行分类,使得分类时间大大降低,因此,可以提升文本分类的分类效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的文本分类方法的场景示意图;
图2是本发明实施例提供的文本分类的流程示意图;
图3是本发明实施例提供的聚合后短文本展示的页面示意图;
图4是本发明实施例提供的聚合后短文本展示的另一页面示意图;
图5是本发明实施例提供的训练预设特征向量转换模型的示意图;
图6是本发明实施例提供的文本分类的另一流程示意图;
图7是本发明实施例提供的构建向量索引的示意图;
图8是本发明实施例提供的使用向量索引进行检索的示意图;
图9是本发明实施例提供的分类短文本的分类过程的示意图;
图10是本发明实施例提供的文本分类装置的结构示意图;
图11是本发明实施例提供的文本分类装置的分类单元的结构示意图;
图12是本发明实施例提供的文本分类装置的分类单元的另一结构示意图;
图13是本发明实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种文本分类方法、装置、电子设备和计算机可读存储介质。其中,该文本分类装置可以集成在电子设备中,该电子设备可以是服务器,也可以是终端等设备。
其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
例如,参见图1,以文本分类装置集成在电子设备中为例,电子设备在获取分类短文本后,对分类短文本进行特征提取,得到分类短文本的文本特征,然后,将分类短文本的文本特征转换为特征向量,并构建分类短文本的向量索引,然后,获取用于反映短文本分类结果的预设特征向量簇集合,并基于分类短文本的特征向量与预设特征向量簇集合中特征向量簇的中心向量的相似度,将分类短文本的向量索引设置在对应的特征向量簇中,以对分类短文本进行分类,进而提升文本分类的分类效率。
其中,本方案的文本分类可以应用于对短文本进行分类,还可以对长文本或混合文本等进行分类。
其中,本申请实施例提供的文本分类方法涉及到人工智能领域的自然语言处理方法。本申请实施例中可以对分类短文本进行特征提取,得到分类短文本的文本特征,并将分类短文本的文本特征转换为特征向量,以对分类短文本进行分类。
其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。其中,人工智能软件技术主要包括计算机视觉技术、机器学习/深度学习等方向。
自然语言处理(Nature Language processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
其中,可以在云平台上对分类短文本进行特征提取,还可以将提取到分类短文本的文本特征存储至云平台。所谓云平台也称云计算平台,是指基于硬件资源和软件资源的服务,提供计算、网络和存储能力。云计算(cloud computing)是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。
作为云计算的基础能力提供商,会建立云计算资源池(简称云平台,一般称为IaaS(Infrastructure as a Service,基础设施即服务)平台,在资源池中部署多种类型的虚拟资源,供外部客户选择使用。云计算资源池中主要包括:计算设备(为虚拟化机器,包含操作系统)、存储设备、网络设备。
按照逻辑功能划分,在IaaS(Infrastructure as a Service,基础设施即服务)层上可以部署PaaS(Platform as a Service,平台即服务)层,PaaS层之上再部署SaaS(Software as a Service,软件即服务)层,也可以直接将SaaS部署在IaaS上。PaaS为软件运行的平台,如数据库、web容器等。SaaS为各式各样的业务软件,如web门户网站、短信群发器等。一般来说,SaaS和PaaS相对于IaaS是上层。
以下分别进行详细说明。需要说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
本实施例将从文本分类装置的角度进行描述,该文本分类装置具体可以集成在电子设备中,该电子设备可以是服务器,也可以是终端等设备;其中,该终端可以包括平板电脑、笔记本电脑、以及个人计算机(PC,Personal Computer)、可穿戴设备、虚拟现实设备或其他可以进行文本分类的智能设备等设备。
一种文本分类方法,包括:
获取分类短文本,对分类短文本进行特征提取,得到分类短文本的文本特征,将分类短文本的文本特征转换为特征向量,并构建分类短文本的向量索引,获取用于反映短文本分类结果的预设特征向量簇集合,并基于分类短文本的特征向量与预设特征向量簇集合中特征向量簇的中心向量的相似度,将分类短文本的向量索引设置在对应的特征向量簇中,以对分类短文本进行分类。
如图2所示,该文本分类方法的具体流程如下:
101、获取分类短文本。
其中,分类短文本可以为需要进行分类操作的短文本,所谓短文本通常是指长度比较短的文本,短文本的长度一般不超过预设字符数量阈值,预设数量阈值通常可以为160个或者其他数量,短文本的形式可以有多种,比如,可以为微博、聊天信息、新闻主题、观点评论、问题文本、手机短信、文献摘要等中的文本信息。
其中,获取分类短文本的方式可以有多种,比如,可以直接获取分类短文本,或者,还可以间接获取分类短文本,具体可以如下:
(1)直接获取分类短文本。
例如,可以直接接收用户通过终端上传的分类短文本,或者,可以在内容数据库中获取需要分类的目标内容,在目标内容中筛选出需要分类的目标文本,识别每个目标文本的字符数量,在目标文本中筛选出字符数量低于预设字符数量阈值的文本,得到分类短文本,或者,还可以需要分类的短文本集合,在短文本集合中筛选出当前进行分类处理的分类短文本。
(2)间接获取分类短文本。
例如,可以接收终端发送的短文本分类请求,该短文本分类请求中可以携带分类短文本的存储地址,根据存储地址,获取分类短文本。
可选的,在获取到分类短文本之后,还可以向终端发送提示信息,以提示终端。
102、对分类短文本进行特征提取,得到分类短文本的文本特征。
例如,采用特征向量转换模型的特征提取网络对分类短文本进行特征提取,得到分类短文本的文本特征,比如,获取分类短文本中每一个文本词的信息,将文本词转换为多个类型的嵌入特征,将多个嵌入特征进行融合,采用特征向量转换模型的特征提取网络对融合后的嵌入特征进行编码,得到分类短文本的文本特征。
其中,特征向量转换模型的特征提取网络可以有多种,比如,可以为双向基于注意力机制的神经网络的编码器(Bidirectional Encoder Representation fromTransformers,BERT),譬如,可以包括BERT网络、RoBERT网络或ALBERT网络等多种编码器网络,或者,还可以为其他类型的特征提取网络。
103、将分类短文本的文本特征转换为特征向量,并构建分类短文本的向量索引。
其中,具体可以如下:
(1)将分类短文本的文本特征转换为特征向量。
其中,特征向量可以为表征分类短文本的语义特征的向量。
其中,将文本特征转换为特征向量的方式可以有多种,具体可以如下:
例如,可以采用特征向量转换模型的转换网络对分类短文本的文本特征进行池化处理,并将池化后的文本特征进行转换为预设维度的向量,得到分类短文本对应的特征向量。
其中,对分类短文本的文本特征进行池化处理的方式可以有多种,比如,可以采用多个池化层对文本特征进行平均池化,得到池化后文本特征,或者,还可以采用多个池化层对文本特征进行最大池化,得到池化后文本特征。
对文本特征进行池化处理之后,便可以将池化后文本特征转换为特征向量,转换的方式可以有多种,比如,可以采用一个全连接层将文本特征压缩至128维或者预设维度,从而得到特征向量,或者,还以采用多个全连接层并行或串行对文本特征进行压缩至128维或者预设维度,从而得到特征向量。
可选的,在得到分类短文本的特征向量之后,还可以采用特征向量转换模型计算特征向量与预设分类短文本的特征向量之间的相似度,比如,计算特征向量与预设分类短文本的特征向量的余弦相似度,从而得到特征向量之间的相似度。
其中,该特征向量转换模型可以根据实际应用的需求进行设置,另外,需要说的是特征向量转换模型可以由维护人员预先进行设置,也可以由文本分类装置自行训练,因此,该文本分类方法还可以包括:
获取短文本样本集合,该短文本样本集合包括至少一组标注相似度的短文本样本对,采用预设特征向量转换模型对短文本样本集合中的短文本样本对的相似度度进行预测,得到预测相似度,根据标注相似度和预测相似度对预设特征向量转换模型进行收敛,得到特征向量转换模型,具体可以如下:
C1、获取短文本样本集合。
其中,短文本样本集合包括至少一组标注相似程度的短文本样本对。
其中,获取短文本样本集合的方式可以有多种,具体可以如下:
例如,可以使用无监督向量模型(如SIF, smooth inverse frequency),对大规模 待聚类短文本
Figure 764767DEST_PATH_IMAGE001
进行无监督短文本生成
Figure 573585DEST_PATH_IMAGE002
。 使用Faiss技术,对C_v构建向量索引Index。对于每个待聚类短文本,使用向量索引召回 TopN个相似短文本及其向量,并随机选取k个短文本,与该短文本组合形成待标注文本对,
Figure 87743DEST_PATH_IMAGE003
。随机从待标注文本对中选择Z1个样本作为 待标注数据。对于一个待分类短文本样本,随机从短文本样本集合中采样一个样本,作为不 相关样本。重复
Figure 686215DEST_PATH_IMAGE004
次。人工对待标注数据进行标注,标注3个等级相似程度,分别为不相关、 相关、同义,并映射成相似度得分{0,0.5,1},从而得到短文本样本集合。
C2、采用预设特征向量转换模型对短文本样本集合中的短文本样本对的相似度度进行预测,得到预测相似度。
例如,采用预设特征向量转换模型对短文本样本集合中的短文本样本对进行语义特征提取,得到短文本样本对中每一短文本样本的文本特征,将文本特征转换为短文本样本对应的特征向量,然后,预测短文本样本对中对应的特征向量之间的相似度,得到短文本样本对的预测相似度。
C3、根据标注相似度和预测相似度对预设特征向量转换模型进行收敛,得到特征向量转换模型。
例如,根据标注相似度和预测相似度,可以确定短文本样本对的损失信息,基于损失信息,对预设特征向量转换模型的参数进行更新,以收敛该预设特征向量转换模型,从而得到特征向量转换模型。
其中,在对预设特征向量转换模型的训练过程中,获取待标注数据时的参数可以 根据实际应用进行设定,比如,可以设置为:topN=20,α=0.9,β=0.85,γ=2,k=3,
Figure 969428DEST_PATH_IMAGE005
,或者,还可以设置为其他数值。
(2)构建分类短文本的向量索引。
其中,向量索引是指通过某种数学量化模型,对向量构建一种时间和空间都比较高效的数据索引结构,使得能够实时地获取跟查询向量尽可能最相近的K个向量。
其中,构建向量索引的方式可以有多种,具体可以如下:
例如,可以根据分类短文本的特征向量与预设特征向量的相似度来构建分类短文本的向量索引,比如,采用向量索引算法根据分类短文本的特征向量与预设特征向量的余弦相似度来确定分类短文本的特征向量与预设特征向量之间的向量距离,根据向量距离,将分类短文本的特征向量进行封装,并将封装好的向量进行预处理,从而得到分类短文本的向量索引。通过向量索引可以快速检索到该特征向量所处的特征向量簇,该特征向量簇中可以包括该特征向量相邻的特征向量。
其中,具体的向量索引算法可以有多种,比如,可以为Faiss(一种检索算法)或者Annoy(一种检索算法)。
104、获取用于反映短文本分类结果的预设特征向量簇集合,基于分类短文本的特征向量与预设特征向量簇集合中特征向量簇的中心向量的相似度,将分类短文本的向量索引设置在对应的特征向量簇中,以对分类短文本进行分类。
其中,对分类短文本进行分类的方式可以有多种,具体可以如下:
S1、获取用于反映短文本分类结果的预设特征向量簇集合。
例如,可以直接获取预设向量簇集合,比如,可以获取分类短文本的文本来源或者其他属性信息,根据文本来源或其他属性信息,在预设特征向量簇数据库中筛选出分类短文本对应的预设特征向量簇集合。
可选的,在获取用于反映短文本分类结果的预设特征向量簇集合之前,还可以构建预设特征向量簇集合,具体可以如下:
获取短文本样本集合,并对短文本样本集合中的短文本进行特征提取,得到每一短文本样本的文本特征,根据短文本样本的样本特征的相似度,生成短文本样本的样本特征向量,并构建每一短文本样本的样本向量索引,基于短文本样本的样本特征向量的相似度,对样本特征向量进行分类,并采用样本特征向量的样本向量索引构建预设特征向量簇集合。
其中,基于短文本样本的样本特征向量的相似度,对样本特征向量进行分类可以有多种,比如,分别计算短文本样本集合中短文本样本的样本特征向量之间的相似度,将相似度超过预设相似度阈值的短文本样本的样本特征向量分为一类,从而完成对样本特征向量进行分类。
在对样本特征向量进行分类之后,便可以构建预设特征向量簇集合,构建预设特征向量簇集合的方式可以有多种,比如,创建特征向量簇集合,将划分为一类的样本特征向量的样本向量索引设置在同一个特征向量簇中,从而就可以得到预设特征向量簇集合。
S2、基于分类短文本的特征向量与预设特征向量簇集合中特征向量簇的中心向量的相似度,将分类短文本的向量索引设置在对应的特征向量簇中,以对分类短文本进行分类。
例如,可以计算分类短文本的特征向量与预设特征向量簇集合中的特征向量簇的中心向量的相似度,得到向量相似度。当向量相似度超过预设相似度阈值时,在预设特征向量簇集合中筛选出分类短文本对应的目标特征向量簇,并将分类短文本的向量索引设置在目标特征向量簇中,以对分类短文本进行分类;当向量相似度未超过预设相似度阈值时,创建目标特征向量簇,将目标特征向量簇添加至预设特征向量簇集合,并将分类短文本的向量索引设置在目标特征向量簇中,以对分类短文本进行分类,具体可以如下:
(1)计算分类短文本的特征向量与预设特征向量簇集合中的特征向量簇的中心向量的相似度,得到向量相似度。
例如,可以获取预设特征向量簇集合中每一特征向量簇的中心向量,分别计算分类短文本的特征向量与特征向量簇的中心向量之间的相似度,从而得到向量相似度。
其中,获取预设特征向量簇集中中每一特征向量簇的中心向量的方式可以有多种,比如,当预设特征向量簇集合中的特征向量簇中存在特征向量时,就可以将全部特征向量进行平均,将平均后的向量作为中心向量,当特征向量簇中不存在特征向量时,就可以直接获取该特征向量簇的预设的向量作为中心向量。
(2)当向量相似度超过预设相似度阈值时,在预设特征向量簇集合中筛选出分类短文本对应的目标特征向量簇,并将分类短文本的向量索引设置在目标特征向量簇中,以对分类短文本进行分类。
例如,当向量相似度超过预设相似度阈值时,在预设特征向量簇集合中筛选出向量相似度最大的特征向量簇,从而得到分类短文本对应的目标特征向量簇,将分类短文本的向量索引设置在目标特征向量簇中,以对分类短文本进行分类。
其中,将分类短文本的向量索引设置在目标特征向量簇中,以对分类短文本进行分类的方式有多种,比如,可以将分类短文本的向量索引设置于目标特征向量簇,获取目标特征向量簇中设置的向量索引数量,根据向量索引数量和目标特征向量簇中设置的向量索引,确定分类短文本的分类结果。
其中,根据向量索引数量和目标特征向量簇中设置的向量索引,确定分类短文本的分类结果的方式可以有多种,比如,可以当向量索引数量未超过预设数量阈值时,根据目标特征向量簇中设置的向量索引,确定分类短文本的分类结果;当向量索引数量超过预设数量阈值时,对目标特征向量簇中的向量索引进行清洗,并根据清洗后的向量索引,确定分类短文本的分类结果。
其中,当向量索引数量未超过预设数量阈值时,根据目标特征向量簇中设置的向量索引,确定分类短文本的分类结果的方式可以有多种,比如,可以将分类短文本的向量索引设置在目标特征向量簇中,也就意味着将分类短文本的特征向量添加至目标特征向量簇中,将目标特征向量簇中所有特征向量对应的短文本分为一类,从而就可以确定分类短文本的分类结果,或者,还获取目标特征向量簇中除分类短文本的特征向量以外的特征向量对应的目标短文本,将目标短文本的类型作为分类短文本的分类结果。
其中,当向量索引数量超过预设数量阈值时,对目标特征向量簇中的向量索引进行清洗,清洗的方式可以有多种,比如,根据目标特征向量簇中的向量索引对应的特征向量,计算目标特征向量簇的中心向量,分别计算目标特征向量簇中向量索引对应的特征向量与目标特征向量的中心向量之间的相似度,得到每一向量索引对应的目标向量相似度,当目标向量相似度超过预设相似度阈值时,将目标向量相似度对应的目标向量索引从目标特征向量簇中剔除,得到目标特征向量簇中清洗后的向量索引。当目标向量相似度未超过预设相似度阈值时,对目标特征向量簇中的向量索引不做任何操作。
其中,对于设置预设数量阈值来说,主要是为了减少目标特征向量簇中不必要的向量索引清洗,因为,当目标特征向量簇中只存在一个特征向量时,该特征向量就为中心向量,无需进行清洗,当目标特征向量簇中存在两个特征向量时,中心向量为这两个特征向量的平均,也无需清洗,当目标特征向量组中超过两个特征向量时,就需要考虑是否需要进行清洗,因此,预设数量阈值可以为2或者1其他数值。
其中,计算目标特征向量簇的中心向量可以有多种,比如,可以计算目标特征向量簇中所有特征向量的平均向量,将平均向量作为目标特征向量簇的中心向量。
对目标特征向量簇中的向量索引进行清洗后,便可以根据清洗后的向量索引,确定分类短文本的分类结果,比如,可以将清洗后的向量索引对应的短文本分类为一类,从而确定分类短文本的分类结果,或者,还可以在清洗后的向量索引中筛选出除了分类短文本的向量索引以外的基础向量索引,获取基础向量索引对应的短文本的目标类型,将目标类型作为分类短文本的分类结果。
可选的,将目标向量相似度对应的目标向量索引从目标特征向量簇中剔除,得到目标特征向量簇中清洗后的向量索引之后,还可以将剔除的目标向量索引进行重新设置,比如,将目标向量索引对应的特征向量作为分类短文本的特征向量,返回执行计算分类短文本的特征向量与预设特征向量簇集合中特征向量簇的中心向量的相似度的步骤,直至目标向量索引设置在特征向量簇中为止。
(3)当向量相似度未超过预设相似度阈值时,创建目标特征向量簇,将目标特征向量簇添加至预设特征向量簇集合,并将分类短文本的向量索引设置在目标特征向量簇中,以对分类短文本进行分类。
例如,当向量相似度未超过预设相似度阈值时,创建目标特征向量簇,将目标特征向量簇添加至预设特征向量簇集合,并将分类短文本的向量索引设置在目标特征向量簇中,获取目标特征向量簇中设置的向量索引数量,根据向量索引数量和目标特征向量簇中设置的向量索引,确定分类短文本的分类结果,具体的过程可以参考上文所述,就不再一一赘述。
其中,对于分类短文本集合的分类也可以看作是单个分类短文本的分类串行或并行分类,从而将完成分类短文本集合中的分类短文本的分类。在对分类短文本进行分类的过程中,可以发现确定分类短文本的分类结果主要基于分类短文本的特征向量对应的特征向量簇来确定,而且确定特征向量簇主要有两个部分,一个是在现有的特征向量簇中筛选,另一个就是直接创建一个特征向量簇,每一个特征向量簇其实都相当于一个短文本类,因此,本方案中对短文本进行分类就可以不限制聚类或分类的类别数量。
可选的,根据向量索引数量和目标特征向量簇中设置的向量索引,确定分类短文本的分类结果之后,还可以对分类短文本进行处理,具体可以如下:
根据分类短文本的分类结果,获取与分类短文本为同一类型的目标短文本,基于目标短文本和分类短文本构建文本簇,并将文本簇内的短文本进行聚合,得到聚合后短文本,将聚合后短文本发送至终端,以便终端展示聚合后文本。
其中,展示聚合后文本的方式可以有多种,比如,可以接收终端发送的展示请求,在展示请求中提取出文本类型,在聚合后短文本中筛选出文本类型对应的聚合后短文本,得到目标聚合后短文本,将目标聚合后短文本发送至终端,以便终端展示该目标聚合后短文本,以展示请求为医疗文本检索为例,展示的医疗文本可以如图3所示。
可选的,将文本簇内的短文本进行聚合,得到聚合后短文本之后,还可以计算聚合后短文本的展示热度,并基于展示热度对聚合后短文本进行展示,具体可以如下:
获取聚合后短文本的文本属性信息,并基于文本属性信息,计算聚合后短文本的展示热度,基于展示热度,确定聚合后短文本的展示信息,将展示信息和聚合后短文本发送至终端,以便终端根据展示信息展示聚合后短文本。
其中,展示热度可以为聚合后短文本需要展示的程度或者频率等,计算聚合后短文本的展示热度的方式可以有多种,比如,可以在文本属性信息中提取出短文本的关键词或者关键句子,计算该关键词或关键句子在预设时间段内在文本库中出现的次数等,从而得到聚合后短文本的展示热度,或者,还可以根据关键词或关键句子的出现时间等,计算聚合后短文本的展示热度。
在计算完展示热度之后,就可以确定聚合后短文本的展示信息,展示信息可以为该聚合后短文本的展示顺序、展示时间、展示频次和展示区域等信息,确定展示信息的方式可以有多种,比如,可以在预设展示信息集合中筛选出展示热度对应的展示信息。
其中,根据展示信息展示聚合后短文本,展示的聚合后短文本就可以为近期热点事件,以短文本为疫情新闻为例,展示的聚合后短文本可以如图4所示。
可选的,在一实施例中,该文本分类装置还包括将转换后的特征向量存储至区块链上。
由以上可知,本发明实施例在获取分类短文本后,对分类短文本进行特征提取,得到分类短文本的文本特征,然后,将分类短文本的文本特征转换为特征向量,并构建分类短文本的向量索引,然后,获取用于反映短文本分类结果的预设特征向量簇集合,并基于分类短文本的特征向量与预设特征向量簇集合中特征向量簇的中心向量的相似度,将分类短文本的向量索引设置在对应的特征向量簇中,以对分类短文本进行分类;由于该方案可以将分类短文本的文本特征转换为特征向量,并构建分类短文本的向量索引,然后,基于向量索引对分类短文本进行分类,使得分类时间大大降低,因此,可以提升文本分类的分类效率。
根据上面实施例所描述的方法,以下将举例作进一步详细说明。
在本实施例中,将以该文本分类装置具体集成在电子设备,电子设备为服务器为例进行说明。
(一)特征向量转换模型的训练
(1)服务器获取短文本样本集合。
例如,服务器可以使用无监督向量模型(如SIF, smooth inverse frequency),对 大规模待聚类短文本
Figure 510000DEST_PATH_IMAGE006
进行无监督短文本生成
Figure 42613DEST_PATH_IMAGE007
。使用Faiss技术,对C_v构建向量索引Index。对于每个待聚类短 文本,使用向量索引召回TopN个相似短文本及其向量,并随机选取k个短文本,与该短文本 组合形成待标注文本对,
Figure 710354DEST_PATH_IMAGE008
。随机从待标注文 本对中选择Z1个样本作为待标注数据。对于一个待分类短文本样本,随机从短文本样本集 合中采样一个样本,作为不相关样本。重复
Figure 848075DEST_PATH_IMAGE009
次。人工对待标注数据进行标注,标注3个等 级相似程度,分别为不相关、相关、同义,并映射成相似度得分{0,0.5,1},从而得到短文本 样本集合。
其中,topN=20,α=0.9,β=0.85,γ=2,k=3,
Figure 310280DEST_PATH_IMAGE010
(2)服务器采用预设特征向量转换模型对短文本样本集合中的短文本样本对的相似度度进行预测,得到预测相似度。
例如,服务器采用预设特征向量转换模型对短文本样本集合中的短文本样本对进行语义特征提取,得到短文本样本对中每一短文本样本的文本特征,将文本特征转换为短文本样本对应的特征向量,然后,预测短文本样本对中对应的特征向量之间的相似度,得到短文本样本对的预测相似度。
(3)服务器根据标注相似度和预测相似度对预设特征向量转换模型进行收敛,得到特征向量转换模型。
例如,服务器根据标注相似度和预测相似度,可以确定短文本样本对的损失信息,基于损失信息,对预设特征向量转换模型的参数进行更新,以收敛该预设特征向量转换模型,从而得到特征向量转换模型。
其中,对预设特征向量转换模型的训练过程可以如图5所示。
(二)采用特征向量转换模型对分类短文本进行分类。
如图6所示,一种文本分类方法,具体流程如下:
201、服务器获取分类短文本。
例如,服务器与可以直接接收用户通过终端上传的分类短文本,或者,可以在内容数据库中获取需要分类的目标内容,在目标内容中筛选出需要分类的目标文本,识别每个目标文本的字符数量,在目标文本中筛选出字符数量低于预设字符数量阈值的文本,得到分类短文本,或者,还可以需要分类的短文本集合,在短文本集合中筛选出当前进行分类处理的分类短文本。服务器还可以接收终端发送的短文本分类请求,该短文本分类请求中可以携带分类短文本的存储地址,根据存储地址,获取分类短文本。
可选的,服务器在获取到分类短文本之后,还可以向终端发送提示信息,以提示终端。
202、服务器对分类短文本进行特征提取,得到分类短文本的文本特征。
例如,服务器获取分类短文本中每一个文本词的信息,将文本词转换为多个类型的嵌入特征,将多个嵌入特征进行融合,采用特征向量转换模型额BERT网络、RoBERT网络或ALBERT网络等多种编码器网络对融合后的嵌入特征进行编码,得到分类短文本的文本特征。
203、服务器将分类短文本的文本特征转换为特征向量,并构建分类短文本的向量索引。
(1)服务器将分类短文本的文本特征转换为特征向量。
例如,服务器采用多个池化层对文本特征进行平均池化,得到池化后文本特征,或者,还可以采用多个池化层对文本特征进行最大池化,得到池化后文本特征。然后,采用一个或多个全连接层将文本特征压缩至128维或者预设维度,从而得到特征向量。
可选的,服务器在得到分类短文本的特征向量之后,还可以计算特征向量与预设分类短文本的特征向量的余弦相似度,从而得到特征向量之间的相似度。
(2)服务器构建分类短文本的向量索引。
例如,服务器可以采用Faiss或Annoy算法根据分类短文本的特征向量与预设特征向量的余弦相似度来确定分类短文本的特征向量与预设特征向量之间的向量距离,根据向量距离,将分类短文本的特征向量进行封装,并将封装好的向量进行预处理,从而得到分类短文本的向量索引。通过向量索引可以快速检索到该特征向量所处的特征向量簇,该特征向量簇中可以包括该特征向量相邻的特征向量。
204、服务器获取用于反映短文本分类结果的预设特征向量簇集合。
例如,服务器可以获取分类短文本的文本来源或者其他属性信息,根据文本来源或其他属性信息,在预设特征向量簇数据库中筛选出分类短文本对应的预设特征向量簇集合。
可选的,服务器在获取用于反映短文本分类结果的预设特征向量簇集合之前,还可以构建预设特征向量簇集合,具体可以如下:
服务器获取短文本样本集合,并对短文本样本集合中的短文本进行特征提取,得到每一短文本样本的文本特征,根据短文本样本的样本特征的相似度,生成短文本样本的样本特征向量,并构建每一短文本样本的样本向量索引,分别计算短文本样本集合中短文本样本的样本特征向量之间的相似度,将相似度超过预设相似度阈值的短文本样本的样本特征向量分为一类,从而完成对样本特征向量进行分类。服务器创建特征向量簇集合,将划分为一类的样本特征向量的样本向量索引设置在同一个特征向量簇中,从而就可以得到预设特征向量簇集合。
205、服务器计算分类短文本的特征向量与预设特征向量簇集合中的特征向量簇的中心向量的相似度,得到向量相似度。
例如,当预设特征向量簇集合中的特征向量簇中存在特征向量时,服务器就可以将全部特征向量进行平均,将平均后的向量作为中心向量,当特征向量簇中不存在特征向量时,就可以直接获取该特征向量簇的预设的向量作为中心向量。分别计算分类短文本的特征向量与特征向量簇的中心向量之间的相似度,从而得到向量相似度。
206、当向量相似度超过预设相似度阈值时,服务器在预设特征向量簇集合中筛选出分类短文本对应的目标特征向量簇,并将分类短文本的向量索引设置在目标特征向量簇中,以对分类短文本进行分类。
例如,当向量相似度超过预设相似度阈值时,服务器在预设特征向量簇集合中筛选出向量相似度最大的特征向量簇,从而得到分类短文本对应的目标特征向量簇,将分类短文本的向量索引设置于目标特征向量簇,获取目标特征向量簇中设置的向量索引数量,当向量索引数量未超过预设数量阈值时,根据目标特征向量簇中设置的向量索引,确定分类短文本的分类结果;当向量索引数量超过预设数量阈值时,对目标特征向量簇中的向量索引进行清洗,并根据清洗后的向量索引,确定分类短文本的分类结果。
其中,当向量索引数量未超过预设数量阈值时,服务器可以将分类短文本的向量索引设置在目标特征向量簇中,也就意味着将分类短文本的特征向量添加至目标特征向量簇中,将目标特征向量簇中所有特征向量对应的短文本分为一类,从而就可以确定分类短文本的分类结果,或者,还获取目标特征向量簇中除分类短文本的特征向量以外的特征向量对应的目标短文本,将目标短文本的类型作为分类短文本的分类结果。
其中,当向量索引数量超过预设数量阈值时,服务器根据目标特征向量簇中的向量索引对应的特征向量,计算目标特征向量簇的中心向量,分别计算目标特征向量簇中向量索引对应的特征向量与目标特征向量的中心向量之间的相似度,得到每一向量索引对应的目标向量相似度,当目标向量相似度超过预设相似度阈值时,将目标向量相似度对应的目标向量索引从目标特征向量簇中剔除,得到目标特征向量簇中清洗后的向量索引。当目标向量相似度未超过预设相似度阈值时,对目标特征向量簇中的向量索引不做任何操作。
其中,对目标特征向量簇中的向量索引进行清洗后,服务器可以将清洗后的向量索引对应的短文本分类为一类,从而确定分类短文本的分类结果,或者,还可以在清洗后的向量索引中筛选出除了分类短文本的向量索引以外的基础向量索引,获取基础向量索引对应的短文本的目标类型,将目标类型作为分类短文本的分类结果。
可选的,服务器将目标向量相似度对应的目标向量索引从目标特征向量簇中剔除,得到目标特征向量簇中清洗后的向量索引之后,将目标向量索引对应的特征向量作为分类短文本的特征向量,返回执行计算分类短文本的特征向量与预设特征向量簇集合中特征向量簇的中心向量的相似度的步骤,直至目标向量索引设置在特征向量簇中为止。
207、当向量相似度未超过预设相似度阈值时,服务器创建目标特征向量簇,将目标特征向量簇添加至预设特征向量簇集合,并将分类短文本的向量索引设置在目标特征向量簇中,以对分类短文本进行分类。
例如,当向量相似度未超过预设相似度阈值时,服务器创建目标特征向量簇,将目标特征向量簇添加至预设特征向量簇集合,并将分类短文本的向量索引设置在目标特征向量簇中,获取目标特征向量簇中设置的向量索引数量,根据向量索引数量和目标特征向量簇中设置的向量索引,确定分类短文本的分类结果,具体的过程可以参考上文所述,就不再一一赘述。
可选的,服务器根据向量索引数量和目标特征向量簇中设置的向量索引,确定分类短文本的分类结果之后,还可以对分类短文本进行处理,具体可以如下:
例如,服务器根据分类短文本的分类结果,获取与分类短文本为同一类型的目标短文本,基于目标短文本和分类短文本构建文本簇,并将文本簇内的短文本进行聚合,得到聚合后短文本,当接收终端发送的展示请求时,在展示请求中提取出文本类型,在聚合后短文本中筛选出文本类型对应的聚合后短文本,得到目标聚合后短文本,将目标聚合后短文本发送至终端,以便终端展示该目标聚合后短文本。
可选的,服务器将文本簇内的短文本进行聚合,得到聚合后短文本之后,还可以计算聚合后短文本的展示热度,并基于展示热度对聚合后短文本进行展示,具体可以如下:
例如,获取聚合后短文本的文本属性信息,可以在文本属性信息中提取出短文本的关键词或者关键句子,计算该关键词或关键句子在预设时间段内在文本库中出现的次数等,从而得到聚合后短文本的展示热度,或者,还可以根据关键词或关键句子的出现时间等,计算聚合后短文本的展示热度。在预设展示信息集合中筛选出展示热度对应的展示信息。将展示信息和聚合后短文本发送至终端,以便终端根据展示信息展示聚合后短文本。
由以上可知,本实施例服务器在获取分类短文本后,对分类短文本进行特征提取,得到分类短文本的文本特征,然后,将分类短文本的文本特征转换为特征向量,并构建分类短文本的向量索引,然后,获取用于反映短文本分类结果的预设特征向量簇集合,并基于分类短文本的特征向量与预设特征向量簇集合中特征向量簇的中心向量的相似度,将分类短文本的向量索引设置在对应的特征向量簇中,以对分类短文本进行分类;由于该方案可以将分类短文本的文本特征转换为特征向量,并构建分类短文本的向量索引,然后,基于向量索引对分类短文本进行分类,使得分类时间大大降低,因此,可以提升文本分类的分类效率。
根据上面实施例所描述的方法,以下将举例作进一步详细说明。
在本实施例中,将以该文本分类方法应用在对分类短文本集合中分类短文本进行分类的过程为例进行说明。
获取分类短文本集合
Figure 281254DEST_PATH_IMAGE011
,该分类短文本集合中包括 至少一个分类短文本,采用特征向量转换模型的BERT/RoBERTa/ALBERT编码网络将分类短 文本集合中的分类短文本转换为特征向量,得到特征向量集合
Figure 487107DEST_PATH_IMAGE012
。使 用Faiss技术,对
Figure 479334DEST_PATH_IMAGE013
中的向量构建向量索引Index,具体可以如图7所示,新建一个特征向量 簇集合
Figure 112440DEST_PATH_IMAGE014
。基于Single-Pass的聚类框架,对C中的每一个分类短文
Figure 72175DEST_PATH_IMAGE015
,基于 分类短文本的特征向量
Figure 612878DEST_PATH_IMAGE016
,使用向量索引Index进行检索,如图8所示,得到topN个相似度 短文本及其相似度,取其中相似度大于α且已被分配簇的分类短文本集合
Figure 928453DEST_PATH_IMAGE017
。若集合
Figure 529198DEST_PATH_IMAGE017
非 空,则根据归属策略,将
Figure 726961DEST_PATH_IMAGE015
赋予对应的簇
Figure 25350DEST_PATH_IMAGE018
;若集合
Figure 992169DEST_PATH_IMAGE017
为空,则对
Figure 232657DEST_PATH_IMAGE015
新建一个 簇,并配新的簇
Figure 386558DEST_PATH_IMAGE018
,加入到簇集合
Figure 987173DEST_PATH_IMAGE019
中。将分类短文本
Figure 808498DEST_PATH_IMAGE015
从分类短文本 集合C中剔除。
从而可以得到每一个分类短文本对应的特征向量簇的簇标识。此时,还需要清洗 特征向量簇中的离群点,因此,对于
Figure 219888DEST_PATH_IMAGE019
中每一个特征向量簇,使用簇内所有分类短文 本的特征向量平均的方式,计算簇
Figure 126664DEST_PATH_IMAGE020
的中心向量
Figure 763925DEST_PATH_IMAGE021
,对于簇内的每一个短文本 的特征向量
Figure 502074DEST_PATH_IMAGE022
,计算其与簇中心向量
Figure 84365DEST_PATH_IMAGE021
的余弦相似度,若低于相似度阈值,则加入到分 类短文本集合C中,并从簇
Figure 478437DEST_PATH_IMAGE020
中剔除
Figure 171587DEST_PATH_IMAGE023
,否则不做任何操作。
重复对分类短文本集合中分类短文本进行聚类操作和清洗簇内离群点的操作预设次数,从而就可以完成对分类短文本集合中每一个分类短文本的分类操作,具体分类过程可以如图9所示。
其中,归属策略可以有多种,比如,可以为投票策略,譬如,选取集合b中分类短文本被分配最多的簇,若有多个最大值,则选择簇ID最小的簇,或者,还可以为最近簇中心策略,譬如,选取与待归属的分类短文本最近的簇中心,作为归属簇。
为了更好地实施以上方法,本发明实施例还提供一种文本分类装置,该文本分类装置可以集成在电子设备,比如服务器或终端等设备中,该终端可以包括平板电脑、笔记本电脑和/或个人计算机等。
例如,如图10所示,该文本分类装置可以包括获取单元301、提取单元302、转换单元303和分类单元304,如下:
(1)获取单元301;
获取单元301,用于获取分类短文本。
例如,获取单元301,具体可以用于接收用户通过终端上传的分类短文本,或者,可以在内容数据库中获取需要分类的目标内容,在目标内容中筛选出需要分类的目标文本,识别每个目标文本的字符数量,在目标文本中筛选出字符数量低于预设字符数量阈值的文本,得到分类短文本,或者,还可以需要分类的短文本集合,在短文本集合中筛选出当前进行分类处理的分类短文本,或者,接收终端发送的短文本分类请求,该短文本分类请求中可以携带分类短文本的存储地址,根据存储地址,获取分类短文本。
(2)提取单元302;
提取单元302,用于对分类短文本进行特征提取,得到分类短文本的文本特征。
例如,提取单元302,具体可以用于获取分类短文本中每一个文本词的信息,将文本词转换为多个类型的嵌入特征,将多个嵌入特征进行融合,采用特征向量转换模型的特征提取网络对融合后的嵌入特征进行编码,得到分类短文本的文本特征。
(3)转换单元303;
转换单元303,用于将分类短文本的文本特征转换为特征向量,并构建分类短文本的向量索引。
例如,转换单元303,具体可以用于采用特征向量转换模型的转换网络对分类短文本的文本特征进行池化处理,并将池化后的文本特征进行转换为预设维度的向量,得到分类短文本对应的特征向量,然后,采用向量索引算法根据分类短文本的特征向量与预设特征向量的余弦相似度来确定分类短文本的特征向量与预设特征向量之间的向量距离,根据向量距离,将分类短文本的特征向量进行封装,并将封装好的向量进行预处理,从而得到分类短文本的向量索引。
(4)分类单元304;
分类单元304,用于获取用于反映短文本分类结果的预设特征向量簇集合,基于分类短文本的特征向量与预设特征向量簇集合中特征向量簇的中心向量的相似度,将分类短文本的向量索引设置在对应的特征向量簇中,以对分类短文本进行分类。
其中,分类单元304可以包括获取子单元3041、生成子单元3042和分类子单元3043,如图11所示,具体可以如下:
获取子单元3041,用于获取短文本样本集合,并对短文本样本集合中的短文本进行特征提取,得到每一短文本样本的文本特征;
生成子单元3042,用于根据短文本样本的文本特征的相似程度,生成短文本样本的样本特征向量,并构建每一短文本样本的样本向量索引;
分类子单元3043,用于基于短文本样本的样本特征相似的相似度,对样本特征向量进行分类,并采用样本特征向量的样本向量索引构建预设特征向量簇集合。
其中,分类单元304还可以包括计算子单元3044、筛选子单元3045和创建子单元3046,如图12所示,具体可以如下:
计算子单元3044,用于计算分类短文本的特征向量与预设特征向量簇集合中特征向量簇的中心向量的相似度,得到向量相似度;
筛选子单元3045,用于当向量相似度超过预设相似度阈值时,在预设特征向量簇集合中筛选出分类短文本对应的目标特征向量簇,并将分类短文本的向量索引设置在目标特征向量簇中,以对分类短文本进行分类;
创建子单元3046,用于当向量相似度未超过所述预设相似度阈值时,创建目标特征向量簇,将目标特征向量簇添加至所述预设特征向量簇集合,并将分类短文本的向量索引设置在目标特征向量簇中,以对分类短文本进行分类。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
由以上可知,本实施例在获取单元301获取分类短文本后,提取单元302对分类短文本进行特征提取,得到分类短文本的文本特征,然后,转换单元303将分类短文本的文本特征转换为特征向量,并构建分类短文本的向量索引,然后,分类单元304获取用于反映短文本分类结果的预设特征向量簇集合,并基于分类短文本的特征向量与预设特征向量簇集合中特征向量簇的中心向量的相似度,将分类短文本的向量索引设置在对应的特征向量簇中,以对分类短文本进行分类;由于该方案可以将分类短文本的文本特征转换为特征向量,并构建分类短文本的向量索引,然后,基于向量索引对分类短文本进行分类,使得分类时间大大降低,因此,可以提升文本分类的分类效率。
本发明实施例还提供一种电子设备,如图13所示,其示出了本发明实施例所涉及的电子设备的结构示意图,具体来讲:
该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图13中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
电子设备还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该电子设备还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,电子设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,电子设备中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
获取分类短文本,对分类短文本进行特征提取,得到分类短文本的文本特征,将分类短文本的文本特征转换为特征向量,并构建分类短文本的向量索引,获取用于反映短文本分类结果的预设特征向量簇集合,并基于分类短文本的特征向量与预设特征向量簇集合中特征向量簇的中心向量的相似度,将分类短文本的向量索引设置在对应的特征向量簇中,以对分类短文本进行分类。
例如,电子设备获取分类短文本,然后,获取分类短文本中每一个文本词的信息,将文本词转换为多个类型的嵌入特征,将多个嵌入特征进行融合,采用特征向量转换模型的特征提取网络对融合后的嵌入特征进行编码,得到分类短文本的文本特征。采用特征向量转换模型的转换网络对分类短文本的文本特征进行池化处理,并将池化后的文本特征进行转换为预设维度的向量,得到分类短文本对应的特征向量,然后,采用向量索引算法根据分类短文本的特征向量与预设特征向量的余弦相似度来确定分类短文本的特征向量与预设特征向量之间的向量距离,根据向量距离,将分类短文本的特征向量进行封装,并将封装好的向量进行预处理,从而得到分类短文本的向量索引。获取用于反映短文本分类结果的预设特征向量簇集合,计算分类短文本的特征向量与预设特征向量簇集合中特征向量簇的中心向量的相似度,得到向量相似度,当向量相似度超过预设相似度阈值时,在预设特征向量簇集合中筛选出分类短文本对应的目标特征向量簇,并将分类短文本的向量索引设置在目标特征向量簇中,以对分类短文本进行分类,当向量相似度未超过所述预设相似度阈值时,创建目标特征向量簇,将目标特征向量簇添加至所述预设特征向量簇集合,并将分类短文本的向量索引设置在目标特征向量簇中,以对分类短文本进行分类。
以上各个操作的具体实施可参见前面的实施例,在此不作赘述。
由以上可知,本发明实施例在获取分类短文本后,对分类短文本进行特征提取,得到分类短文本的文本特征,然后,将分类短文本的文本特征转换为特征向量,并构建分类短文本的向量索引,然后,获取用于反映短文本分类结果的预设特征向量簇集合,并基于分类短文本的特征向量与预设特征向量簇集合中特征向量簇的中心向量的相似度,将分类短文本的向量索引设置在对应的特征向量簇中,以对分类短文本进行分类;由于该方案可以将分类短文本的文本特征转换为特征向量,并构建分类短文本的向量索引,然后,基于向量索引对分类短文本进行分类,使得分类时间大大降低,因此,可以提升文本分类的分类效率。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本发明实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本发明实施例所提供的任一种文本分类方法中的步骤。例如,该指令可以执行如下步骤:
获取分类短文本,对分类短文本进行特征提取,得到分类短文本的文本特征,将分类短文本的文本特征转换为特征向量,并构建分类短文本的向量索引,获取用于反映短文本分类结果的预设特征向量簇集合,并基于分类短文本的特征向量与预设特征向量簇集合中特征向量簇的中心向量的相似度,将分类短文本的向量索引设置在对应的特征向量簇中,以对分类短文本进行分类。
例如,获取分类短文本,然后,获取分类短文本中每一个文本词的信息,将文本词转换为多个类型的嵌入特征,将多个嵌入特征进行融合,采用特征向量转换模型的特征提取网络对融合后的嵌入特征进行编码,得到分类短文本的文本特征。采用特征向量转换模型的转换网络对分类短文本的文本特征进行池化处理,并将池化后的文本特征进行转换为预设维度的向量,得到分类短文本对应的特征向量,然后,采用向量索引算法根据分类短文本的特征向量与预设特征向量的余弦相似度来确定分类短文本的特征向量与预设特征向量之间的向量距离,根据向量距离,将分类短文本的特征向量进行封装,并将封装好的向量进行预处理,从而得到分类短文本的向量索引。获取用于反映短文本分类结果的预设特征向量簇集合,计算分类短文本的特征向量与预设特征向量簇集合中特征向量簇的中心向量的相似度,得到向量相似度,当向量相似度超过预设相似度阈值时,在预设特征向量簇集合中筛选出分类短文本对应的目标特征向量簇,并将分类短文本的向量索引设置在目标特征向量簇中,以对分类短文本进行分类,当向量相似度未超过所述预设相似度阈值时,创建目标特征向量簇,将目标特征向量簇添加至所述预设特征向量簇集合,并将分类短文本的向量索引设置在目标特征向量簇中,以对分类短文本进行分类。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该计算机可读存储介质中所存储的指令,可以执行本发明实施例所提供的任一种文本分类方法中的步骤,因此,可以实现本发明实施例所提供的任一种文本分类方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
其中,根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述文本分类方面或者文本处理方面的各种可选实现方式中提供的方法。
以上对本发明实施例所提供的一种文本分类方法、装置、电子设备和计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (11)

1.一种文本分类方法,其特征在于,包括:
获取分类短文本;
对所述分类短文本进行特征提取,得到所述分类短文本的文本特征;
将所述分类短文本的文本特征转换为特征向量,并根据分类短文本的特征向量与预设特征向量的相似度来构建分类短文本的向量索引,所述向量索引用于快速检索到所述特征向量所处的特征向量簇;
获取用于反映短文本分类结果的预设特征向量簇集合,并计算所述分类短文本的特征向量与预设特征向量簇集合中特征向量簇的中心向量的相似度,得到向量相似度;
当所述向量相似度超过预设相似度阈值时,根据特征向量簇中的特征向量数量和簇标识,在所述预设特征向量簇集合中筛选出所述分类短文本对应的目标特征向量簇,并将所述分类短文本的向量索引设置在所述目标特征向量簇中;
当所述向量相似度未超过所述预设相似度阈值时,创建目标特征向量簇,将所述目标特征向量簇添加至所述预设特征向量簇集合,并将所述分类短文本的向量索引设置在所述目标特征向量簇中;
获取所述目标特征向量簇中设置的向量索引数量;
当所述向量索引数量超过预设数量阈值时,对所述目标特征向量簇中的向量索引进行清洗;
根据清洗后的向量索引,确定所述分类短文本的分类结果。
2.根据权利要求1所述的文本分类方法,其特征在于,所述获取用于反映短文本分类结果的预设特征向量簇集合之前,还包括:
获取短文本样本集合,并对所述短文本样本集合中的短文本进行特征提取,得到每一短文本样本的文本特征;
根据所述短文本样本的文本特征的相似度,生成所述短文本样本的样本特征向量,并构建每一所述短文本样本的样本向量索引;
基于所述短文本样本的样本特征向量的相似度,对所述样本特征向量进行分类,并采用所述样本特征向量的样本向量索引构建预设特征向量簇集合。
3.根据权利要求1所述的文本分类方法,其特征在于,还包括:
当所述向量索引数量未超过预设数量阈值时,根据所述目标特征向量簇中设置的向量索引,确定所述分类短文本的分类结果。
4.根据权利要求1所述的文本分类方法,其特征在于,所述对所述目标特征向量簇中的向量索引进行清洗,包括:
根据所述目标特征向量簇中的向量索引对应的特征向量,计算所述目标特征向量簇的中心向量;
分别计算所述目标特征向量簇中的向量索引对应的特征向量与目标特征向量簇的中心向量之间的相似度,得到每一向量索引对应的目标向量相似度;
当所述目标向量相似度超过预设相似度阈值时,将所述目标向量相似度对应的目标向量索引从所述目标特征向量簇中剔除,得到所述目标特征向量簇中清洗后的向量索引。
5.根据权利要求4所述的文本分类方法,其特征在于,所述将所述目标向量相似度对应的目标向量索引从所述目标特征向量簇中剔除,得到所述目标特征向量簇中清洗后的向量索引之后,还包括:
将所述目标向量索引对应的特征向量作为分类短文本的特征向量;
返回执行所述计算所述分类短文本的特征向量与预设特征向量簇集合中特征向量簇的中心向量的相似度的步骤,直至将所述目标向量索引设置在特征向量簇中为止。
6.根据权利要求1所述的文本分类方法,其特征在于,所述根据清洗后的向量索引,确定所述分类短文本的分类结果之后,还包括:
根据所述分类短文本的分类结果,获取与所述分类短文本为同一类型的目标短文本;
基于所述目标短文本和分类短文本构建文本簇,并将所述文本簇内的短文本进行聚合,得到聚合后短文本;
将所述聚合后短文本发送至终端,以便所述终端展示所述聚合后短文本。
7.根据权利要求6所述的文本分类方法,其特征在于,所述将文本簇内的短文本进行聚合,得到聚合后短文本之后,还包括:
获取所述聚合后短文本的文本属性信息,并基于所述文本属性信息,计算所述聚合后短文本的展示热度;
基于所述展示热度,确定所述聚合后短文本的展示信息;
将所述展示信息和聚合后短文本发送至所述终端,以便所述终端根据所述展示信息展示所述聚合后短文本。
8.一种文本分类装置,其特征在于,包括:
获取单元,用于获取分类短文本;
提取单元,用于对所述分类短文本进行特征提取,得到所述分类短文本的文本特征;
转换单元,用于将所述分类短文本的文本特征转换为特征向量,并根据分类短文本的特征向量与预设特征向量的相似度来构建分类短文本的向量索引,所述向量索引用于快速检索到所述特征向量所处的特征向量簇;
分类单元,用于获取用于反映短文本分类结果的预设特征向量簇集合,并计算所述分类短文本的特征向量与预设特征向量簇集合中特征向量簇的中心向量的相似度,得到向量相似度;当所述向量相似度超过预设相似度阈值时,根据特征向量簇中的特征向量数量和簇标识,在所述预设特征向量簇集合中筛选出所述分类短文本对应的目标特征向量簇,并将所述分类短文本的向量索引设置在所述目标特征向量簇中;当所述向量相似度未超过所述预设相似度阈值时,创建目标特征向量簇,将所述目标特征向量簇添加至所述预设特征向量簇集合,并将所述分类短文本的向量索引设置在所述目标特征向量簇中;获取所述目标特征向量簇中设置的向量索引数量;当所述向量索引数量超过预设数量阈值时,并对所述目标特征向量簇中的向量索引进行清洗,根据清洗后的向量索引,确定所述分类短文本的分类结果。
9.根据权利要求8所述的文本分类装置,其特征在于,所述分类单元,还包括:
获取单子单元,用于获取短文本样本集合,并对所述短文本样本集合中的短文本进行特征提取,得到每一短文本样本的文本特征;
生成子单元,用于根据所述短文本样本的文本特征的相似程度,生成所述短文本样本的样本特征向量,并构建每一所述短文本样本的样本向量索引;
分类子单元,用于基于所述短文本样本的样本特征相似的相似度,对所述样本特征向量进行分类,并采用所述样本特征向量的样本向量索引构建预设特征向量簇集合。
10.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有应用程序,所述处理器用于运行所述存储器内的应用程序,以执行权利要求1至7任一项所述的文本分类方法中的步骤。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至7任一项所述的文本分类方法中的步骤。
CN202110534726.3A 2021-05-17 2021-05-17 文本分类方法、装置、电子设备和计算机可读存储介质 Active CN112988954B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110534726.3A CN112988954B (zh) 2021-05-17 2021-05-17 文本分类方法、装置、电子设备和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110534726.3A CN112988954B (zh) 2021-05-17 2021-05-17 文本分类方法、装置、电子设备和计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN112988954A CN112988954A (zh) 2021-06-18
CN112988954B true CN112988954B (zh) 2021-09-21

Family

ID=76336713

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110534726.3A Active CN112988954B (zh) 2021-05-17 2021-05-17 文本分类方法、装置、电子设备和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN112988954B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115033701B (zh) * 2022-08-12 2022-10-28 北京百度网讯科技有限公司 文本向量生成模型训练方法、文本分类方法及相关装置
CN116186562B (zh) * 2023-04-27 2023-07-21 中南大学 基于编码器的长文本匹配方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101621391A (zh) * 2009-08-07 2010-01-06 北京百问百答网络技术有限公司 基于概率主题进行短文本分类的方法及系统
CN103488689B (zh) * 2013-09-02 2017-09-12 新浪网技术(中国)有限公司 基于聚类的邮件分类方法和系统
CN108319682B (zh) * 2018-01-31 2021-12-28 天闻数媒科技(北京)有限公司 分类器修正和分类语料库构建的方法、装置、设备及介质
CN109190117B (zh) * 2018-08-10 2023-06-23 中国船舶重工集团公司第七一九研究所 一种基于词向量的短文本语义相似度计算方法
CN109145116A (zh) * 2018-09-03 2019-01-04 武汉斗鱼网络科技有限公司 一种文本分类方法、装置、电子设备及存储介质
CN110969172A (zh) * 2018-09-28 2020-04-07 武汉斗鱼网络科技有限公司 一种文本的分类方法以及相关设备
CN110008343A (zh) * 2019-04-12 2019-07-12 深圳前海微众银行股份有限公司 文本分类方法、装置、设备及计算机可读存储介质
CN112699260A (zh) * 2019-10-22 2021-04-23 杭州睿琪软件有限公司 物种识别方法及装置
CN111428028A (zh) * 2020-03-04 2020-07-17 中国平安人寿保险股份有限公司 基于深度学习的信息分类方法及相关设备
CN111310467B (zh) * 2020-03-23 2023-12-12 应豪 一种在长文本中结合语义推断的主题提取方法及系统
CN112069310B (zh) * 2020-06-18 2023-05-02 中国科学院计算技术研究所 基于主动学习策略的文本分类方法及系统
CN111753060B (zh) * 2020-07-29 2023-09-26 腾讯科技(深圳)有限公司 信息检索方法、装置、设备及计算机可读存储介质
CN112395385B (zh) * 2020-11-17 2023-07-25 中国平安人寿保险股份有限公司 基于人工智能的文本生成方法、装置、计算机设备及介质

Also Published As

Publication number Publication date
CN112988954A (zh) 2021-06-18

Similar Documents

Publication Publication Date Title
WO2020228376A1 (zh) 文本处理方法、模型训练方法和装置
CN110234018B (zh) 多媒体内容描述生成方法、训练方法、装置、设备及介质
CN112988954B (zh) 文本分类方法、装置、电子设备和计算机可读存储介质
CN108875090B (zh) 一种歌曲推荐方法、装置和存储介质
CN111611801B (zh) 一种识别文本地域属性的方法、装置、服务器及存储介质
CN111382190A (zh) 一种基于智能的对象推荐方法、装置和存储介质
CN111930894A (zh) 长文本匹配方法及装置、存储介质、电子设备
CN114330966A (zh) 一种风险预测方法、装置、设备以及可读存储介质
JP2023017921A (ja) コンテンツ推薦とソートモデルトレーニング方法、装置、機器、記憶媒体及びコンピュータプログラム
CN112149410A (zh) 语义识别方法、装置、计算机设备和存储介质
CN110717038A (zh) 对象分类方法及装置
CN113761220A (zh) 信息获取方法、装置、设备及存储介质
CN112231554A (zh) 一种搜索推荐词生成方法、装置、存储介质和计算机设备
CN115269781A (zh) 模态关联度预测方法、装置、设备、存储介质及程序产品
CN113128526B (zh) 图像识别方法、装置、电子设备和计算机可读存储介质
CN113761270A (zh) 视频召回方法、装置、电子设备以及存储介质
CN111988668A (zh) 一种视频推荐方法、装置、计算机设备及存储介质
CN115378890B (zh) 信息输入方法、装置、存储介质及计算机设备
JP2023017983A (ja) 情報生成モデルの訓練方法、情報生成方法、装置、電子機器、記憶媒体およびコンピュータプログラム
CN115168609A (zh) 一种文本匹配方法、装置、计算机设备和存储介质
CN115129930A (zh) 一种视频的信息处理方法、装置、计算机设备和存储介质
CN116756676A (zh) 一种摘要生成方法及相关装置
CN113821687A (zh) 一种内容检索方法、装置和计算机可读存储介质
CN113535946A (zh) 基于深度学习的文本鉴别方法、装置、设备及存储介质
CN114357152A (zh) 信息处理方法、装置、计算机可读存储介质和计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40046017

Country of ref document: HK