CN117807222A - 文本分类方法、装置、设备、计算机可读介质和程序产品 - Google Patents
文本分类方法、装置、设备、计算机可读介质和程序产品 Download PDFInfo
- Publication number
- CN117807222A CN117807222A CN202211175559.9A CN202211175559A CN117807222A CN 117807222 A CN117807222 A CN 117807222A CN 202211175559 A CN202211175559 A CN 202211175559A CN 117807222 A CN117807222 A CN 117807222A
- Authority
- CN
- China
- Prior art keywords
- viewpoint
- text
- unknown
- type
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000001514 detection method Methods 0.000 claims abstract description 52
- 239000013598 vector Substances 0.000 claims description 91
- 238000013507 mapping Methods 0.000 claims description 68
- 238000013145 classification model Methods 0.000 claims description 56
- 238000005457 optimization Methods 0.000 claims description 48
- 238000012549 training Methods 0.000 claims description 35
- 238000009826 distribution Methods 0.000 claims description 32
- 238000009877 rendering Methods 0.000 claims description 28
- 230000004044 response Effects 0.000 claims description 23
- 238000004590 computer program Methods 0.000 claims description 15
- 238000007418 data mining Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 239000003086 colorant Substances 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000002159 abnormal effect Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011478 gradient descent method Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 101100272279 Beauveria bassiana Beas gene Proteins 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 210000004209 hair Anatomy 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开的实施例公开了文本分类方法、装置、设备、计算机可读介质和程序产品。该方法的一具体实施方式包括:对用户观点文本集合中的各个用户观点文本进行观点类型检测,得到上述用户观点文本集合中各个用户观点文本的观点类型;从上述用户观点文本集合中选择对应的观点类型满足预设未知类型条件的用户观点文本作为未知观点文本,得到未知观点文本集合;确定目标观点类型集合;根据上述未知观点文本集合和目标观点类型集合,生成上述未知观点文本集合中各个未知观点文本的未知观点类型。该实施方式与文本数据挖掘有关,提升了用户观点分类的效率。
Description
技术领域
本公开的实施例涉及文本数据挖掘技术领域,具体涉及文本分类方法、装置、设备、计算机可读介质和程序产品。
背景技术
用户观点是用户针对物品或服务的反馈信息。随着线上平台技术的发展,用户观点的体量呈现海量递增的趋势。目前,在对用户观点进行分类时,通常采用的方式为:基于已经确定的观点类别体系进行分类,并通过人工检索未知观点数据,以专家知识定义所检索的未知观点数据的新观点类型,用于迭代分类模型进行分类。
然而,发明人发现,当采用上述方式对用户观点进行分类时,经常会存在如下技术问题:通过人工检索未知观点数据,并以专家知识定义所检索的未知观点数据的新观点类型的方式,需要花费大量的时间进行数据检索和新观点类型定义,且检索条件较为复杂、新观点类型定义任务量较多,迭代分类模型的效率较低,导致用户观点分类效率较低。
该背景技术部分中所公开的以上信息仅用于增强对本发明构思的背景的理解,并因此,其可包含并不形成本国的本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
本公开的一些实施例提出了文本分类方法、装置、电子设备、计算机可读介质和程序产品,来解决以上背景技术部分提到的技术问题中的一项或多项。
第一方面,本公开的一些实施例提供了一种文本分类方法,该方法包括:对用户观点文本集合中的各个用户观点文本进行观点类型检测,得到上述用户观点文本集合中各个用户观点文本的观点类型;从上述用户观点文本集合中选择对应的观点类型满足预设未知类型条件的用户观点文本作为未知观点文本,得到未知观点文本集合;确定目标观点类型集合;根据上述未知观点文本集合和上述目标观点类型集合,生成上述未知观点文本集合中各个未知观点文本的未知观点类型。
可选地,上述确定目标观点类型集合,包括:生成对应上述未知观点文本集合的至少一个新增观点类型;将所生成的各个新增观点类型确定为目标观点类型集合。
可选地,上述确定目标观点类型集合,包括:接收对应上述未知观点文本集合的至少一个新增观点类型;将所接收的各个新增观点类型确定为目标观点类型集合。
可选地,上述对用户观点文本集合中的各个用户观点文本进行观点类型检测,得到上述用户观点文本集合中各个用户观点文本的观点类型,包括:将上述用户观点文本集合输入至预先训练的观点类型检测模型,得到上述用户观点文本集合中各个用户观点文本的观点类型。
可选地,上述观点类型检测模型包括语言表示模型、生成器和判别器;以及上述观点类型检测模型是通过以下步骤训练得到的:将已知观点样本集合包括的各个已知观点样本文本和各个已知观点类型输入至上述语言表示模型,得到已知观点样本向量集合和已知观点类型向量集合;生成噪声观点样本集合;根据上述已知观点样本向量集合、上述已知观点类型向量集合、上述噪声观点样本集合、生成器和判别器,执行以下训练步骤:将上述噪声观点样本集合输入至生成器,得到噪声观点样本分布集合,其中,上述噪声观点样本分布集合中的噪声观点样本分布对应上述噪声观点样本集合中的噪声观点样本;将上述已知观点样本向量集合、上述已知观点类型向量集合和上述噪声观点样本分布集合输入至判别器,得到对应上述各个已知观点样本文本的观点分类结果、对应上述各个已知观点类型的观点类型分类结果和对应上述噪声观点样本集合的噪声观点分类结果;根据上述观点分类结果、上述观点类型分类结果和上述噪声观点分类结果,确定判别器是否达到判别器优化目标;根据上述观点分类结果和上述噪声观点分类结果,确定生成器是否达到生成器优化目标;响应于确定生成器达到上述生成器优化目标,且判别器达到上述判别器优化目标,将上述语言表示模型、生成器和判别器组合为训练完成的观点类型检测模型。
可选地,上述训练步骤还包括:响应于确定生成器未达到上述生成器优化目标,且/或判别器未达到上述判别器优化目标,调整生成器和/或判别器的模型参数,使用调整后的生成器作为生成器,以及/或使用调整后的判别器作为判别器,再次执行上述训练步骤。
可选地,上述根据上述未知观点文本集合和上述目标观点类型集合,生成上述未知观点文本集合中各个未知观点文本的未知观点类型,包括:将上述未知观点文本集合和上述目标观点类型集合输入至预先训练的未知观点文本分类模型,得到上述未知观点文本集合中各个未知观点文本的未知观点类型。
可选地,上述未知观点文本分类模型包括观点文本语言表示模型、空间映射层和观点类型语言表示模型;以及上述未知观点文本分类模型是通过以下步骤训练得到的:将已知观点样本集合包括的各个已知观点样本文本输入至上述观点文本语言表示模型,得到已知观点样本向量集合;将上述已知观点样本集合包括的各个已知观点类型输入至上述观点类型语言表示模型,得到已知观点类型向量集合;根据上述空间映射向量集合和空间映射层,执行以下未知观点文本分类模型训练步骤:将上述已知观点样本向量集合和上述已知观点类型向量集合输入至空间映射层,得到观点文本分类结果;根据上述观点文本分类结果,确定空间映射层是否达到分类优化目标;响应于确定空间映射层达到上述分类优化目标,将上述观点文本语言表示模型、空间映射层和上述观点类型语言表示模型组合为未知观点文本分类模型。
可选地,上述未知观点文本分类模型训练步骤还包括:响应于确定空间映射层未达到上述分类优化目标,调整空间映射层的模型参数,使用调整后的空间映射层作为空间映射层,再次执行上述未知观点文本分类模型训练步骤。
可选地,方法还包括:将上述用户观点文本集合中与上述未知观点文本集合中的各个未知观点文本相异的用户观点文本确定为已知观点文本,得到已知观点文本集合;根据已知观点文本渲染模板,在通信连接的显示设备中渲染上述已知观点文本集合和上述已知观点文本集合中各个已知观点文本的观点类型;根据未知观点文本渲染模板,在上述显示设备中渲染上述未知观点文本集合和上述未知观点文本集合中各个未知观点文本的未知观点类型。
第二方面,本公开的一些实施例提供了一种文本分类装置,装置包括:检测单元,被配置成对用户观点文本集合中的各个用户观点文本进行观点类型检测,得到上述用户观点文本集合中各个用户观点文本的观点类型;选择单元,被配置成从上述用户观点文本集合中选择对应的观点类型满足预设未知类型条件的用户观点文本作为未知观点文本,得到未知观点文本集合;确定单元,被配置成确定目标观点类型集合;生成单元,被配置成根据上述未知观点文本集合和上述目标观点类型集合,生成上述未知观点文本集合中各个未知观点文本的未知观点类型。
可选地,确定单元进一步被配置成:生成对应上述未知观点文本集合的至少一个新增观点类型;将所生成的各个新增观点类型确定为目标观点类型集合。
可选地,确定单元进一步被配置成:接收对应上述未知观点文本集合的至少一个新增观点类型;将所接收的各个新增观点类型确定为目标观点类型集合。
可选地,检测单元进一步被配置成:将上述用户观点文本集合输入至预先训练的观点类型检测模型,得到上述用户观点文本集合中各个用户观点文本的观点类型。
可选地,上述观点类型检测模型包括语言表示模型、生成器和判别器。
可选地,上述观点类型检测模型是通过以下步骤训练得到的:将已知观点样本集合包括的各个已知观点样本文本和各个已知观点类型输入至上述语言表示模型,得到已知观点样本向量集合和已知观点类型向量集合;生成噪声观点样本集合;根据上述已知观点样本向量集合、上述已知观点类型向量集合、上述噪声观点样本集合、生成器和判别器,执行以下训练步骤:将上述噪声观点样本集合输入至生成器,得到噪声观点样本分布集合,其中,上述噪声观点样本分布集合中的噪声观点样本分布对应上述噪声观点样本集合中的噪声观点样本;将上述已知观点样本向量集合、上述已知观点类型向量集合和上述噪声观点样本分布集合输入至判别器,得到对应上述各个已知观点样本文本的观点分类结果、对应上述各个已知观点类型的观点类型分类结果和对应上述噪声观点样本集合的噪声观点分类结果;根据上述观点分类结果、上述观点类型分类结果和上述噪声观点分类结果,确定判别器是否达到判别器优化目标;根据上述观点分类结果和上述噪声观点分类结果,确定生成器是否达到生成器优化目标;响应于确定生成器达到上述生成器优化目标,且判别器达到上述判别器优化目标,将上述语言表示模型、生成器和判别器组合为训练完成的观点类型检测模型。
可选地,上述训练步骤还包括:响应于确定生成器未达到上述生成器优化目标,且/或判别器未达到上述判别器优化目标,调整生成器和/或判别器的模型参数,使用调整后的生成器作为生成器,以及/或使用调整后的判别器作为判别器,再次执行上述训练步骤。
可选地,生成单元进一步被配置成:将上述未知观点文本集合和上述目标观点类型集合输入至预先训练的未知观点文本分类模型,得到上述未知观点文本集合中各个未知观点文本的未知观点类型。
可选地,上述未知观点文本分类模型包括观点文本语言表示模型、空间映射层和观点类型语言表示模型。
可选地,上述未知观点文本分类模型是通过以下步骤训练得到的:将已知观点样本集合包括的各个已知观点样本文本输入至上述观点文本语言表示模型,得到已知观点样本向量集合;将上述已知观点样本集合包括的各个已知观点类型输入至上述观点类型语言表示模型,得到已知观点类型向量集合;根据上述空间映射向量集合和空间映射层,执行以下未知观点文本分类模型训练步骤:将上述已知观点样本向量集合和上述已知观点类型向量集合输入至空间映射层,得到观点文本分类结果;根据上述观点文本分类结果,确定空间映射层是否达到分类优化目标;响应于确定空间映射层达到上述分类优化目标,将上述观点文本语言表示模型、空间映射层和上述观点类型语言表示模型组合为未知观点文本分类模型。
可选地,上述未知观点文本分类模型训练步骤还包括:响应于确定空间映射层未达到上述分类优化目标,调整空间映射层的模型参数,使用调整后的空间映射层作为空间映射层,再次执行上述未知观点文本分类模型训练步骤。
可选地,装置还包括:已知观点文本确定单元、第一渲染单元和第二渲染单元。其中,已知观点文本确定单元被配置成将上述用户观点文本集合中与上述未知观点文本集合中的各个未知观点文本相异的用户观点文本确定为已知观点文本,得到已知观点文本集合。第一渲染单元被配置成根据已知观点文本渲染模板,在通信连接的显示设备中渲染上述已知观点文本集合和上述已知观点文本集合中各个已知观点文本的观点类型。第二渲染单元被配置成根据未知观点文本渲染模板,在上述显示设备中渲染上述未知观点文本集合和上述未知观点文本集合中各个未知观点文本的未知观点类型。
第三方面,本公开的一些实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现上述第一方面任一实现方式所描述的方法。
第四方面,本公开的一些实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,程序被处理器执行时实现上述第一方面任一实现方式所描述的方法。
第五方面,本公开的一些实施例提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现上述第一方面任一实现方式所描述的方法。
本公开的上述各个实施例具有如下有益效果:通过本公开的一些实施例的文本分类方法,提升了用户观点分类的效率。具体来说,造成用户观点分类效率较低的原因在于:通过人工检索未知观点数据,并以专家知识定义所检索的未知观点数据的新观点类型的方式,需要花费大量的时间进行数据检索和新观点类型定义,且检索条件较为复杂、新观点类型定义任务量较多,迭代分类模型的效率较低,导致用户观点分类效率较低。基于此,本公开的一些实施例的文本分类方法,首先,对用户观点文本集合中的各个用户观点文本进行观点类型检测,得到上述用户观点文本集合中各个用户观点文本的观点类型。由此,可以检测用户观点文本的观点类型。然后,从上述用户观点文本集合中选择对应的观点类型满足预设未知类型条件的用户观点文本作为未知观点文本,得到未知观点文本集合。由此,可以根据所检测的观点类型,自动筛选未知观点类型的各个用户观点文本。之后,确定目标观点类型集合。由此,确定的目标观点类型集合可以用于对未知观点文本进行分类。最后,根据上述未知观点文本集合和上述目标观点类型集合,生成上述未知观点文本集合中各个未知观点文本的未知观点类型。由此,可以通过在先确定的目标观点类型集合,自动识别未知观点文本的未知观点类型,无需对未知观点文本分类模型进行迭代。也因为可以自动筛选未知观点类型的各个用户观点文本,避免了通过人工检索未知观点数据。还因为可以自动识别未知观点文本的未知观点类型,无需每次都对未知观点文本分类模型进行迭代,减少了分类模型的迭代次数,从而提高了迭代分类模型的效率,进而提升了用户观点分类的效率。
附图说明
结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,元件和元素不一定按照比例绘制。
图1是根据本公开的一些实施例的文本分类方法的一个应用场景的示意图;
图2是根据本公开的文本分类方法的一些实施例的流程图;
图3是根据本公开的文本分类方法的另一些实施例的流程图;
图4是根据本公开的文本分类方法的一些实施例的观点类型检测模型的结构示意图;
图5是根据本公开的文本分类方法的又一些实施例的流程图;
图6是根据本公开的文本分类方法的一些实施例的未知观点文本分类模型的结构示意图;
图7是根据本公开的文本分类装置的一些实施例的结构示意图;
图8是适于用来实现本公开的一些实施例的电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例。相反,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
本公开中所涉及的用户个人信息(例如用户观点文本)的收集、存储、使用等操作,在执行相应操作之前,相关组织或个人尽到包括开展个人信息安全影响评估、向个人信息主体履行告知义务、事先征得个人信息主体的授权同意等义务。
下面将参考附图并结合实施例来详细说明本公开。
图1是根据本公开一些实施例的文本分类方法的一个应用场景的示意图。
在图1的应用场景中,首先,计算设备101可以对用户观点文本集合102中的各个用户观点文本进行观点类型检测,得到上述用户观点文本集合中各个用户观点文本的观点类型103。用户观点文本集合102可以为“[这个剃须刀跟本剃不干净会有很长胡须,颜色也不对,产品与实际不符,手感不好,声音大]”。各个用户观点文本的观点类型103可以为“[剃不干净,颜色错误,NULL,NULL,声音太大]”。其中,观点类型“剃不干净”对应用户观点文本“这个剃须刀跟本剃不干净会有很长胡须”。观点类型“颜色错误”对应用户观点文本“颜色也不对”。NULL可以表征观点类型未知。第一个观点类型“NULL”对应用户观点文本“产品与实际不符”。第二个观点类型“NULL”对应用户观点文本“手感不好”。观点类型“声音太大”对应用户观点文本“声音大”。然后,计算设备101可以从上述用户观点文本集合102中选择对应的观点类型满足预设未知类型条件的用户观点文本作为未知观点文本,得到未知观点文本集合104。未知观点文本集合104可以为“[产品与实际不符,手感不好]”。最后,计算设备101可以根据上述未知观点文本集合104和目标观点类型集合105,生成上述未知观点文本集合104中各个未知观点文本的未知观点类型106。目标观点类型集合105可以为“[较差,不好,不符合,破损]”。各个未知观点文本的未知观点类型106可以为“[不符合,不好]”。其中,未知观点文本“产品与实际不符”的未知观点类型为“不符合”。未知观点文本“手感不好”的未知观点类型为“不好”。
需要说明的是,上述计算设备101可以是硬件,也可以是软件。当计算设备为硬件时,可以实现成多个服务器或终端设备组成的分布式集群,也可以实现成单个服务器或单个终端设备。当计算设备体现为软件时,可以安装在上述所列举的硬件设备中。其可以实现成例如用来提供分布式服务的多个软件或软件模块,也可以实现成单个软件或软件模块。在此不做具体限定。
应该理解,图1中的计算设备的数目仅仅是示意性的。根据实现需要,可以具有任意数目的计算设备。
继续参考图2,示出了根据本公开的文本分类方法的一些实施例的流程200。该文本分类方法,包括以下步骤:
步骤201,对用户观点文本集合中的各个用户观点文本进行观点类型检测,得到用户观点文本集合中各个用户观点文本的观点类型。
在一些实施例中,文本分类方法的执行主体(例如图1所示的计算设备101)可以对用户观点文本集合中的各个用户观点文本进行观点类型检测,得到上述用户观点文本集合中各个用户观点文本的观点类型。其中,上述用户观点文本集合可以包括至少一个用户观点文本。上述用户观点文本集合中的用户观点文本可以为待检测观点类型的表征用户观点的文本。例如,上述用户观点文本可以为用户针对一物品或服务所反馈的文本。实践中,上述执行主体可以通过异常检测算法,从上述用户观点文本集合中选择异常的用户观点文本作为异常用户观点文本,得到异常用户观点文本集合。然后,可以将异常用户观点文本集合中各个异常用户观点文本的观点类型确定为未知观点类。例如,上述异常检测算法可以为基于高斯分布的异常检测算法。
实践中,上述执行主体还可以通过预先训练的决策树分类模型,对上述用户观点文本集合中的各个用户观点文本进行分类,得到上述用户观点文本集合中各个用户观点文本的观点类型。其中,上述各个用户观点文本的观点类型可以包括未知观点类和各个已知观点类。上述各个已知观点类可以为已知的各个观点类型。上述未知观点类可以表征预先训练的决策树分类模型中没有对应用户观点文本的已知观点类。
步骤202,从用户观点文本集合中选择对应的观点类型满足预设未知类型条件的用户观点文本作为未知观点文本,得到未知观点文本集合。
在一些实施例中,上述执行主体可以从上述用户观点文本集合中选择对应的观点类型满足预设未知类型条件的用户观点文本作为未知观点文本,得到未知观点文本集合。其中,上述预设未知类型条件可以为“观点类型为未知观点类”。
步骤203,确定目标观点类型集合。
在一些实施例中,上述执行主体可以确定目标观点类型集合。其中,上述目标观点类型集合可以为用于对未知观点文本进行分类的各个观点类型。实践中,上述执行主体可以将预设的各个观点类型确定为目标观点类型集合。
在一些实施例的一些可选的实现方式中,上述执行主体可以通过以下步骤确定目标观点类型集合:
第一步,生成对应上述未知观点文本集合的至少一个新增观点类型。实践中,上述执行主体可以生成上述未知观点文本集合中每个未知观点文本的哈希值作为新增观点类型。实践中,上述执行主体还可以从上述未知观点文本集合中随机选择预设数目个未知观点文本。其中,上述预设数目大于等于1。对于预设数目的具体设定,不做限定。然后,可以生成上述预设数目个未知观点文本中每个未知观点文本的哈希值作为新增观点类型。
第二步,将所生成的各个新增观点类型确定为目标观点类型集合。由此,可以自动定义未知观点文本的类别,无需人工定义。
在一些实施例的一些可选的实现方式中,上述执行主体可以通过以下步骤确定目标观点类型集合:
第一步,接收对应上述未知观点文本集合的至少一个新增观点类型。其中,上述至少一个新增观点类型中的新增观点类型可以为针对上述未知观点文本集合中的未知观点文本所设置的观点类型。上述至少一个新增观点类型的数量可以小于上述未知观点文本集合包括的未知观点文本的数量。上述至少一个新增观点类型可以是技术人员设置的。
第二步,将所接收的各个新增观点类型确定为目标观点类型集合。由此,可以将接收的针对未知观点文本集合中的未知观点文本设置的新增观点类型确定为目标观点类型,减少了人工定义未知观点类型的工作量。
步骤204,根据未知观点文本集合和目标观点类型集合,生成未知观点文本集合中各个未知观点文本的未知观点类型。
在一些实施例中,上述执行主体可以根据上述未知观点文本集合和上述目标观点类型集合,生成上述未知观点文本集合中各个未知观点文本的未知观点类型。实践中,上述执行主体可以对上述未知观点文本集合中的每个未知观点文本进行编码处理,以生成未知观点文本向量,得到未知观点文本向量集合。然后,上述执行主体可以对上述目标观点类型集合中的每个目标观点类型进行编码处理,以生成目标观点类型向量,得到目标观点类型向量集合。这里,编码处理可以为将文本转换为向量的处理。例如,编码处理可以为独热编码处理。之后,对于上述未知观点文本向量集合中的每个未知观点文本向量,上述执行主体可以执行以下步骤:
第一步,确定上述未知观点文本向量与上述目标观点类型向量集合中各个目标观点类型向量的相似度,得到相似度集合。其中,上述相似度可以为余弦相似度。这里,对于相似度的具体确定方式,不做限定。
第二步,将上述相似度集合中满足预设相似度条件的相似度确定为目标相似度。其中,上述预设相似度条件可以为“相似度为上述相似度集合中的最大值”。
第三步,将上述目标相似度对应的目标观点类型确定为上述未知观点文本向量所对应的未知观点文本的未知观点类型。
可选地,首先,上述执行主体可以将上述用户观点文本集合中与上述未知观点文本集合中的各个未知观点文本相异的用户观点文本确定为已知观点文本,得到已知观点文本集合。与上述未知观点文本集合中的各个未知观点文本相异的用户观点文本可以为与上述未知观点文本集合中的各个未知观点文本均相异的用户观点文本。
然后,可以根据已知观点文本渲染模板,在通信连接的显示设备中渲染上述已知观点文本集合和上述已知观点文本集合中各个已知观点文本的观点类型。其中,上述已知观点文本渲染模板可以为用于对已知观点文本及已知观点文本的观点类型进行渲染的模板。上述已知观点文本渲染模板可以包括第一文本底色和第一字体颜色集合。实践中,上述执行主体可以将上述已知观点文本集合和上述已知观点文本集合中各个已知观点文本的观点类型的文本底色渲染为上述第一文本底色,以及将相同观点类型的各个已知观点文本的字体颜色渲染为上述第一字体颜色集合中的第一字体颜色。不同观点类型的各个已知观点文本的字体颜色相异。第一文本底色和第一字体颜色集合可以以色号表示。
其次,可以根据未知观点文本渲染模板,在上述显示设备中渲染上述未知观点文本集合和上述未知观点文本集合中各个未知观点文本的未知观点类型。其中,上述未知观点文本渲染模板可以为用于对未知观点文本及未知观点文本的未知观点类型进行渲染的模板。上述未知观点文本渲染模板可以包括第二文本底色和第二字体颜色集合。实践中,上述执行主体可以将上述未知观点文本集合和上述未知观点文本集合中各个未知观点文本的未知观点类型的文本底色渲染为上述第二文本底色,以及将相同未知观点类型的各个未知观点文本的字体颜色渲染为上述第二字体颜色集合中的第二字体颜色。不同未知观点类型的各个未知观点文本的字体颜色相异。第二文本底色和第二字体颜色集合可以以色号表示。第二文本底色和第一字体颜色相异。对于第一文本底色和第一字体颜色集合、第二文本底色和第二字体颜色集合的具体设定,不做限定。由此,可以在显示设备中对已知观点文本集合、已知观点文本集合对应的各个观点类型、未知观点文本集合和未知观点文本集合对应的各个未知观点类型进行可视化,使得技术人员快速识别已知观点文本和未知观点文本,并可以直观的查看已知观点文本的观点类型和未知观点文本的未知观点类型。
本公开的上述各个实施例具有如下有益效果:通过本公开的一些实施例的文本分类方法,提升了用户观点分类的效率。具体来说,造成用户观点分类效率较低的原因在于:通过人工检索未知观点数据,并以专家知识定义所检索的未知观点数据的新观点类型的方式,需要花费大量的时间进行数据检索和新观点类型定义,且检索条件较为复杂、新观点类型定义任务量较多,迭代分类模型的效率较低,导致用户观点分类效率较低。基于此,本公开的一些实施例的文本分类方法,首先,对用户观点文本集合中的各个用户观点文本进行观点类型检测,得到上述用户观点文本集合中各个用户观点文本的观点类型。由此,可以检测用户观点文本的观点类型。然后,从上述用户观点文本集合中选择对应的观点类型满足预设未知类型条件的用户观点文本作为未知观点文本,得到未知观点文本集合。由此,可以根据所检测的观点类型,自动筛选未知观点类型的各个用户观点文本。之后,确定目标观点类型集合。由此,确定的目标观点类型集合可以用于对未知观点文本进行分类。最后,根据上述未知观点文本集合和上述目标观点类型集合,生成上述未知观点文本集合中各个未知观点文本的未知观点类型。由此,可以通过在先确定的目标观点类型集合,自动识别未知观点文本的未知观点类型,无需对未知观点文本分类模型进行迭代。也因为可以自动筛选未知观点类型的各个用户观点文本,避免了通过人工检索未知观点数据。还因为可以自动识别未知观点文本的未知观点类型,无需每次都对未知观点文本分类模型进行迭代,减少了分类模型的迭代次数,从而提高了迭代分类模型的效率,进而提升了用户观点分类的效率。
进一步参考图3,其示出了文本分类方法的另一些实施例的流程300。该文本分类方法的流程300,包括以下步骤:
步骤301,将用户观点文本集合输入至预先训练的观点类型检测模型,得到用户观点文本集合中各个用户观点文本的观点类型。
在一些实施例中,文文本分类方法的执行主体(例如图1所示的计算设备101)可以将上述用户观点文本集合输入至预先训练的观点类型检测模型,得到上述用户观点文本集合中各个用户观点文本的观点类型。其中,上述观点类型检测模型可以为以用户观点文本为输入数据,以观点类型为输出数据的神经网络模型。
可选地,上述观点类型检测模型可以包括语言表示模型、生成器和判别器。其中,上述语言表示模型可以为用于生成表示文本的向量的模型。例如,上述语言表示模型可以为Bert模型。上述生成器可以为用于生成噪声观点样本的分布的神经网络。上述判别器可以为用于分类的神经网络。例如,上述生成器和上述判别器可以均为MLP(MultilayerPerceptron,多层感知器)神经网络。作为示例,上述观点类型检测模型的模型结构可以如图4所示,上述观点类型检测模型可以包括语言表示模型401、生成器402和判别器403。
可选地,上述观点类型检测模型可以是通过以下步骤训练得到的:
第一步,将已知观点样本集合包括的各个已知观点样本文本和各个已知观点类型输入至上述语言表示模型,得到已知观点样本向量集合和已知观点类型向量集合。其中,上述已知观点样本集合可以为带观点类型标签的各个已知观点文本组成的样本集。上述已知观点样本集合中的已知观点样本可以包括已知观点样本文本和对应上述已知观点样本文本的已知观点类型。上述已知观点样本文本可以为观点类型已确定的用户观点文本。
第二步,生成噪声观点样本集合。实践中,上述执行主体可以通过正态分布随机生成各个噪声观点样本作为噪声观点样本集合。其中,上述正态分布可以为标准正态分布。上述噪声观点样本集合中的噪声观点样本可以包括噪声观点样本文本。
第三步,根据上述已知观点样本向量集合、上述已知观点类型向量集合、上述噪声观点样本集合、生成器和判别器,执行以下训练步骤:
第一子步骤,将上述噪声观点样本集合输入至生成器,得到噪声观点样本分布集合。其中,上述噪声观点样本分布集合中的噪声观点样本分布对应上述噪声观点样本集合中的噪声观点样本。上述噪声观点样本分布集合中的噪声观点样本分布与上述噪声观点样本集合中的噪声观点样本间的对应关系可以为一一对应。上述噪声观点样本分布集合中的噪声观点样本分布可以为噪声观点样本在噪声观点类型下的概率分布。上述噪声观点类型可以表征噪声观点样本是否为噪声数据。噪声观点类型可以为噪声类或非噪声类。此时,噪声数据的观点类型是未经过确定的。
第二子步骤,将上述已知观点样本向量集合、上述已知观点类型向量集合和上述噪声观点样本分布集合输入至判别器,得到对应上述各个已知观点样本文本的观点分类结果、对应上述各个已知观点类型的观点类型分类结果和对应上述噪声观点样本集合的噪声观点分类结果。其中,上述观点分类结果可以包括对应上述各个已知观点样本文本的已知观点类型集合。每个已知观点样本文本对应有已知观点类型。上述观点类型分类结果可以包括对应上述各个已知观点类型的识别的已知观点类型集合。上述各个已知观点类型中的每个已知观点类型对应有识别的已知观点类型。上述噪声观点分类结果可以包括对应上述噪声观点样本集合的噪声观点类型集合。每个噪声观点样本对应有噪声观点类型。
第三子步骤,根据上述观点分类结果、上述观点类型分类结果和上述噪声观点分类结果,确定判别器是否达到判别器优化目标。实践中,首先,上述执行主体可以根据上述观点分类结果,生成观点分类损失值。实践中,上述执行主体可以根据上述观点分类结果包括的已知观点类型集合和上述已知观点样本向量集合,通过以下公式生成观点分类损失值:
其中,Lce表示观点分类损失值。N表示上述已知观点样本集合包括的已知观点样本的数量。表示已知观点样本向量属于已知观点类型yi的概率。/>表示已知观点样本向量属于第k个已知观点类型的概率。
然后,可以根据上述观点类型分类结果,生成观点类型分类损失值。实践中,上述执行主体可以根据上述观点类型分类结果包括的已知观点类型向量集合和上述已知观点样本向量集合,通过以下公式生成观点类型分类损失值:
其中,Ls表示观点类型分类损失值。xi表示第i个已知观点样本向量。ti表示第i个已知观点类型向量。
之后,可以根据上述噪声观点分类结果和上述观点分类结果,生成噪声观点分类损失值。实践中,上述执行主体可以根据上述噪声观点分类结果包括的噪声观点类型集合和上述噪声观点样本分布集合,以及上述观点分类结果包括的已知观点类型集合和上述已知观点样本向量集合,通过以下公式生成噪声观点分类损失值:
/>
其中,Lf表示噪声观点分类损失值。Nreal表示上述已知观点样本集合包括的已知观点样本的数量。Nfake表示上述噪声观点样本集合包括的噪声观点样本的数量。p(x fake)表示第i个已知观点样本向量或噪声观点样本向量为噪声类的概率。p(xj)表示第i个已知观点样本向量或噪声观点样本向量属于第j个观点类别的概率。这里,N+1个观点类别包括上述各个已知观点类型和噪声类。
然后,可以根据上述观点分类损失值、上述观点类型分类损失值和上述噪声观点分类损失值,生成判别器损失值。实践中,上述执行主体可以将上述观点分类损失值、上述观点类型分类损失值和上述噪声观点分类损失值的线性组合结果确定为判别器损失值。例如,可以将上述观点分类损失值、上述观点类型分类损失值与第一系数的乘积、上述噪声观点分类损失值与第二系数的乘积的和确定为判别器损失值。第一系数和第二系数可以为预设的小于预设数值的系数。例如,预设数值可以为1。对于第一系数和第二系数的具体设定,不作限定。例如,第一系数可以为0.001。第二系数可以为1。
最后,可以响应于确定上述判别器损失值满足预设判别器损失阈值条件,确定判别器达到判别器优化目标。其中,上述预设判别器损失阈值条件可以为“判别器损失值小于判别器损失阈值”。判别器损失阈值可以为预先设定的。
第四子步骤,根据上述观点分类结果和上述噪声观点分类结果,确定生成器是否达到生成器优化目标。实践中,首先,上述执行主体可以根据上述观点分类结果和上述噪声观点分类结果,生成生成器损失值。具体地,可以通过以下公式生成生成器损失值:
Lgen=L1+L2。
其中,Lgen表示生成器损失值。p(yfake)表示第i个噪声观点样本向量为噪声类的概率。p(yj)表示第i个噪声观点样本向量属于第j个观点类别的概率。sfake,i表示第i个噪声观点样本在上述判别器的倒数第二层的输出向量。Sreal,i表示第i个已知观点样本在上述判别器的倒数第二层的输出向量。上述判别器的倒数第二层为用于确定最终类别的分类层的前一层。然后,响应于确定上述生成器损失值满足预设生成器损失阈值条件,确定生成器达到生成器优化目标。预设生成器损失阈值条件可以为“生成器损失值小于生成器损失阈值”。生成器损失阈值可以为预先设定的。由此,可以使得判别器难以判别生成器生成的噪声观点样本。从而可以提升判别器识别噪声观点样本的准确性和完整率。
第五子步骤,响应于确定生成器达到上述生成器优化目标,且判别器达到上述判别器优化目标,将上述语言表示模型、生成器和判别器组合为训练完成的观点类型检测模型。由此,可以通过优化的损失函数,确定生成器和判别器的损失值,提升了观点类型检测模型的鲁棒性。
可选地,上述执行主体还可以响应于确定生成器未达到上述生成器优化目标,且/或判别器未达到上述判别器优化目标,调整生成器和/或判别器的模型参数,使用调整后的生成器作为生成器,以及/或使用调整后的判别器作为判别器,再次执行上述训练步骤。实践中,可以采用反向传播算法(Back Propgation Algorithm,BP算法)和梯度下降法(例如小批量梯度下降算法)对上述生成器和判别器的模型参数进行调整。
步骤302,从用户观点文本集合中选择对应的观点类型满足预设未知类型条件的用户观点文本作为未知观点文本,得到未知观点文本集合。
步骤303,确定目标观点类型集合。
步骤304,根据未知观点文本集合和目标观点类型集合,生成未知观点文本集合中各个未知观点文本的未知观点类型。
在一些实施例中,步骤302-304的具体实现及所带来的技术效果可以参考图2对应的那些实施例中的步骤202-204,在此不再赘述。
从图3中可以看出,与图2对应的一些实施例的描述相比,图3对应的一些实施例中的文本分类方法的流程300体现了通过预先训练的观点类型检测模型进行观点类型检测所扩展的步骤。由此,这些实施例描述的方案可以直接通过在先训练观点类型检测模型检测观点类型,提升了未知观点文本的识别效率。
进一步参考图5,其示出了文本分类方法的又一些实施例的流程500。该文本分类方法的流程500,包括以下步骤:
步骤501,对用户观点文本集合中的各个用户观点文本进行观点类型检测,得到用户观点文本集合中各个用户观点文本的观点类型。
步骤502,从用户观点文本集合中选择对应的观点类型满足预设未知类型条件的用户观点文本作为未知观点文本,得到未知观点文本集合。
步骤503,确定目标观点类型集合。
在一些实施例中,步骤501-503的具体实现及所带来的技术效果可以参考图2对应的那些实施例中的步骤201-203,在此不再赘述。
步骤504,将未知观点文本集合和目标观点类型集合输入至预先训练的未知观点文本分类模型,得到未知观点文本集合中各个未知观点文本的未知观点类型。
在一些实施例中,文本分类方法的执行主体(例如图1所示的计算设备101)可以将上述未知观点文本集合和上述目标观点类型集合输入至预先训练的未知观点文本分类模型,得到上述未知观点文本集合中各个未知观点文本的未知观点类型。其中,上述未知观点文本分类模型可以为以未知观点文本为输入数据、以上述目标观点类型集合中的目标观点类型为输出数据的分类模型。
可选地,上述未知观点文本分类模型可以包括观点文本语言表示模型、空间映射层和观点类型语言表示模型。其中,上述观点文本语言表示模型可以为用于生成表示观点文本的向量的模型。上述观点类型语言表示模型可以为用于生成表示观点类型的向量的模型。例如,上述观点文本语言表示模型和上述观点类型语言表示模型均可以为Bert模型。上述空间映射层可以为将观点文本从句文本空间映射到类空间中后进行分类的网络层。上述空间映射层可以将观点文本的文本向量映射为以空间基线性组合的映射结果,以及根据映射结果进行观点类型分类。上述映射结果可以以空间映射向量表示。上述空间基可以为目标数量个已知观点类型的已知观点类型向量组成的类别空间的一组基。目标数量可以为已知观点类型的数量。
例如,上述空间基可以表示为V=(v1,v2,v3,…,vn)。n为目标数量。观点文本的文本向量可以表示为su。文本向量su在上述类别空间中的映射结果可以为作为示例,上述未知观点文本分类模型的模型结构可以如图6所示,上述未知观点文本分类模型可以包括观点文本语言表示模型601、空间映射层602和观点类型语言表示模型603。
可选地,上述未知观点文本分类模型可以是通过以下步骤训练得到的:
第一步,将已知观点样本集合包括的各个已知观点样本文本输入至上述观点文本语言表示模型,得到已知观点样本向量集合。
第二步,将上述已知观点样本集合包括的各个已知观点类型输入至上述观点类型语言表示模型,得到已知观点类型向量集合。
第三步,根据上述空间映射向量集合和空间映射层,执行以下未知观点文本分类模型训练步骤:
第一子步骤,将上述已知观点样本向量集合和上述已知观点类型向量集合输入至空间映射层,得到观点文本分类结果。其中,上述观点文本分类结果包括上述已知观点样本向量集合中各个已知观点样本向量的观点类型。
第二子步骤,根据上述观点文本分类结果,确定空间映射层是否达到分类优化目标。实践中,上述执行主体可以通过交叉熵损失函数生成上述空间映射层的损失值。然后,响应于确定上述空间映射层的损失值满足预设分类损失阈值条件,确定空间映射层达到分类优化目标。其中,上述预设分类损失阈值条件可以为“空间映射层的损失值小于分类损失阈值”。对于分类损失阈值的具体设定,不作限定。
第三子步骤,响应于确定空间映射层达到上述分类优化目标,将上述观点文本语言表示模型、空间映射层和上述观点类型语言表示模型组合为未知观点文本分类模型。
可选地,上述执行主体还可以响应于确定空间映射层未达到上述分类优化目标,调整空间映射层的模型参数,使用调整后的空间映射层作为空间映射层,再次执行上述未知观点文本分类模型训练步骤。实践中,可以采用反向传播算法(Back PropgationAlgorithm,BP算法)和梯度下降法(例如小批量梯度下降算法)对上述空间映射层的模型参数进行调整。
从图5中可以看出,与图2对应的一些实施例的描述相比,图5对应的一些实施例中的文本分类方法的流程500体现了通过预先训练的未知观点文本分类模型进行未知观点分类所扩展的步骤。由此,这些实施例描述的方案可以直接通过在先训练的未知观点文本分类模型对识别到的未知观点文本进行分类,提升了未知观点文本的分类效率。
进一步参考图7,作为对上述各图所示方法的实现,本公开提供了一种文本分类装置的一些实施例,这些装置实施例与图2所示的那些方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图7所示,一些实施例的文本分类装置700包括:检测单元701、选择单元702、确定单元703和生成单元704。其中,检测单元701被配置成对用户观点文本集合中的各个用户观点文本进行观点类型检测,得到上述用户观点文本集合中各个用户观点文本的观点类型;选择单元702被配置成从上述用户观点文本集合中选择对应的观点类型满足预设未知类型条件的用户观点文本作为未知观点文本,得到未知观点文本集合;确定单元703被配置成确定目标观点类型集合;生成单元704被配置成根据上述未知观点文本集合和上述目标观点类型集合,生成上述未知观点文本集合中各个未知观点文本的未知观点类型。
可选地,确定单元703可以进一步被配置成:生成对应上述未知观点文本集合的至少一个新增观点类型;将所生成的各个新增观点类型确定为目标观点类型集合。
可选地,确定单元703可以进一步被配置成:接收对应上述未知观点文本集合的至少一个新增观点类型;将所接收的各个新增观点类型确定为目标观点类型集合。
可选地,检测单元701可以进一步被配置成:将上述用户观点文本集合输入至预先训练的观点类型检测模型,得到上述用户观点文本集合中各个用户观点文本的观点类型。
可选地,上述观点类型检测模型包括语言表示模型、生成器和判别器。
可选地,上述观点类型检测模型是通过以下步骤训练得到的:将已知观点样本集合包括的各个已知观点样本文本和各个已知观点类型输入至上述语言表示模型,得到已知观点样本向量集合和已知观点类型向量集合;生成噪声观点样本集合;根据上述已知观点样本向量集合、上述已知观点类型向量集合、上述噪声观点样本集合、生成器和判别器,执行以下训练步骤:将上述噪声观点样本集合输入至生成器,得到噪声观点样本分布集合,其中,上述噪声观点样本分布集合中的噪声观点样本分布对应上述噪声观点样本集合中的噪声观点样本;将上述已知观点样本向量集合、上述已知观点类型向量集合和上述噪声观点样本分布集合输入至判别器,得到对应上述各个已知观点样本文本的观点分类结果、对应上述各个已知观点类型的观点类型分类结果和对应上述噪声观点样本集合的噪声观点分类结果;根据上述观点分类结果、上述观点类型分类结果和上述噪声观点分类结果,确定判别器是否达到判别器优化目标;根据上述观点分类结果和上述噪声观点分类结果,确定生成器是否达到生成器优化目标;响应于确定生成器达到上述生成器优化目标,且判别器达到上述判别器优化目标,将上述语言表示模型、生成器和判别器组合为训练完成的观点类型检测模型。
可选地,上述训练步骤还可以包括:响应于确定生成器未达到上述生成器优化目标,且/或判别器未达到上述判别器优化目标,调整生成器和/或判别器的模型参数,使用调整后的生成器作为生成器,以及/或使用调整后的判别器作为判别器,再次执行上述训练步骤。
可选地,生成单元704可以进一步被配置成:将上述未知观点文本集合和上述目标观点类型集合输入至预先训练的未知观点文本分类模型,得到上述未知观点文本集合中各个未知观点文本的未知观点类型。
可选地,上述未知观点文本分类模型包括观点文本语言表示模型、空间映射层和观点类型语言表示模型。
可选地,上述未知观点文本分类模型是通过以下步骤训练得到的:将已知观点样本集合包括的各个已知观点样本文本输入至上述观点文本语言表示模型,得到已知观点样本向量集合;根据上述空间映射向量集合和空间映射层,执行以下未知观点文本分类模型训练步骤:将上述已知观点样本向量集合和上述已知观点类型向量集合输入至空间映射层,得到观点文本分类结果;根据上述观点文本分类结果,确定空间映射层是否达到分类优化目标;响应于确定空间映射层达到上述分类优化目标,将上述观点文本语言表示模型、空间映射层和上述观点类型语言表示模型组合为未知观点文本分类模型。
可选地,上述未知观点文本分类模型训练步骤还包括:响应于确定空间映射层未达到上述分类优化目标,调整空间映射层的模型参数,使用调整后的空间映射层作为空间映射层,再次执行上述未知观点文本分类模型训练步骤。
可选地,文本分类装置700可以还包括:已知观点文本确定单元、第一渲染单元和第二渲染单元(图中未示出)。其中,已知观点文本确定单元被配置成将上述用户观点文本集合中与上述未知观点文本集合中的各个未知观点文本相异的用户观点文本确定为已知观点文本,得到已知观点文本集合。第一渲染单元被配置成根据已知观点文本渲染模板,在通信连接的显示设备中渲染上述已知观点文本集合和上述已知观点文本集合中各个已知观点文本的观点类型。第二渲染单元被配置成根据未知观点文本渲染模板,在上述显示设备中渲染上述未知观点文本集合和上述未知观点文本集合中各个未知观点文本的未知观点类型。
可以理解的是,该装置700中记载的诸单元与参考图2描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作、特征以及产生的有益效果同样适用于装置700及其中包含的单元,在此不再赘述。
下面参考图8,其示出了适于用来实现本公开的一些实施例的电子设备(例如图1中的计算设备101)800的结构示意图。图8示出的电子设备仅仅是一个示例,不应对本公开的实施例的功能和使用范围带来任何限制。
如图8所示,电子设备800可以包括处理装置(例如中央处理器、图形处理器等)801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储装置808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中,还存储有电子设备800操作所需的各种程序和数据。处理装置801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
通常,以下装置可以连接至I/O接口805:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置806;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置807;包括例如磁带、硬盘等的存储装置808;以及通信装置809。通信装置809可以允许电子设备800与其他设备进行无线或有线通信以交换数据。虽然图8示出了具有各种装置的电子设备800,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图8中示出的每个方框可以代表一个装置,也可以根据需要代表多个装置。
特别地,根据本公开的一些实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的一些实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的一些实施例中,该计算机程序可以通过通信装置809从网络上被下载和安装,或者从存储装置808被安装,或者从ROM 802被安装。在该计算机程序被处理装置801执行时,执行本公开的一些实施例的方法中限定的上述功能。
需要说明的是,本公开的一些实施例中记载的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的一些实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的一些实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
在一些实施方式中,客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:对用户观点文本集合中的各个用户观点文本进行观点类型检测,得到上述用户观点文本集合中各个用户观点文本的观点类型;从上述用户观点文本集合中选择对应的观点类型满足预设未知类型条件的用户观点文本作为未知观点文本,得到未知观点文本集合;确定目标观点类型集合;根据上述未知观点文本集合和上述目标观点类型集合,生成上述未知观点文本集合中各个未知观点文本的未知观点类型。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的一些实施例的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开的一些实施例中的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括检测单元、选择单元、确定单元和生成单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,检测单元还可以被描述为“对用户观点文本集合中的各个用户观点文本进行观点类型检测,得到上述用户观点文本集合中各个用户观点文本的观点类型的单元”。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
本公开的一些实施例还提供一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现上述的任一种文本分类方法。
以上描述仅为本公开的一些较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开的实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (14)
1.一种文本分类方法,包括:
对用户观点文本集合中的各个用户观点文本进行观点类型检测,得到所述用户观点文本集合中各个用户观点文本的观点类型;
从所述用户观点文本集合中选择对应的观点类型满足预设未知类型条件的用户观点文本作为未知观点文本,得到未知观点文本集合;
确定目标观点类型集合;
根据所述未知观点文本集合和所述目标观点类型集合,生成所述未知观点文本集合中各个未知观点文本的未知观点类型。
2.根据权利要求1所述的方法,其中,所述确定目标观点类型集合,包括:
生成对应所述未知观点文本集合的至少一个新增观点类型;
将所生成的各个新增观点类型确定为目标观点类型集合。
3.根据权利要求1所述的方法,其中,所述确定目标观点类型集合,包括:
接收对应所述未知观点文本集合的至少一个新增观点类型;
将所接收的各个新增观点类型确定为目标观点类型集合。
4.根据权利要求1所述的方法,其中,所述对用户观点文本集合中的各个用户观点文本进行观点类型检测,得到所述用户观点文本集合中各个用户观点文本的观点类型,包括:
将所述用户观点文本集合输入至预先训练的观点类型检测模型,得到所述用户观点文本集合中各个用户观点文本的观点类型。
5.根据权利要求4所述的方法,其中,所述观点类型检测模型包括语言表示模型、生成器和判别器;以及
所述观点类型检测模型是通过以下步骤训练得到的:
将已知观点样本集合包括的各个已知观点样本文本和各个已知观点类型输入至所述语言表示模型,得到已知观点样本向量集合和已知观点类型向量集合;
生成噪声观点样本集合;
根据所述已知观点样本向量集合、所述已知观点类型向量集合、所述噪声观点样本集合、生成器和判别器,执行以下训练步骤:
将所述噪声观点样本集合输入至生成器,得到噪声观点样本分布集合,其中,所述噪声观点样本分布集合中的噪声观点样本分布对应所述噪声观点样本集合中的噪声观点样本;
将所述已知观点样本向量集合、所述已知观点类型向量集合和所述噪声观点样本分布集合输入至判别器,得到对应所述各个已知观点样本文本的观点分类结果、对应所述各个已知观点类型的观点类型分类结果和对应所述噪声观点样本集合的噪声观点分类结果;
根据所述观点分类结果、所述观点类型分类结果和所述噪声观点分类结果,确定判别器是否达到判别器优化目标;
根据所述观点分类结果和所述噪声观点分类结果,确定生成器是否达到生成器优化目标;
响应于确定生成器达到所述生成器优化目标,且判别器达到所述判别器优化目标,将所述语言表示模型、生成器和判别器组合为训练完成的观点类型检测模型。
6.根据权利要求5所述的方法,其中,所述训练步骤还包括:
响应于确定生成器未达到所述生成器优化目标,且/或判别器未达到所述判别器优化目标,调整生成器和/或判别器的模型参数,使用调整后的生成器作为生成器,以及/或使用调整后的判别器作为判别器,再次执行所述训练步骤。
7.根据权利要求1-6之一所述的方法,其中,所述根据所述未知观点文本集合和所述目标观点类型集合,生成所述未知观点文本集合中各个未知观点文本的未知观点类型,包括:
将所述未知观点文本集合和所述目标观点类型集合输入至预先训练的未知观点文本分类模型,得到所述未知观点文本集合中各个未知观点文本的未知观点类型。
8.根据权利要求7所述的方法,其中,所述未知观点文本分类模型包括观点文本语言表示模型、空间映射层和观点类型语言表示模型;以及
所述未知观点文本分类模型是通过以下步骤训练得到的:
将已知观点样本集合包括的各个已知观点样本文本输入至所述观点文本语言表示模型,得到已知观点样本向量集合;
将所述已知观点样本集合包括的各个已知观点类型输入至所述观点类型语言表示模型,得到已知观点类型向量集合;
根据所述空间映射向量集合和空间映射层,执行以下未知观点文本分类模型训练步骤:
将所述已知观点样本向量集合和所述已知观点类型向量集合输入至空间映射层,得到观点文本分类结果;
根据所述观点文本分类结果,确定空间映射层是否达到分类优化目标;
响应于确定空间映射层达到所述分类优化目标,将所述观点文本语言表示模型、空间映射层和所述观点类型语言表示模型组合为未知观点文本分类模型。
9.根据权利要求8所述的方法,其中,所述未知观点文本分类模型训练步骤还包括:
响应于确定空间映射层未达到所述分类优化目标,调整空间映射层的模型参数,使用调整后的空间映射层作为空间映射层,再次执行所述未知观点文本分类模型训练步骤。
10.根据权利要求1所述的方法,其中,所述方法还包括:
将所述用户观点文本集合中与所述未知观点文本集合中的各个未知观点文本相异的用户观点文本确定为已知观点文本,得到已知观点文本集合;
根据已知观点文本渲染模板,在通信连接的显示设备中渲染所述已知观点文本集合和所述已知观点文本集合中各个已知观点文本的观点类型;
根据未知观点文本渲染模板,在所述显示设备中渲染所述未知观点文本集合和所述未知观点文本集合中各个未知观点文本的未知观点类型。
11.一种文本分类装置,包括:
检测单元,被配置成对用户观点文本集合中的各个用户观点文本进行观点类型检测,得到所述用户观点文本集合中各个用户观点文本的观点类型;
选择单元,被配置成从所述用户观点文本集合中选择对应的观点类型满足预设未知类型条件的用户观点文本作为未知观点文本,得到未知观点文本集合;
确定单元,被配置成确定目标观点类型集合;
生成单元,被配置成根据所述未知观点文本集合和所述目标观点类型集合,生成所述未知观点文本集合中各个未知观点文本的未知观点类型。
12.一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-10中任一所述的方法。
13.一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1-10中任一所述的方法。
14.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-10中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211175559.9A CN117807222A (zh) | 2022-09-26 | 2022-09-26 | 文本分类方法、装置、设备、计算机可读介质和程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211175559.9A CN117807222A (zh) | 2022-09-26 | 2022-09-26 | 文本分类方法、装置、设备、计算机可读介质和程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117807222A true CN117807222A (zh) | 2024-04-02 |
Family
ID=90420715
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211175559.9A Pending CN117807222A (zh) | 2022-09-26 | 2022-09-26 | 文本分类方法、装置、设备、计算机可读介质和程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117807222A (zh) |
-
2022
- 2022-09-26 CN CN202211175559.9A patent/CN117807222A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109379377B (zh) | 加密恶意流量检测方法、装置、电子设备及存储介质 | |
CN108197652B (zh) | 用于生成信息的方法和装置 | |
US11442804B2 (en) | Anomaly detection in data object text using natural language processing (NLP) | |
CN113765928B (zh) | 物联网入侵检测方法、设备及介质 | |
CN110795944A (zh) | 推荐内容处理方法及装置、情感属性确定方法及装置 | |
CN111327608A (zh) | 基于级联深度神经网络的应用层恶意请求检测方法及系统 | |
US11645540B2 (en) | Deep graph de-noise by differentiable ranking | |
CN112508199A (zh) | 针对跨特征联邦学习的特征选择方法、装置及相关设备 | |
CN116932919B (zh) | 信息推送方法、装置、电子设备和计算机可读介质 | |
CN110858226A (zh) | 对话管理方法和装置 | |
CN114036051A (zh) | 测试方法、装置、设备以及存储介质 | |
CN114357170A (zh) | 模型训练方法、分析方法、装置、设备及介质 | |
CN114880482A (zh) | 一种基于图嵌入的关系图谱关键人员分析方法及系统 | |
CN115114329A (zh) | 数据流异常检测的方法、装置、电子设备和存储介质 | |
CN111161238A (zh) | 图像质量评价方法及装置、电子设备、存储介质 | |
CN114792097B (zh) | 预训练模型提示向量的确定方法、装置及电子设备 | |
CN117807222A (zh) | 文本分类方法、装置、设备、计算机可读介质和程序产品 | |
CN115130536A (zh) | 特征提取模型的训练方法、数据处理方法、装置及设备 | |
CN113408702A (zh) | 音乐神经网络模型预训练方法及电子设备和存储介质 | |
CN113822313A (zh) | 图节点异常检测方法及装置 | |
CN115186096A (zh) | 针对特定类型分词的识别方法、装置、介质及电子设备 | |
CN114912568A (zh) | 数据处理的方法、设备和计算机可读存储介质 | |
CN116501993B (zh) | 房源数据推荐方法及装置 | |
CN110610392A (zh) | 数据处理方法及系统、计算机系统和计算机可读存储介质 | |
CN110659657B (zh) | 训练模型的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |