CN113641823B - 文本分类模型训练、文本分类方法、装置、设备及介质 - Google Patents

文本分类模型训练、文本分类方法、装置、设备及介质 Download PDF

Info

Publication number
CN113641823B
CN113641823B CN202110961278.5A CN202110961278A CN113641823B CN 113641823 B CN113641823 B CN 113641823B CN 202110961278 A CN202110961278 A CN 202110961278A CN 113641823 B CN113641823 B CN 113641823B
Authority
CN
China
Prior art keywords
target text
classification
sample data
target
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110961278.5A
Other languages
English (en)
Other versions
CN113641823A (zh
Inventor
张家铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202110961278.5A priority Critical patent/CN113641823B/zh
Publication of CN113641823A publication Critical patent/CN113641823A/zh
Application granted granted Critical
Publication of CN113641823B publication Critical patent/CN113641823B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种文本分类模型训练、文本分类方法、装置、设备及介质,涉及数据处理技术领域,进一步涉及深度学习和云计算等人工智能技术,包括:根据目标文本的历史存储关联数据生成目标文本样本数据;将第一目标文本样本数据输入至文本分类模型的第一文本分类器,得到第一目标文本分类结果;将第二目标文本样本数据输入至文本分类模型的第二文本分类器,得到第二目标文本分类结果;根据第一目标文本分类结果和第二目标文本分类结果确定目标文本样本数据的目标文本分类结果,以对所述文本分类模型进行训练。本公开实施例能够提高文本分类模型的分类效果和泛化能力,从而提高文本分类模型的准确率,进而提高文本分类的准确率。

Description

文本分类模型训练、文本分类方法、装置、设备及介质
技术领域
本公开涉及数据处理技术领域,具体涉及深度学习和云计算等人工智能技术。
背景技术
人工智能(Artificial Intelligence,AI))是计算机科学的一个综合技术,通过研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,例如自然语言处理技术以及机器学习/深度学习等几大方向,随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。文本分类模型是人工智能领域的重要应用之一,文本分类模型可以识别出文本所属的类别。文本分类模型在新闻推荐、意图识别系统等中都有广泛的应用,即文本分类模型是这些复杂系统的基础组件。
发明内容
本公开实施例提供了一种文本分类模型训练、文本分类方法、装置、设备及介质,提高文本分类模型的分类效果和泛化能力,从而提高文本分类模型的准确率,进而提高文本分类的准确率。
第一方面,本公开实施例提供了一种文本分类模型训练方法,包括:
根据目标文本的历史存储关联数据生成目标文本样本数据;其中,所述目标文本样本数据包括第一目标文本样本数据和第二目标文本样本数据;所述第二目标文本样本数据属于所述第一目标文本样本数据的子集;
将所述第一目标文本样本数据输入至文本分类模型的第一文本分类器,得到第一目标文本分类结果;
将所述第二目标文本样本数据输入至文本分类模型的第二文本分类器,得到第二目标文本分类结果;
根据所述第一目标文本分类结果和所述第二目标文本分类结果确定所述目标文本样本数据的目标文本分类结果,作为所述文本分类模型的训练结果。
第二方面,本公开实施例提供了一种文本分类方法,包括:
获取目标文本的目标文本待分类数据;
将所述目标文本待分类数据输入至文本分类模型中,得到所述目标文本的分类结果;
其中,所述文本分类模型通过第一方面所述的文本分类模型训练方法训练得到。
第三方面,本公开实施例提供了一种文本分类模型训练装置,包括:
目标文本样本数据生成模块,用于根据目标文本的历史存储关联数据生成目标文本样本数据;其中,所述目标文本样本数据包括第一目标文本样本数据和第二目标文本样本数据;所述第二目标文本样本数据属于所述第一目标文本样本数据的子集;
第一目标文本分类结果获取模块,用于将所述第一目标文本样本数据输入至文本分类模型的第一文本分类器,得到第一目标文本分类结果;
第二目标文本分类结果获取模块,用于将所述第二目标文本样本数据输入至文本分类模型的第二文本分类器,得到第二目标文本分类结果;
目标文本分类结果获取模块,用于根据所述第一目标文本分类结果和所述第二目标文本分类结果确定所述目标文本样本数据的目标文本分类结果,作为所述文本分类模型的训练结果。
第四方面,本公开实施例提供了一种文本分类装置,包括:
目标文本待分类数据获取模块,用于获取目标文本的目标文本待分类数据;
分类结果获取模块,用于将所述目标文本待分类数据输入至文本分类模型中,得到所述目标文本的分类结果;
其中,所述文本分类模型通过第一方面所述的文本分类模型训练方法训练得到。
第五方面,本公开实施例提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面实施例所提供的文本分类模型训练方法,或执行第二方面实施例所提供的文本分类方法。
第六方面,本公开实施例还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行第一方面实施例所提供的文本分类模型训练方法,或执行第二方面实施例所提供的文本分类方法。
第七方面,本公开实施例还提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现第一方面实施例所提供的文本分类模型训练方法,或执行第二方面实施例所提供的文本分类方法。
本公开实施例通过根据目标文本的历史存储关联数据生成第一目标文本样本数据和第二目标文本样本数据,以将第一目标文本样本数据输入至文本分类模型的第一文本分类器,得到第一目标文本分类结果,并将第二目标文本样本数据输入至文本分类模型的第二文本分类器,得到第二目标文本分类结果,最终根据第一目标文本分类结果和第二目标文本分类结果确定目标文本样本数据的目标文本分类结果,作为文本分类模型的训练结果。当文本分类模型训练完成后,即可利用文本分类模型对目标文本的目标文本待分类数据进行分类。由于第二目标文本样本数据属于第一目标文本样本数据的子集,也即第二目标文本样本数据与第一目标文本样本数据之间存在关联关系,因此,通过两种存在关联关系的目标文本样本数据训练文本分类模型,可以解决现有文本分类模型准确率较低的问题,能够提高文本分类模型的分类效果和泛化能力,从而提高文本分类模型的准确率,进而提高文本分类的准确率。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是本公开实施例提供的一种文本分类模型训练方法的流程图;
图2是本公开实施例提供的一种工单标题样本数据的效果示意图;
图3是本公开实施例提供的一种工单问题样本数据的效果示意图;
图4是本公开实施例提供的一种文本分类模型训练方法的流程图;
图5是本公开实施例提供的一种利用工单样本数据训练文本分类模型的流程示意图;
图6是本公开实施例提供的一种工单分类模型的组成结构示意图;
图7是本公开实施例提供的一种TextCNN模型的结构示意图;
图8是本公开实施例提供的一种文本分类方法的流程图;
图9是本公开实施例提供的一种文本分类模型训练装置的结构图;
图10是本公开实施例提供的一种文本分类装置的结构图;
图11是用来实现本公开实施例的文本分类模型训练方法或文本分类方法的电子设备的结构示意图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
现有的文本分类模型在训练时通常仅使用单一的样本数据进行文本分类的训练,这种文本分类模型的训练方式未充分考虑样本数据的关联性,训练得到的文本分类模型对文本分类的效果并不好,导致文本分类模型的泛化性能不佳,进而降低文本分类模型的准确率。
在一个示例中,图1是本公开实施例提供的一种文本分类模型训练方法的流程图,本实施例可适用于利用存在关联关系的两种样本数据训练文本分类模型的情况,该方法可以由文本分类模型训练装置来执行,该装置可以由软件和/或硬件的方式来实现,并一般可集成在电子设备中。该电子设备可以是客户端设备,也可以是服务器设备等,本公开实施例并不对电子设备的具体类型进行限定。相应的,如图1所示,该方法包括如下操作:
S110、根据目标文本的历史存储关联数据生成目标文本样本数据;其中,所述目标文本样本数据包括第一目标文本样本数据和第二目标文本样本数据;所述第二目标文本样本数据属于所述第一目标文本样本数据的子集。
其中,目标文本可以是需要进行文本分类的文本类型。历史存储关联数据可以是针对目标文本存储的关联数据。目标文本样本数据可以是利用目标文本的历史存储关联数据生成的样本数据。
可以理解的是,不同类型的目标文本生成目标文本样本数据的方式或内容也不同。因此,在本公开实施例中,在对文本分类模型进行训练之前,可以首先确定需要分类的目标文本类型。在确定目标文本之后,可以进一步获取目标文本的历史存储关联数据,以根据历史存储关联数据生成目标文本对应的第一目标文本样本数据和第二目标文本样本数据。也即,第一目标文本样本数据和第二目标文本样本数据都是根据历史存储关联数据生成的,都属于目标文本的样本数据。不同的是,第二目标文本样本数据属于第一目标文本样本数据的子集。可选的,第二目标文本样本数据可以是与目标文本相匹配的同一级别的样本数据,第一目标文本样本数据则可以是包括第二目标文本样本数据的不同级别的样本数据。
所谓第二目标文本样本数据属于第一目标文本样本数据的子集,指的是第二目标文本样本数据为第一目标文本样本数据的部分数据。
在本公开的一个可选实施例中,所述目标文本可以包括工单,所述第一目标文本样本数据可以包括工单标题样本数据。
示例性的,以工单问题作为目标文本为例说明,工单的历史存储关联数据可以是工单系统存储的关于工单的所有关联数据,包括但不限于每个工单的编号、工单的标题、标题对应的问题、问题描述以及工单的生成日期等。相应的,可以根据工单的历史存储关联数据生成工单标题样本数据作为工单的第一目标文本样本数据,并生成工单问题样本数据作为工单的第二目标文本样本数据。
以互联网产品为例说明,互联网的某一平台可以提供多种功能的产品,该平台可以针对提供的产品类型构建一个用户售后服务的工单系统,以为用户提供产品咨询与解决方案的平台,来管理、维护和追踪用户提交的问题。在现有技术中,用户进入工单系统,根据个人问题,选择所属产品和问题类型,创建并提交工单,工单系统会根据用户选择的问题类型分配到对应的受理人。相应的,工单系统可以对历史处理的工单进行收集存储,作为工单的历史存储关联数据。当需要利用工单的历史存储关联数据训练文本分类模型时,可以从工单系统中导出历史存储关联数据。
图2是本公开实施例提供的一种工单标题样本数据的效果示意图,在一个具体的例子中,如图2所示,仍以互联网产品为例说明,每个产品可以对应一项工单标题。如图2中“计算与网络”的大标题下可以包括云服务器、负载均衡以及私有网络等多种小标题,每个标题代表了该互联网平台可以为用户提供的产品类型。
同样以互联网产品为例说明,工单系统可以统计互联网产品在使用过程中可能出现各种的问题以及用户自动定义提出的问题,并将统计的问题类型作为工单的历史存储关联数据中的部分数据。其中,工单系统中的每个工单标题下可以对应该标题下的一系列问题,如网站打不开、服务器状态异常或操作系统蓝屏等。图3是本公开实施例提供的一种工单问题样本数据的效果示意图,在一个具体的例子中,如图3所示的工单问题可以是某一工单标题(也即某一产品)下的所有问题。
相应的,可以以工单系统存储的所有工单的历史存储关联数据为基准,筛选出工单标题作为工单标题样本数据,并筛选出每个工单标题下的工单问题作为工单问题样本数据。需要说明的是,在工单标题样本数据中,每个工单标题同样包括该工单标题下可支持的工单问题。例如,工单标题样本数据中的某一条样本数据为“云数据库”的工单标题样本数据,则该工单标题样本数据除了可以包括“云数据库”的工单标题之外,还可以包括“云数据库”产品下可支持的所有可查询或反馈的产品问题,如网站打不开、服务器状态异常或操作系统蓝屏等问题。而工单问题样本数据则可以是工单系统中所有工单标题包括的问题数据。由此可见,工单问题样本数据为工单标题样本数据的部分数据,工单问题样本数据属于工单标题样本数据的子集。
S120、将所述第一目标文本样本数据输入至文本分类模型的第一文本分类器,得到第一目标文本分类结果。
其中,第一目标文本分类结果可以是第一文本分类器对第一目标文本样本数据进行文本分类得到的结果。
在本公开实施例中,可选的,文本分类模型可以包括两个文本分类器,分别用于对第一目标文本样本数据和第二目标文本样本数据进行分类。可选的,可以采用TextCNN(Text Convolutional Neural Network,文本分类的卷积神经网络)作为文本分类模型的第一文本分类器。在获取到第一目标文本样本数据之后,可以将第一目标文本样本数据输入至文本分类模型的第一文本分类器,得到第一目标文本样本数据对应的第一目标文本分类结果。
S130、将所述第二目标文本样本数据输入至所述文本分类模型的第二文本分类器,得到第二目标文本分类结果。
其中,第二目标文本分类结果可以是第二文本分类器对第二目标文本样本数据进行文本分类得到的结果。
在本公开实施例中,可选的,同样可以采用TextCNN作为文本分类模型的第二文本分类器。在获取到第二目标文本样本数据之后,可以将第二目标文本样本数据输入至文本分类模型的第二文本分类器,得到第二目标文本样本数据对应的第二目标文本分类结果。
需要说明的是,第一目标文本样本数据和第二目标文本样本数据的分类过程是相互独立的。
在本公开的一个可选实施例中,所述第二目标文本样本数据可以包括工单问题样本数据,所述第一目标文本分类结果可以包括工单标题分类结果,所述第二目标文本分类结果可以包括工单问题分类结果。
可选的,当第一目标文本样本数据为工单标题样本数据,第二目标文本样本数据为工单问题样本数据时,工单标题样本数据对应的文本分类结果可以为工单标题分类结果,工单问题样本数据对应的文本分类结果可以为工单问题分类结果。
S140、根据所述第一目标文本分类结果和所述第二目标文本分类结果确定所述目标文本样本数据的目标文本分类结果,作为所述文本分类模型的训练结果。
其中,目标文本分类结果可以是文本分类模型对第一目标文本分类结果和第二目标文本分类结果进行综合分析得到的目标文本对应的最终的分类结果。
在本公开实施例中,当文本分类模型通过两种文本分类器分别获取到第一目标文本分类结果和第二目标文本分类结果之后,可以对第一目标文本分类结果和第二目标文本分类结果进行综合分析,根据第一目标文本分类结果和第二目标文本分类结果之间的内在关联确定目标文本样本数据的目标文本分类结果,作为文本分类模型的训练结果,从而实现对文本分类模型的训练。
示例性的,当目标文本为工单时,目标文本的目标文本样本数据对应的目标文本分类结果可以为工单问题,或工单标题与工单问题的组合,本公开实施例对此并不进行限制。也即,可以通过文本分类模型对工单的问题进行问题分类,从而提高工单问题分类、定位的准确率。
由此可见,本公开实施例所提供的文本分类模型训练方法采用了两种不同级别的目标文本样本数据统一进行目标文本的文本分类训练过程。由于两种目标文本样本数据与目标文本之间均存在关联关系,因此,采用两种目标文本样本数据训练文本分类模型,可以使得文本分类模型充分挖掘两种目标文本样本数据之间的关联关系特征,从而利用两种目标文本样本数据之间的关联关系特征对目标文本的精准分类,从而提高文本分类模型针对目标文本的分类效果和泛化能力,进而提高文本分类模型针对目标文本的分类准确率。
本公开实施例通过根据目标文本的历史存储关联数据生成第一目标文本样本数据和第二目标文本样本数据,以将第一目标文本样本数据输入至文本分类模型的第一文本分类器,得到第一目标文本分类结果,并将第二目标文本样本数据输入至文本分类模型的第二文本分类器,得到第二目标文本分类结果,最终根据第一目标文本分类结果和第二目标文本分类结果确定目标文本样本数据的目标文本分类结果,作为文本分类模型的训练结果。由于第二目标文本样本数据属于第一目标文本样本数据的子集,也即第二目标文本样本数据与第一目标文本样本数据之间存在关联关系,因此,通过两种存在关联关系的目标文本样本数据训练文本分类模型,可以解决现有文本分类模型准确率较低的问题,能够提高文本分类模型的分类效果和泛化能力,从而提高文本分类模型的准确率,进而提高文本分类的准确率。
在一个示例中,图4是本公开实施例提供的一种文本分类模型训练方法的流程图,本公开实施例在上述各实施例的技术方案的基础上,进行了优化改进,给出了根据目标文本的历史存储关联数据生成目标文本样本数据,以及根据第一目标文本分类结果和第二目标文本分类结果确定目标文本样本数据的目标文本分类结果的多种具体可选的实现方式。
如图4所示的一种文本分类模型训练方法,包括:
S210、确定所述目标文本样本数据的样本数据格式。
可以理解的是,在利用样本数据训练模型时,通常需要对样本数据进行预处理,以获取规范的样本数据进行模型训练。因此,在本公开实施例中,在根据目标文本的历史存储关联数据生成目标文本样本数据时,可以首先确定目标文本样本数据的样本数据格式。
S220、根据所述历史存储关联数据确定所述第一目标文本样本数据的第一类别标签和所述第二目标文本样本数据的第二类别标签。
其中,第一类别标签可以是用于标识第一目标文本样本数据的类别标签,第二类别标签可以是用于标识第二目标文本样本数据的类别标签。
可以理解的是,虽然第一目标文本样本数据和第二目标文本样本数据都是根据目标文本的历史存储关联数据生成,但第一目标文本样本数据和第二目标文本样本数据包括的数据类型和数据内容不同,因此第一目标文本样本数据和第二目标文本样本数据对应的数据标签也不同。相应的,在确定目标文本样本数据的样本数据格式之后,可以进一步根据历史存储关联数据的相关信息确定第一目标文本样本数据对应的第一类别标签,并确定第二目标文本样本数据对应的第一类别标签。每一条目标文本样本数据均可以对应一个类别标签,针对同一类型的目标文本样本数据来说,各目标文本样本数据对应的类别标签可以相同,也可以不同,本公开实施例对此并不进行限制。
S230、根据所述样本数据格式、所述历史存储关联数据和所述第一类别标签生成所述第一目标文本样本数据。
相应的,在确定第一目标文本样本数据对应的第一类别标签之后,即可根据历史存储关联数据和第一类别标签对设定的样本数据格式进行填充,从而生成第一目标文本样本数据。
S240、根据所述样本数据格式、所述历史存储关联数据和所述第二类别标签生成所述第二目标文本样本数据。
相应的,在确定第二目标文本样本数据对应的第二类别标签之后,即可根据历史存储关联数据和第二类别标签对设定的样本数据格式进行填充,从而生成第二目标文本样本数据。
在一个具体的实例中,以工单作为目标文本为例具体说明。可以将近三年内工单系统存储的工单数据作为工单的历史存储关联数据,并将工单的历史存储关联数据按照7:3的比例划分为训练集与测试集。进一步的,可以对训练集和测试集中包括的原始数据进行处理,以确定工单样本数据的样本数据格式。可选的,工单样本数据的样本数据格式的通用格式可以为:工单编号_#_工单标题与问题描述_#_工单日期_#_类别标签。
确定样本数据格式的通用格式之后,即可对工单的历史存储关联数据进行整理,筛选出工单标题与问题描述的数据,并根据工单标题与问题描述的数据确定工单标题的类别标签和工单问题的类别标签,从而根据工单标题类别和工单问题类别分别作为标签生成第一目标文本样本数据和第二目标文本样本数据。也即,第一目标文本样本数据和第二目标文本样本数据的样本数据格式均为工单编号_#_工单标题与问题描述_#_工单日期_#_类别标签,区别仅在于第一目标文本样本数据和第二目标文本样本数据的类别标签不同。也即,一个历史生成的工单数据可以对应生成两条样本数据,两条样本数据的“工单编号、工单标题与问题描述和工单日期”的内容均相同,区别在于类别标签。其中一条样本对数据的类别标签可以为该工单数据中工单标题的类别标签,另外一条样本对数据的类别标签可以为该工单数据中工单问题的类别标签。
上述技术方案,通过利用各类型的目标文本样本数据对应的类别标签生成对应的目标文本样本数据,可以实现样本数据的多重分类,从而利用多重分类结果训练文本分类模型,提高文本分类模型的准确率。
S250、将所述第一目标文本样本数据输入至文本分类模型的第一文本分类器,得到第一目标文本分类结果。
S260、将所述第二目标文本样本数据输入至所述文本分类模型的第二文本分类器,得到第二目标文本分类结果。
S270、根据所述第一目标文本分类结果对所述第二目标文本分类结果进行校验。
S280、根据所述第二目标文本分类结果的校验结果确定所述目标文本样本数据的目标文本分类结果。
由于第二目标文本样本数据属于第一目标文本样本数据的子集,因此,第二目标文本样本数据对应的第二目标文本分类结果通常为第一目标文本样本数据对应的第一目标文本分类结果的子集。相应的,为了进一步利用两种目标文本样本数据之间潜在的关联关系特征,在利用文本分类模型对第一目标文本样本数据和第二目标文本样本数据分别进行分类处理得到对应的分类结果后,可以根据第一目标文本分类结果对第二目标文本分类结果进行校验,并根据第二目标文本分类结果的校验结果最终确定目标文本样本数据的目标文本分类结果。这样设置的好处是:可以充分利用两种目标文本样本数据之间潜在的关联关系特征对两种目标文本样本数据对应的分类结果进行整合,从而提高目标文本分类结果的准确率。
所谓根据第一目标文本分类结果对第二目标文本分类结果进行校验,也即判断第二目标文本分类结果是否为第一目标文本分类结果的子集。如果第二目标文本分类结果为第一目标文本分类结果的子集,则表示第二目标文本分类结果通过校验。如果第二目标文本分类结果不是第一目标文本分类结果的子集,则表示第二目标文本分类结果未通过校验。
在本公开的一个可选实施例中,所述根据所述第二目标文本分类结果的校验结果确定所述目标文本样本数据的目标文本分类结果,可以包括:在确定所述第二目标文本分类结果未通过校验的情况下,根据所述第一目标文本分类结果确定第一目标分类对象;根据所述历史存储关联数据确定所述第一目标分类对象的关联对象分类数据集合;其中,所述关联对象分类数据集合为所述第一目标分类对象包括的第二目标分类对象的分类集合;根据所述关联对象分类数据集合确定所述目标文本分类结果。
其中,第一目标分类对象可以是根据第一目标文本分类结果确定的分类对象。第二目标分类对象可以是根据第二目标文本分类结果确定的分类对象。示例性的,当目标文本为工单时,第一目标分类对象可以是工单标题的具体类别,第二目标分类对象可以是某一工单标题的具体类别下包括的工单问题,关联对象分类数据集合则可以为某一工单标题的具体类别下包括的工单问题的分类集合。
可以理解的是,在相同的数据规模和分类器的模型结构下,如果第一目标文本样本数据可以包括多个第二目标文本样本数据,则第二目标文本分类结果的数量要大于第一目标文本分类结果的数量。可以理解的是,分类目标越多,则每个分类结果的样本数量越少,样本数据分布不均的现象越严重。因此,第一目标文本分类结果的分类效果要优于第二目标文本分类结果的分类效果。因此,当第二目标文本分类结果未通过校验时,表明第二目标文本分类结果不是第一目标文本分类结果的子集。而由于第一目标文本分类结果具有更高的可信度,因此,为了提高第二目标文本分类结果的分类效率,可以根据历史存储关联数据确定第一目标文本分类结果中第一目标分类对象包括的第二目标分类对象的分类集合,作为第一目标分类对象的关联对象分类数据集合,并根据第一目标分类对象的关联对象分类数据集合确定目标文本分类结果。
在本公开的一个可选实施例中,所述根据所述关联对象分类数据集合确定所述目标文本分类结果,可以包括:确定所述关联对象分类数据集合中各所述第二目标分类对象的分类概率;根据所述第二目标分类对象的分类概率筛选第二目标修正分类对象;根据所述第二目标修正分类对象确定所述目标文本分类结果。
其中,第二目标修正分类对象可以是对第二目标文本分类结果进行修正的第二目标分类对象。
可选的,根据关联对象分类数据集合确定目标文本分类结果时,可以首先确定关联对象分类数据集合中各第二目标分类对象的分类概率。可以理解的是,分类概率越高,表明第二目标分类对象的类别标签在样本数据中出现的频率越高。因此,可以进一步根据第二目标分类对象的分类概率筛选出分类概率最大的第二目标分类对象作为第二目标修正分类对象,并根据第二目标修正分类对象确定目标文本分类结果。例如,可以直接将第二目标修正分类对象作为目标文本分类结果,或者,也还可以将第一目标分类对象和第二目标修正分类对象的组合作为目标文本分类结果。
上述技术方案,通过利用分类概率最高的第二目标修正分类对象修正目标文本分类结果,可以提高目标文本分类结果的准确率。
在本公开的一个可选实施例中,所述文本分类模型训练方法还可以包括:确定所述目标文本分类结果的分类准确率;在确定所述目标文本分类结果的分类准确率小于或等于预设分类置信度阈值的情况下,根据所述历史存储关联数据获取第三目标文本分类结果;根据所述第三目标文本分类结果更新所述目标文本分类结果。
其中,预设分类置信度阈值可以根据实际需求设定,如0.6或0.8等,本公开实施例并不对预设分类置信度阈值的具体数值进行限定。第三目标文本分类结果可以是历史存储关联数据中存储的目标文本分类结果。示例性的,以工单作为目标文本为例说明,第三目标文本分类结果可以是历史存储关联数据中存储的用户选择的工单问题分类结果。
为了进一步提高目标文本分类结果的准确率,在利用文本分类模型对目标文本样本数据进行文本分类得到目标文本分类结果之后,可以进一步判断目标文本分类结果的分类准确率。可选的,文本分类模型可以根据训练得到的目标文本分类结果与历史存储关联数据中原始存储的文本分类结果进行对比以确定目标文本分类结果的分类准确率。可以理解的是,当目标文本分类结果的分类准确率小于或等于预设分类置信度阈值时,表明文本分类模型输出的目标文本分类结果的可信度和准确率较低。此时,可以根据历史存储关联数据获取该目标文本样本数据对应的第三目标文本分类结果,并将第三目标文本分类结果作为文本分类模型的最终目标文本分类结果。
上述技术方案,通过利用第一目标文本分类结果对第二目标文本分类结果的校验结果确定目标文本样本数据的目标文本分类结果,可以提高文本分类模型的分类效果和泛化能力,从而提高文本分类模型的准确率,进而提高文本分类的准确率。
在工单系统中,由于产品(即工单标题)与问题类型个数众多,用户对工单问题的定位不够准确,部分用户选择的问题类型与实际问题类型不符。这部分工单会分配到错误的受理人,若受理人发现工单的问题类型不正确,将其改为正常的问题类型,并流转到对应的受理人,增加了工单的处理环节,如果受理人对负责领域外的业务缺乏了解,存在流转错误的可能。由此可见,人工处理工单问题的方式增加了用户的等待时长,降低了用户体验。现有技术也有通过文本分类模型对用户提交的工单中包括的工单标题与问题描述输入到文本分类模型中,按照模型输出的问题类型将工单分配到对应的受理人。但是现有的文本分类模型仅对工单问题进行分类,由于工单问题类型数量众多,工单数量分布不均衡,对于工单数量少的问题类型,文本分类模型的效果较差。
图5是本公开实施例提供的一种利用工单样本数据训练文本分类模型的流程示意图,在一个具体的例子中,如图5所示,以工单作为目标文本为例具体说明本公开实施例中文本分类模型的训练过程。在该示例中,文本分类模型可以称为工单分类模型。图6是本公开实施例提供的一种工单分类模型的组成结构示意图。如图6所示,工单分类模型可以包括产品分类器、问题分类器和分类修整器。其中,产品分类器和问题分类器可以采用TextCNN模型。图7是本公开实施例提供的一种TextCNN模型的结构示意图。产品分类器和问题分类器均可以采用如图7所示的TextCNN模型构建。在图7中,参数d表示输入的句子长度,参数k表示分类数量,参数m表示词向量长度,取值可以为128。参数N表示词袋中词的数量,参数s1表示3*m卷积核的个数,取值可以为128,参数s2表示4*m卷积核的个数,取值可以为98。产品分类器和问题分类器处理参数k取值不同,其他参数取值均可以相同。
如图5所示,在确定工单分类模型后,可以进一步确定样本数据。可以将近三年的工单数据按照7:3的比例分成训练集与测试集,每个数据的格式为:工单编号_#_工单标题与描述_#_工单日期_#_类别标签,将产品类别和问题类别分别做为类别标签生成两组数据集:ProductionDataset与QuestionDataset。进一步的,可以使用ProductionDataset对产品分类器进行训练,并使用QuestionDataset对问题分类器进行训练。产品分类器和问题分类器可以分别得到工单在产品维度和问题维度的类别以及类别概率分布。在工单模型的训练过程中,还可以使用分类修整器利用产品分类器的分类结果对问题分类器的分类结果进行修正。具体的,分类修整器采用的校验公式如下:
其中,Q(p)表示产品p下的问题分类集合,P(i)表示问题i的概率,i∈Q(p),t为Q(p)中概率最大的问题类别。
也即,当问题分类器的问题分类结果q属于产品分类器的问题分类集合时,可以确定问题分类结果具有一定的可信度。当问题分类器的问题分类结果q不属于产品分类器的问题分类集合时,可以从产品分类结果p的问题类别集合中筛选出概率最大的问题类别作为问题分类器的问题分类结果q。
问题分类器对于工单数量较多的问题类别的准确率较高,工单数量较少的问题类别的准确率较低。对于工单数量少的类别,由于缺少足够的数据样本,分类效果不好。为了减少样本分布不均导致模型结果错误的概率,可以对分类修整器的修正结果设置置信度阈值β,β∈(0,1)。如果分类修整器的修正结果P(q)<β,认为工单分类模型的结果不可信,可以采用用户选择的问题类型作为工单分类模型的输出结果。
上述技术方案提出一种工单分类模型的训练方法,使用TextCNN模型,将所属产品和问题类型分别作为标签,训练工单分类模型。利用工单分类模型对工单的标题和问题描述进行文本分类,得到产品和问题维度的分类结果,并将两个结果比较和修正,设置置信度阈值控制最终结果,能够在一定程度上解决了多分类任务中样本分布不均衡的问题。使用该工单分类模型对工单进行问题分类,可以减少错误分配的工单数,缩小客户的等待时长,降低人为判断和流转的人力成本。经实验验证,利用本公开实施例所提供的工单分类模型对用户提交工单的标题与问题描述进行分类,产品分类准确率能够达到90%以上,问题分类准确率能够达到75%以上,经过分类修正器后,问题分类准确率能够达到85%以上。
在一个示例中,图8是本公开实施例提供的一种文本分类方法的流程图,本实施例可适用于利用存在关联关系的两种样本数据训练得到的文本分类模型进行文本分类的情况,该方法可以由文本分类装置来执行,该装置可以由软件和/或硬件的方式来实现,并一般可集成在电子设备中。该电子设备可以是客户端设备,也可以是服务器设备等,本公开实施例并不对电子设备的具体类型进行限定。相应的,如图8所示,该方法包括如下操作:
S310、获取目标文本的目标文本待分类数据。
其中,目标文本待分类数据可以是目标文本需要进行文本分类的数据。可选的,目标文本可以包括工单,则目标文本待分类数据可以是用户提交的工单数据,该工单数据可以包括工单标题、问题描述和用户选择的问题分类。
示例性的,可以从工单系统获取用户输入的工单数据作为工单的待分类数据。
S320、将所述目标文本待分类数据输入至文本分类模型中,得到所述目标文本的分类结果。
其中,所述文本分类模型通过本公开任一实施例所述的文本分类模型训练方法训练得到。
相应的,可以将目标文本待分类数据输入至通过本公开任一实施例所述的文本分类模型训练方法训练得到的文本分类模型中,得到目标文本待分类数据的分类结果。
以工单为目标文本为例说明,通过文本分类模型对工单的待分类数据进行分类,以确定工单问题的分类结果,可以参考图5所示的文本分类模型的训练过程。工单的待分类数据可以包括工单标题与问题描述,在得到工单标题与问题描述之后,可以将工单标题与问题描述输入至文本分类模型。文本分类模型的产品分类器可以输出产品分类和产品分类的类别概率以及类别概率。
相应的,文本分类模型的分类修整器可以对问题分类结果q进行修正。具体的,当问题分类器的问题分类结果q属于产品分类器的问题分类集合时,文本分类器可以直接输出问题分类结果q。当问题分类器的问题分类结果q不属于产品分类器的问题分类集合时,可以从产品分类结果p的问题类别集合中筛选出概率最大的问题类别作为问题分类器的问题分类结果q。得到修正后的问题分类结果q后,进一步判断分类修整器的修正结果与置信度阈值之间的关系。如果分类修整器的修正结果小于或等于置信度阈值,则将用户选择的问题分类作为最终的分类结果。如果分类修整器的修正结果大于置信度阈值,则文本分类模型确定的问题分类结果q作为最终的分类结果。
相应的,在工单系统中,当利用文本分类模型输出问题分类后,可以将对应的工单分配至对应的受理人处理。
本公开实施例通过根据目标文本的历史存储关联数据生成第一目标文本样本数据和第二目标文本样本数据,以将第一目标文本样本数据输入至文本分类模型的第一文本分类器,得到第一目标文本分类结果,并将第二目标文本样本数据输入至文本分类模型的第二文本分类器,得到第二目标文本分类结果,最终根据第一目标文本分类结果和第二目标文本分类结果确定目标文本样本数据的目标文本分类结果,作为文本分类模型的训练结果。当文本分类模型训练完成后,即可利用文本分类模型对目标文本的目标文本待分类数据进行分类。由于第二目标文本样本数据属于第一目标文本样本数据的子集,也即第二目标文本样本数据与第一目标文本样本数据之间存在关联关系,因此,通过两种存在关联关系的目标文本样本数据训练文本分类模型,可以解决现有文本分类模型准确率较低的问题,能够提高文本分类模型的分类效果和泛化能力,从而提高文本分类模型的准确率,进而提高文本分类的准确率。
需要说明的是,以上各实施例中各技术特征之间的任意排列组合也属于本公开的保护范围。
在一个示例中,图9是本公开实施例提供的一种文本分类模型训练装置的结构图,本公开实施例可适用于利用存在关联关系的两种样本数据训练文本分类模型的情况,该装置通过软件和/或硬件实现,并具体配置于电子设备中。该电子设备可以是客户端设备,也可以是服务器设备等,本公开实施例并不对电子设备的具体类型进行限定。
如图9所示的一种文本分类模型训练装置400,包括:目标文本样本数据生成模块410、第一目标文本分类结果获取模块420、第二目标文本分类结果获取模块430和目标文本分类结果获取模块440。其中,
目标文本样本数据生成模块410,用于根据目标文本的历史存储关联数据生成目标文本样本数据;其中,所述目标文本样本数据包括第一目标文本样本数据和第二目标文本样本数据;所述第二目标文本样本数据属于所述第一目标文本样本数据的子集;
第一目标文本分类结果获取模块420,用于将所述第一目标文本样本数据输入至文本分类模型的第一文本分类器,得到第一目标文本分类结果;
第二目标文本分类结果获取模块430,用于将所述第二目标文本样本数据输入至所述文本分类模型的第二文本分类器,得到第二目标文本分类结果;
目标文本分类结果获取模块440,用于根据所述第一目标文本分类结果和所述第二目标文本分类结果确定所述目标文本样本数据的目标文本分类结果,作为所述文本分类模型的训练结果。
本公开实施例通过根据目标文本的历史存储关联数据生成第一目标文本样本数据和第二目标文本样本数据,以将第一目标文本样本数据输入至文本分类模型的第一文本分类器,得到第一目标文本分类结果,并将第二目标文本样本数据输入至文本分类模型的第二文本分类器,得到第二目标文本分类结果,最终根据第一目标文本分类结果和第二目标文本分类结果确定目标文本样本数据的目标文本分类结果,作为文本分类模型的训练结果。由于第二目标文本样本数据属于第一目标文本样本数据的子集,也即第二目标文本样本数据与第一目标文本样本数据之间存在关联关系,因此,通过两种存在关联关系的目标文本样本数据训练文本分类模型,可以解决现有文本分类模型准确率较低的问题,能够提高文本分类模型的分类效果和泛化能力,从而提高文本分类模型的准确率,进而提高文本分类的准确率。
可选的,目标文本样本数据生成模块410具体用于:确定所述目标文本样本数据的样本数据格式;根据所述历史存储关联数据确定所述第一目标文本样本数据的第一类别标签和所述第二目标文本样本数据的第二类别标签;根据所述样本数据格式、所述历史存储关联数据和所述第一类别标签生成所述第一目标文本样本数据;
根据所述样本数据格式、所述历史存储关联数据和所述第二类别标签生成所述第二目标文本样本数据。
可选的,目标文本分类结果获取模块440具体用于:根据所述第一目标文本分类结果对所述第二目标文本分类结果进行校验;根据所述第二目标文本分类结果的校验结果确定所述目标文本样本数据的目标文本分类结果。
可选的,目标文本分类结果获取模块440具体用于:在确定所述第二目标文本分类结果未通过校验的情况下,根据所述第一目标文本分类结果确定第一目标分类对象;根据所述历史存储关联数据确定所述第一目标分类对象的关联对象分类数据集合;其中,所述关联对象分类数据集合为所述第一目标分类对象包括的第二目标分类对象的分类集合;根据所述关联对象分类数据集合确定所述目标文本分类结果。
可选的,目标文本分类结果获取模块440具体用于:确定所述关联对象分类数据集合中各所述第二目标分类对象的分类概率;根据所述第二目标分类对象的分类概率筛选第二目标修正分类对象;根据所述第二目标修正分类对象确定所述目标文本分类结果。
可选的,文本分类模型训练装置还可以包括:分类准确率确定模块,用于确定所述目标文本分类结果的分类准确率;第三目标文本分类结果获取模块,用于在确定所述目标文本分类结果的分类准确率小于或等于预设分类置信度阈值的情况下,根据所述历史存储关联数据获取第三目标文本分类结果;目标文本分类结果更新模块,用于根据所述第三目标文本分类结果更新所述目标文本分类结果。
可选的,所述目标文本包括工单,所述第一目标文本样本数据包括工单标题样本数据,所述第二目标文本样本数据包括工单问题样本数据,所述第一目标文本分类结果包括工单标题分类结果,所述第二目标文本分类结果包括工单问题分类结果。
上述文本分类模型训练装置可执行本公开任意实施例所提供的文本分类模型训练方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本公开任意实施例提供的文本分类模型训练方法。
由于上述所介绍的文本分类模型训练装置为可以执行本公开实施例中的文本分类模型训练方法的装置,故而基于本公开实施例中所介绍的文本分类模型训练方法,本领域所属技术人员能够了解本实施例的文本分类模型训练装置的具体实施方式以及其各种变化形式,所以在此对于该文本分类模型训练装置如何实现本公开实施例中的文本分类模型训练方法不再详细介绍。只要本领域所属技术人员实施本公开实施例中文本分类模型训练方法所采用的装置,都属于本公开所欲保护的范围。
在一个示例中,图10是本公开实施例提供的一种文本分类装置的结构图,本公开实施例可适用于利用存在关联关系的两种样本数据训练得到的文本分类模型进行文本分类的情况,该装置通过软件和/或硬件实现,并具体配置于电子设备中。该电子设备可以是客户端设备,也可以是服务器设备等,本公开实施例并不对电子设备的具体类型进行限定。
如图10所示的一种文本分类装置500,包括:目标文本待分类数据获取模块510和分类结果获取模块520。其中,
目标文本待分类数据获取模块510,用于获取目标文本的目标文本待分类数据;
分类结果获取模块520,用于将所述目标文本待分类数据输入至文本分类模型中,得到所述目标文本的分类结果;
其中,所述文本分类模型通过本公开任一实施例所述的文本分类模型训练方法训练得到。
本公开实施例通过根据目标文本的历史存储关联数据生成第一目标文本样本数据和第二目标文本样本数据,以将第一目标文本样本数据输入至文本分类模型的第一文本分类器,得到第一目标文本分类结果,并将第二目标文本样本数据输入至文本分类模型的第二文本分类器,得到第二目标文本分类结果,最终根据第一目标文本分类结果和第二目标文本分类结果确定目标文本样本数据的目标文本分类结果,作为文本分类模型的训练结果。当文本分类模型训练完成后,即可利用文本分类模型对目标文本的目标文本待分类数据进行分类。由于第二目标文本样本数据属于第一目标文本样本数据的子集,也即第二目标文本样本数据与第一目标文本样本数据之间存在关联关系,因此,通过两种存在关联关系的目标文本样本数据训练文本分类模型,可以解决现有文本分类模型准确率较低的问题,能够提高文本分类模型的分类效果和泛化能力,从而提高文本分类模型的准确率,进而提高文本分类的准确率。
可选的,所述目标文本包括工单。
上述文本分类装置可执行本公开任意实施例所提供的文本分类方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本公开任意实施例提供的文本分类方法。
由于上述所介绍的文本分类装置为可以执行本公开实施例中的文本分类方法的装置,故而基于本公开实施例中所介绍的文本分类方法,本领域所属技术人员能够了解本实施例的文本分类装置的具体实施方式以及其各种变化形式,所以在此对于该文本分类装置如何实现本公开实施例中的文本分类方法不再详细介绍。只要本领域所属技术人员实施本公开实施例中文本分类方法所采用的装置,都属于本公开所欲保护的范围。
在一个示例中,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图11示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图11所示,设备600包括计算单元601,其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序,来执行各种适当的动作和处理。在RAM 603中,还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
设备600中的多个部件连接至I/O接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理,例如文本分类模型训练方法或文本分类方法。例如,在一些实施例中,文本分类模型训练方法或文本分类方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时,可以执行上文描述的文本分类模型训练方法或文本分类方法的一个或多个步骤。备选地,在其他实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行文本分类模型训练方法或文本分类方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。服务器还可以分布式系统的服务器,或者是结合了区块链的服务器。
本公开实施例通过根据目标文本的历史存储关联数据生成第一目标文本样本数据和第二目标文本样本数据,以将第一目标文本样本数据输入至文本分类模型的第一文本分类器,得到第一目标文本分类结果,并将第二目标文本样本数据输入至文本分类模型的第二文本分类器,得到第二目标文本分类结果,最终根据第一目标文本分类结果和第二目标文本分类结果确定目标文本样本数据的目标文本分类结果,作为文本分类模型的训练结果。当文本分类模型训练完成后,即可利用文本分类模型对目标文本的目标文本待分类数据进行分类。由于第二目标文本样本数据属于第一目标文本样本数据的子集,也即第二目标文本样本数据与第一目标文本样本数据之间存在关联关系,因此,通过两种存在关联关系的目标文本样本数据训练文本分类模型,可以解决现有文本分类模型准确率较低的问题,能够提高文本分类模型的分类效果和泛化能力,从而提高文本分类模型的准确率,进而提高文本分类的准确率。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (14)

1.一种文本分类模型训练方法,包括:
根据目标文本的历史存储关联数据生成目标文本样本数据;其中,所述目标文本样本数据包括第一目标文本样本数据和第二目标文本样本数据;所述第二目标文本样本数据属于所述第一目标文本样本数据的子集;
将所述第一目标文本样本数据输入至文本分类模型的第一文本分类器,得到第一目标文本分类结果;
将所述第二目标文本样本数据输入至所述文本分类模型的第二文本分类器,得到第二目标文本分类结果;
根据所述第一目标文本分类结果对所述第二目标文本分类结果进行校验,判断所述第二目标文本分类结果是否为所述第一目标文本分类结果的子集;
在确定所述第二目标文本分类结果未通过校验的情况下,根据所述第一目标文本分类结果确定第一目标分类对象;
根据所述历史存储关联数据确定所述第一目标分类对象的关联对象分类数据集合;其中,所述关联对象分类数据集合为所述第一目标分类对象包括的第二目标分类对象的分类集合;
根据所述关联对象分类数据集合确定目标文本分类结果,作为所述文本分类模型的训练结果;
其中,所述根据目标文本的历史存储关联数据生成目标文本样本数据,包括:
确定所述目标文本样本数据的样本数据格式;
根据所述历史存储关联数据确定所述第一目标文本样本数据的第一类别标签和所述第二目标文本样本数据的第二类别标签;
根据所述历史存储关联数据和所述第一类别标签对所述样本数据格式进行填充,生成所述第一目标文本样本数据;
根据所述历史存储关联数据和所述第二类别标签对所述样本数据格式进行填充,生成所述第二目标文本样本数据。
2.根据权利要求1所述的方法,其中,所述根据所述关联对象分类数据集合确定所述目标文本分类结果,包括:
确定所述关联对象分类数据集合中各所述第二目标分类对象的分类概率;
根据所述第二目标分类对象的分类概率筛选第二目标修正分类对象;
根据所述第二目标修正分类对象确定所述目标文本分类结果。
3.根据权利要求1-2任一所述的方法,还包括:
确定所述目标文本分类结果的分类准确率;
在确定所述目标文本分类结果的分类准确率小于或等于预设分类置信度阈值的情况下,根据所述历史存储关联数据获取第三目标文本分类结果;
根据所述第三目标文本分类结果更新所述目标文本分类结果。
4.根据权利要求3所述的方法,其中,所述目标文本包括工单,所述第一目标文本样本数据包括工单标题样本数据,所述第二目标文本样本数据包括工单问题样本数据,所述第一目标文本分类结果包括工单标题分类结果,所述第二目标文本分类结果包括工单问题分类结果。
5.一种文本分类方法,包括:
获取目标文本的目标文本待分类数据;
将所述目标文本待分类数据输入至文本分类模型中,得到所述目标文本待分类数据的分类结果;
其中,所述文本分类模型通过权利要求1-4任一所述的文本分类模型训练方法训练得到。
6.根据权利要求5所述的方法,其中,所述目标文本包括工单。
7.一种文本分类模型训练装置,包括:
目标文本样本数据生成模块,用于根据目标文本的历史存储关联数据生成目标文本样本数据;其中,所述目标文本样本数据包括第一目标文本样本数据和第二目标文本样本数据;所述第二目标文本样本数据属于所述第一目标文本样本数据的子集;
第一目标文本分类结果获取模块,用于将所述第一目标文本样本数据输入至文本分类模型的第一文本分类器,得到第一目标文本分类结果;
第二目标文本分类结果获取模块,用于将所述第二目标文本样本数据输入至所述文本分类模型的第二文本分类器,得到第二目标文本分类结果;
目标文本分类结果获取模块,用于:
根据所述第一目标文本分类结果对所述第二目标文本分类结果进行校验,判断所述第二目标文本分类结果是否为所述第一目标文本分类结果的子集;
在确定所述第二目标文本分类结果未通过校验的情况下,根据所述第一目标文本分类结果确定第一目标分类对象;
根据所述历史存储关联数据确定所述第一目标分类对象的关联对象分类数据集合;其中,所述关联对象分类数据集合为所述第一目标分类对象包括的第二目标分类对象的分类集合;
根据所述关联对象分类数据集合确定目标文本分类结果,作为所述文本分类模型的训练结果;
其中,所述目标文本样本数据生成模块具体用于:
确定所述目标文本样本数据的样本数据格式;
根据所述历史存储关联数据确定所述第一目标文本样本数据的第一类别标签和所述第二目标文本样本数据的第二类别标签;
根据所述历史存储关联数据和所述第一类别标签对所述样本数据格式进行填充,生成所述第一目标文本样本数据;
根据所述历史存储关联数据和所述第二类别标签对所述样本数据格式进行填充,生成所述第二目标文本样本数据。
8.根据权利要求7所述的装置,其中,所述目标文本分类结果获取模块具体用于:
确定所述关联对象分类数据集合中各所述第二目标分类对象的分类概率;
根据所述第二目标分类对象的分类概率筛选第二目标修正分类对象;
根据所述第二目标修正分类对象确定所述目标文本分类结果。
9.根据权利要求7-8任一所述的装置,还包括:
分类准确率确定模块,用于确定所述目标文本分类结果的分类准确率;
第三目标文本分类结果获取模块,用于在确定所述目标文本分类结果的分类准确率小于或等于预设分类置信度阈值的情况下,根据所述历史存储关联数据获取第三目标文本分类结果;
目标文本分类结果更新模块,用于根据所述第三目标文本分类结果更新所述目标文本分类结果。
10.根据权利要求9所述的装置,其中,所述目标文本包括工单,所述第一目标文本样本数据包括工单标题样本数据,所述第二目标文本样本数据包括工单问题样本数据,所述第一目标文本分类结果包括工单标题分类结果,所述第二目标文本分类结果包括工单问题分类结果。
11.一种文本分类装置,包括:
目标文本待分类数据获取模块,用于获取目标文本的目标文本待分类数据;
分类结果获取模块,用于将所述目标文本待分类数据输入至文本分类模型中,得到所述目标文本的分类结果;
其中,所述文本分类模型通过权利要求1-4任一所述的文本分类模型训练方法训练得到。
12.根据权利要求11所述的装置,其中,所述目标文本包括工单。
13.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-4中任一项所述的文本分类模型训练方法,或执行权利要求5或6所述的文本分类方法。
14.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使计算机执行权利要求1-4中任一项所述的文本分类模型训练方法,或执行权利要求5或6所述的文本分类方法。
CN202110961278.5A 2021-08-20 2021-08-20 文本分类模型训练、文本分类方法、装置、设备及介质 Active CN113641823B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110961278.5A CN113641823B (zh) 2021-08-20 2021-08-20 文本分类模型训练、文本分类方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110961278.5A CN113641823B (zh) 2021-08-20 2021-08-20 文本分类模型训练、文本分类方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN113641823A CN113641823A (zh) 2021-11-12
CN113641823B true CN113641823B (zh) 2023-11-17

Family

ID=78423122

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110961278.5A Active CN113641823B (zh) 2021-08-20 2021-08-20 文本分类模型训练、文本分类方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN113641823B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115934937B (zh) * 2022-11-29 2024-01-23 北京百度网讯科技有限公司 文本分类模型的训练方法、文本分类方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110580290A (zh) * 2019-09-12 2019-12-17 北京小米智能科技有限公司 用于文本分类的训练集的优化方法及装置
CN111985250A (zh) * 2020-09-03 2020-11-24 深圳壹账通智能科技有限公司 模型训练方法、装置、系统及计算机可读存储介质
CN112800215A (zh) * 2021-01-29 2021-05-14 北京大米科技有限公司 一种文本处理方法、装置、可读存储介质和电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11055765B2 (en) * 2019-03-27 2021-07-06 Target Brands, Inc. Classification of query text to generate relevant query results

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110580290A (zh) * 2019-09-12 2019-12-17 北京小米智能科技有限公司 用于文本分类的训练集的优化方法及装置
CN111985250A (zh) * 2020-09-03 2020-11-24 深圳壹账通智能科技有限公司 模型训练方法、装置、系统及计算机可读存储介质
CN112800215A (zh) * 2021-01-29 2021-05-14 北京大米科技有限公司 一种文本处理方法、装置、可读存储介质和电子设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Group-based approach for class prediction in associative classification;Mohammed Hayel Refai等;2016 Third International Conference on Information Retrieval and Knowledge Management (CAMP);全文 *
基于预训练BERT模型的客服工单自动分类研究;任莹;;云南电力技术(01);全文 *
智能配电网多维数据质量评价方法;潘旭等;中国电机工程学报;1375-1384 *

Also Published As

Publication number Publication date
CN113641823A (zh) 2021-11-12

Similar Documents

Publication Publication Date Title
CN112069321B (zh) 用于文本层级分类的方法、电子设备和存储介质
WO2020082734A1 (zh) 文本情感识别方法、装置、电子设备及计算机非易失性可读存储介质
US20210319366A1 (en) Method, apparatus and device for generating model and storage medium
CN111680165B (zh) 信息匹配方法、装置、可读存储介质和电子设备
CN110019790A (zh) 文本识别、文本监控、数据对象识别、数据处理方法
US20160085857A1 (en) Grouping data using dynamic thresholds
WO2019056496A1 (zh) 图片复审概率区间生成方法及图片复审判定方法
CN112989235A (zh) 基于知识库的内链构建方法、装置、设备和存储介质
WO2023129339A1 (en) Extracting and classifying entities from digital content items
CN114090601B (zh) 一种数据筛选方法、装置、设备以及存储介质
CN113641823B (zh) 文本分类模型训练、文本分类方法、装置、设备及介质
CN110909768A (zh) 一种标注数据获取方法及装置
CN109948040A (zh) 对象信息的存储、推荐方法及系统、设备和存储介质
CN111738290A (zh) 图像检测方法、模型构建和训练方法、装置、设备和介质
CN116229211A (zh) 样本生成方法、模型训练方法、对象检测方法及装置
CN116048463A (zh) 基于标签管理的需求项内容智能推荐方法及装置
CN116228301A (zh) 一种目标用户的确定方法、装置、设备及介质
CN115730152A (zh) 基于用户画像分析的大数据处理方法及大数据处理系统
US10586046B1 (en) Automated security feed analysis for threat assessment
CN113239273B (zh) 用于生成文本的方法、装置、设备以及存储介质
CN114187081A (zh) 估值表处理方法、装置、电子设备及计算机可读存储介质
CN113612777A (zh) 训练方法、流量分级方法、装置、电子设备以及存储介质
CN113869904A (zh) 可疑数据识别方法、装置、电子设备、介质和计算机程序
CN116127948B (zh) 待标注文本数据的推荐方法、装置及电子设备
CN114547448B (zh) 数据处理、模型训练方法、装置、设备、存储介质及程序

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant