CN113239204A - 文本分类方法及装置、电子设备、计算机可读存储介质 - Google Patents

文本分类方法及装置、电子设备、计算机可读存储介质 Download PDF

Info

Publication number
CN113239204A
CN113239204A CN202110635207.6A CN202110635207A CN113239204A CN 113239204 A CN113239204 A CN 113239204A CN 202110635207 A CN202110635207 A CN 202110635207A CN 113239204 A CN113239204 A CN 113239204A
Authority
CN
China
Prior art keywords
text
label
classified
segmented
test
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110635207.6A
Other languages
English (en)
Inventor
张致远
朱云峰
汪潇
翟明辉
陆东明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Corp Ltd
Original Assignee
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Corp Ltd filed Critical China Telecom Corp Ltd
Priority to CN202110635207.6A priority Critical patent/CN113239204A/zh
Publication of CN113239204A publication Critical patent/CN113239204A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供一种文本分类方法、装置、电子设备和计算机可读介质;涉及自然语言处理技术领域。所述文本分类方法包括:获取待分类文本,对待分类文本进行第一文本分类处理,得到对应的第一文本标签;当存在多个第一文本标签的标签概率大于概率阈值时,对待分类文本进行文本分割处理,得到分割文本;对分割文本进行第二文本分类处理,以得到对应的第二文本标签;根据第一文本标签与第二文本标签确定待分类文本对应的目标文本标签。本公开通过对文本进行分割,基于分割文本进行文本分类,可以有效提高文本分类的准确率,同时可以定位文本标签的具体位置,不易产生漏判。

Description

文本分类方法及装置、电子设备、计算机可读存储介质
技术领域
本公开涉及自然语言处理技术领域,具体而言,涉及一种文本分类方法、文本分类装置、电子设备以及计算机可读存储介质。
背景技术
针对现有网络技术的发展,运营商之间的竞争激烈,客服呼叫中心(又称呼叫中心)的服务质量成为吸引消费者的重要环节。举例而言,呼叫中心每日约有3万通呼入电话,呼叫中心需要统计分析用户需求和体验,及时响应舆情,以提高用户满意度。
呼叫中心可以通过对通话文本分类以统计用户需求,通话文本分类通常可以使用关键词匹配或卷积神经网络(Convolutional Neural Networks,CNN)、循环神经网络(Recurrent Neural Network,RNN)等深度学习方法。另外,基于转换器的双向编码表征(Bidirectional Encoder Representations from Transformers,BERT)模型及其衍生预训练模型的迁移学习可以简单快速地对短文本进行分类。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
然而,在采用关键词匹配或CNN、RNN等深度学习方法时,标注人员需要对层级标签或较多类别标签提供大量的标注数据。并且,Bert及其衍生预训练模型的迁移学习对现有呼叫中心对话的长文本和标签正交性低的分类效果不理想。
基于此,本公开的目的在于提供一种文本分类方法、文本分类装置、电子设备以及计算机可读存储介质,进而在一定程度上克服现有的文本分类方法准确率低,无法提供大量的标注数据且无法有效地对长文本进行分类以及无法准确定位并预测用户意图的问题。
根据本公开的一个方面,提供一种文本分类方法,包括:获取待分类文本,对待分类文本进行第一文本分类处理,得到对应的第一文本标签;当存在多个第一文本标签的标签概率大于概率阈值时,对待分类文本进行文本分割处理,得到分割文本;对分割文本进行第二文本分类处理,以得到对应的第二文本标签;根据第一文本标签与第二文本标签确定待分类文本对应的目标文本标签。
在本公开的一种示例性实施例中,在获取待分类文本之前,上述方法还包括:获取原始文本,确定原始文本中包含的待删除词;待删除词包括问候语、语气词、停用词中的一种或多种;删除待删除词,得到对应的待合并文本;确定待合并文本中包含的多个目标连续短句,对多个目标连续短句进行合并处理,以得到待分类文本。
在本公开的一种示例性实施例中,对待分类文本进行第一文本分类处理,得到对应的第一文本标签,包括:获取预先构建的初始模型,通过初始模型对待分类文本进行文本编码处理,以得到待分类文本的文本向量;获取预先构建的第一文本分类模型;第一文本分类模型基于待分类文本与初始模型得到;由第一文本分类模型对文本向量进行第一文本分类处理,得到第一文本标签;第一文本分类模型通过下述步骤训练得到:获取待分类文本数据集;待分类文本数据集包括多个待分类训练文本以及各待分类训练文本对应的训练文本标签;根据待分类文本数据集对初始模型进行训练,以得到第一文本分类模型。
在本公开的一种示例性实施例中,对待分类文本进行文本分割处理,得到分割文本,包括:确定待分类文本对应的断句标识,根据断句标识对待分类文本进行文本分割处理,以得到分割文本;确定待分类文本对应的段落标识,根据段落标识对待分类文本进行文本分割处理,以得到分割文本;以及确定待分类文本中包含的文本问答对,根据文本问答对对待分类文本进行文本分割处理,以得到分割文本。
在本公开的一种示例性实施例中,对分割文本进行第二文本分类处理,以得到对应的第二文本标签,包括:获取预先构建的初始模型,通过初始模型对分割文本进行文本编码处理,以得到分割文本的分割文本向量;获取预先构建的第二文本分类模型;第二文本分类模型基于分割文本与初始模型得到;由第二文本分类模型对分割文本向量进行第二文本分类处理,得到第二文本标签;第二文本分类模型通过下述步骤训练得到:获取分割文本数据集;分割文本数据集包括多个训练分割文本以及各训练分割文本对应的训练分割文本标签;根据分割文本数据集对初始模型进行训练,以得到第二文本分类模型。
在本公开的一种示例性实施例中,上述方法还包括:获取待分类测试文本,并确定待分类测试文本的测试文本向量;获取第一文本分类模型,将测试文本向量输入至第一文本分类模型,得到对应的初始测试文本标签与初始测试标签概率;如果初始测试标签概率小于概率阈值,则确定待分类测试文本的测试文本标签,并确定待分类测试文本对应的分割测试文本的分割测试文本标签;根据待分类测试文本与测试文本标签得到更新后的第一文本分类模型,并根据分割测试文本与分割测试文本标签得到更新后的第二文本分类模型。
在本公开的一种示例性实施例中,根据第一文本标签与第二文本标签确定待分类文本对应的目标文本标签,包括:根据第一文本标签的标签概率对第一文本标签进行排序,得到第一标签排序结果;根据第一标签排序结果确定目标数量个第一初始有效标签;获取第二文本标签的标签概率,删除标签概率小于概率阈值的第二文本标签,得到第二初始有效标签;获取预先配置的文本标注规则,根据文本标注规则、第一初始有效标签与第二初始有效标签确定目标文本标签。
根据本公开的一个方面,提供一种文本分类装置,包括:第一标签确定模块,用于获取待分类文本,对待分类文本进行第一文本分类处理,得到对应的第一文本标签;文本分割模块,用于当存在多个第一文本标签的标签概率大于概率阈值时,对待分类文本进行文本分割处理,得到分割文本;第二标签确定模块,用于对分割文本进行第二文本分类处理,以得到对应的第二文本标签;目标标签确定模块,用于根据第一文本标签与第二文本标签确定待分类文本对应的目标文本标签。
在本公开的一种示例性实施例中,所述文本分类装置还包括文本预处理模块,文本预处理模块用于获取原始文本,确定原始文本中包含的待删除词;待删除词包括问候语、语气词、停用词中的一种或多种;删除待删除词,得到对应的待合并文本;确定待合并文本中包含的多个目标连续短句,对多个目标连续短句进行合并处理,以得到待分类文本。
在本公开的一种示例性实施例中,第一标签确定模块包括第一标签确定单元,用于获取预先构建的初始模型,通过初始模型对待分类文本进行文本编码处理,以得到待分类文本的文本向量;获取预先构建的第一文本分类模型;第一文本分类模型基于待分类文本与初始模型得到;由第一文本分类模型对文本向量进行第一文本分类处理,得到第一文本标签;第一文本分类模型通过下述步骤训练得到:获取待分类文本数据集;待分类文本数据集包括多个待分类训练文本以及各待分类训练文本对应的训练文本标签;根据待分类文本数据集对初始模型进行训练,以得到第一文本分类模型。
在本公开的一种示例性实施例中,文本分割模块包括文本分割单元,用于确定待分类文本对应的断句标识,根据断句标识对待分类文本进行文本分割处理,以得到分割文本;确定待分类文本对应的段落标识,根据段落标识对待分类文本进行文本分割处理,以得到分割文本;以及确定待分类文本中包含的文本问答对,根据文本问答对对待分类文本进行文本分割处理,以得到分割文本。
在本公开的一种示例性实施例中,第二标签确定模块包括第二标签确定单元,用于获取预先构建的初始模型,通过初始模型对分割文本进行文本编码处理,以得到分割文本的分割文本向量;获取预先构建的第二文本分类模型;第二文本分类模型基于分割文本与初始模型得到;由第二文本分类模型对分割文本向量进行第二文本分类处理,得到第二文本标签;第二文本分类模型通过下述步骤训练得到:获取分割文本数据集;分割文本数据集包括多个训练分割文本以及各训练分割文本对应的训练分割文本标签;根据分割文本数据集对初始模型进行训练,以得到第二文本分类模型。
在本公开的一种示例性实施例中,文本分类装置还包括模型更新模块,用于获取待分类测试文本,并确定待分类测试文本的测试文本向量;获取第一文本分类模型,将测试文本向量输入至第一文本分类模型,得到对应的初始测试文本标签与初始测试标签概率;如果初始测试标签概率小于概率阈值,则确定待分类测试文本的测试文本标签,并确定待分类测试文本对应的分割测试文本的分割测试文本标签;根据待分类测试文本与测试文本标签得到更新后的第一文本分类模型,并根据分割测试文本与分割测试文本标签得到更新后的第二文本分类模型。
在本公开的一种示例性实施例中,目标标签确定模块包括目标标签确定单元,用于根据第一文本标签的标签概率对第一文本标签进行排序,得到第一标签排序结果;根据第一标签排序结果确定目标数量个第一初始有效标签;获取第二文本标签的标签概率,删除标签概率小于概率阈值的第二文本标签,得到第二初始有效标签;获取预先配置的文本标注规则,根据文本标注规则、第一初始有效标签与第二初始有效标签确定目标文本标签。
根据本公开的一个方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的方法。
根据本公开的一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的方法。
根据本公开的一个方面,提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质中读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各个实施例中提供的文本分类方法。
本公开示例性实施例可以具有以下部分或全部有益效果:
在本公开的一示例实施方式所提供的文本分类方法中,获取待分类文本,对待分类文本进行第一文本分类处理,得到对应的第一文本标签;当存在多个第一文本标签的标签概率大于概率阈值时,对待分类文本进行文本分割处理,得到分割文本;对分割文本进行第二文本分类处理,以得到对应的第二文本标签;根据第一文本标签与第二文本标签确定待分类文本对应的目标文本标签。通过本公开的文本方法,一方面,综合采用第一文本分类与第二文本分类方法进行文本分类,可以提高文本分类的准确率,并且对于具有高可信的文本标签可以免除将其进行第二文本分类处理,减少硬件资源占用。又一方面,基于分割后的文本进行文本分类,可以确定文本标签的对应位置,减少漏判和误判,还可以有效预测文本内容对应的标签。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了可以应用本公开实施例的一种文本分类方法及装置的示例性系统架构的示意图;
图2示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图;
图3示意性示出了根据本公开的一个实施例的文本分类方法的流程图;
图4示意性示出了根据本公开的一个实施例的根据待分类训练文本得到第一文本分类模型的流程图;
图5示意性示出了根据本公开的一个实施例的根据训练分割文本得到第二文本分类模型的流程图;
图6示意性示出了根据本公开的一个实施例的采用第二文本分类模型对分割文本进行文本分类的分类结果图;
图7示意性示出了根据本公开的一个实施例的对文本进行初始标注以训练文本分类模型的流程图;
图8示意性示出了根据本公开的一个实施例的对文本进行滚动更新标注以训练文本分类模型的流程图;
图9示意性示出了根据本公开的一个实施例的确定待分类文本的目标文本标签的整体流程图;
图10示意性示出了根据本公开的一个实施例文本分类装置的结构图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
图1示出了可以应用本公开实施例的一种文本分类方法及装置的示例性应用环境的系统架构的示意图。
如图1所示,系统架构100可以包括终端设备101、102、103中的一个或多个,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。终端设备101、102、103可以是具有显示屏的各种电子设备,包括但不限于台式计算机、便携式计算机、智能手机和平板电脑等等。应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。
本公开实施例所提供的文本分类方法一般由服务器105执行,相应地,文本分类装置一般设置于服务器105中。但本领域技术人员容易理解的是,本公开实施例所提供的文本分类方法也可以由终端设备101、102、103执行,相应的,文本分类装置也可以设置于终端设备101、102、103中,本示例性实施例中对此不做特殊限定。举例而言,在一种示例性实施例中,可以是用户通过终端设备101、102、103将原始文本上传至服务器105,服务器通过本公开实施例所提供的文本分类方法将原始文本进行文本预处理得到待分类文本,对待分类文本进行文本分割处理得到分割文本,分别对待分类文本与分割文本进行文本分类处理以得到对应的目标文本标签,并将目标文本标签传输给终端设备101、102、103等。
图2示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。
需要说明的是,图2示出的电子设备的计算机系统200仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图2所示,计算机系统200包括中央处理单元(CPU)201,其可以根据存储在只读存储器(ROM)202中的程序或者从存储部分208加载到随机访问存储器(RAM)203中的程序而执行各种适当的动作和处理。在RAM 203中,还存储有系统操作所需的各种程序和数据。CPU201、ROM 202以及RAM 203通过总线204彼此相连。输入/输出(I/O)接口205也连接至总线204。
以下部件连接至I/O接口205:包括键盘、鼠标等的输入部分206;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分207;包括硬盘等的存储部分208;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分209。通信部分209经由诸如因特网的网络执行通信处理。驱动器210也根据需要连接至I/O接口205。可拆卸介质211,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器210上,以便于从其上读出的计算机程序根据需要被安装入存储部分208。
特别地,根据本公开的实施例,下文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分209从网络上被下载和安装,和/或从可拆卸介质211被安装。在该计算机程序被中央处理单元(CPU)201执行时,执行本申请的方法和装置中限定的各种功能。在一些实施例中,计算机系统200还可以包括AI(ArtificialIntelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
需要说明的是,本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如下述实施例中所述的方法。例如,所述的电子设备可以实现如图3~图5、图7~图9所示的各个步骤等。
以下对本公开实施例的技术方案进行详细阐述:
呼叫中心可以通过对通话文本分类以统计用户需求,通话文本分类通常可以使用关键词匹配或CNN、RNN等深度学习方法。另外,基于BERT模型及其衍生预训练模型的迁移学习可以简单快速地对短文本进行分类。
然而,在采用CNN、RNN等深度学习方法进行文本分类时,对于层级标签或较多类别标签不仅需要技术人员较多的尝试,也需要标注人员提供大量的标注数据。另外,正交性低的标签可以是指两个标签描述信息比较接近,在进行分类的时候容易混淆的标签。采用BERT及其衍生预训练模型的迁移学习能够简单快速地对短文本进行分类,但对于现有呼叫中心对话的长文本和标签正交性低的分类效果并不理想。
基于上述一个或多个问题,本示例实施方式提供了一种文本分类方法。该文本分类方法可以应用于上述服务器105,也可以应用于上述终端设备101、102、103中的一个或多个,本示例性实施例中对此不做特殊限定。参考图3所示,该文本分类方法可以包括以下步骤S310至步骤S340:
步骤S310.获取待分类文本,对待分类文本进行第一文本分类处理,得到对应的第一文本标签。
在本示例实施方式中,待分类文本可以等待进行文本分类处理,以确定对应文本标签的文本。第一文本分类处理可以是确定待分类文本对应的第一文本标签的过程。第一文本标签可以是将待分类文本作为一个整体进行文本分类所得到的整篇文本对应的文本标签,第一文本标签可以表示待分类文本对应的分类预测结果。第一标签数量可以是对待分类文本进行第一文本分类处理后得到的第一文本标签的数量,第一标签数量可以是一个或多个。
获取待分类文本,对待分类文本作为一个整体进行第一文本分类处理,得到待分类文本作为整篇文本所对应的第一文本标签。在得到第一文本标签后,还可以确定第一文本标签对应的第一标签数量。
步骤S320.当存在多个第一文本标签的标签概率大于概率阈值时,对待分类文本进行文本分割处理,得到分割文本。
在本示例实施方式中,第一文本标签的标签概率可以是每个第一文本标签各自对应的概率值。概率阈值可以是预先设定的阈值,用于与标签概率进行对比。文本分割处理可以是按照一定的文本分割方式对待分类文本进行文本分割的过程。分割文本可以是对待分类文本进行文本分割处理后得到的文本。
在得到待分类文本对应的第一文本标签后,可以获取第一文本标签对应的标签概率。第一文本标签的数量可以是一个或多个,可以将每个第一文本标签的标签概率与概率阈值进行对比,当只有一个标签概率大于概率阈值的第一文本标签时,可以将该第一文本标签作为待分类文本对应的目标文本标签。当得到第一文本标签中,存在多个第一文本标签的标签概率均大于概率阈值时,可以对待分类文本进行文本分割处理,得到对应的分割文本,以便基于分割文本进行下一步处理。
步骤S330.对分割文本进行第二文本分类处理,以得到对应的第二文本标签。
在本示例实施方式中,第二文本分类处理可以是对分割文本进行的文本分类处理过程。第二文本标签可以是对分割文本进行第二文本分类处理后得到的文本标签。
在得到分割文本后,可以对分割文本进行第二文本分类处理,得到与分割文本对应的第二文本标签。通过对分割文本进行文本分类处理,可以对分割文本进行分段标注,便于定位第二文本标签在分割文本中的对应位置。
步骤S340.根据第一文本标签与第二文本标签确定待分类文本对应的目标文本标签。
在本示例实施方式中,目标文本标签可以是根据第一文本标签与第二文本标签最终确定出的与待分类文本对应的文本标签。
在确定出与待分类文本对应的第一文本标签,以及与分割文本对应的第二文本标签后,可以获取预设的文本标注规则,根据第一文本标签与第二文本标签,并基于文本标注规则确定待分类文本对应的目标文本标签。
另外,在本方案中,如果对待分类文本进行第一文本分类处理后,得到的第一文本标签中仅存在唯一一个标签概率大于概率阈值的第一文本标签,则将其作为目标文本标签。
本公开所提供的文本分类方法,一方面,综合采用第一文本分类与第二文本分类方法进行文本分类,可以提高文本分类的准确率,并且对于具有高可信的文本标签可以免除将其进行第二文本分类处理,减少硬件资源占用。又一方面,基于分割后的文本进行文本分类,可以确定文本标签的对应位置,减少漏判和误判,还可以有效预测文本内容对应的标签。
下面,对于本示例实施方式的上述步骤进行更加详细的说明。
在本公开的一种示例性实施例中,获取原始文本,确定原始文本中包含的待删除词;待删除词包括问候语、语气词、停用词中的一种或多种;删除待删除词,得到对应的待合并文本;确定待合并文本中包含的多个目标连续短句,对多个目标连续短句进行合并处理,以得到待分类文本。
其中,原始文本可以是直接获取到的未经处理的文本。例如,以电话通话的呼叫中心为例,原始文本可以是直接将获取到的对话语音进行语音文本转换处理得到的文本。待删除词可以是原始文本中对文本分类结果没有影响,可以删除的词语。问候语可以是日常生活中比较常用的交际语言,例如,问候语可以包括“你好”、“哈喽”、“嗨”等词语。语气词可以是表示语气的虚词,例如,语气词可以包括“呀”、“啊”、“吧”、“呢”等等。停用词可以是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词。待合并文本可以是删除原始文本中的待删除词后得到的文本。目标连续短句可以是原始文本中语句次序相连的多个连续短句。合并处理可以是对多个目标连续短句进行短句合并的处理过程。
在获取到原始文本后,可以确定出原始文本中包含的待删除词,例如,原始文本中包含的问候语、语气词以及停用词等等。删除原始文本中的待删除词,得到原始文本对应的待合并文本。确定待合并文本中包含的多个目标连续短句,并将确定出的多个目标连续短句进行合并处理,以得到待分类文本。例如,在得到待合并文本后,可以将待合并文本中同一个说话人的连续短句确定为目标连续短句,并对目标连续短句进行文本合并操作,可以得到对应的待分类文本。
在本公开的一种示例性实施例中,获取预先构建的初始模型,通过初始模型对待分类文本进行文本编码处理,以得到待分类文本的文本向量;获取预先构建的第一文本分类模型;第一文本分类模型基于待分类文本与初始模型得到;由第一文本分类模型对文本向量进行第一文本分类处理,得到第一文本标签;第一文本分类模型通过下述步骤训练得到:获取待分类文本数据集;待分类文本数据集包括多个待分类训练文本以及各待分类训练文本对应的训练文本标签;根据待分类文本数据集对初始模型进行训练,以得到第一文本分类模型。
其中,初始模型可以是为了训练第一文本分类模型预先构建的模型。文本编码处理可以是对待分类文本进行文本编码以得到对应的文本向量表示的处理过程。文本向量可以是待分类文本的向量表示形式。第一文本分类模型可以是采用待分类文本对初始模型进行训练得到的文本分类模型,第一文本分类模型可以是用于对待分类文本进行第一次全文预测的分类模型。第一文本分类处理可以是采用第一文本分类模型对待分类文本进行文本分类的处理过程。待分类文本数据集可以是由多个待分类训练文本及其对应的训练文本标签组成的数据集。待分类训练文本可以是用于训练第一文本分类模型所采用的训练数据。训练文本标签可以是对待分类训练文本进行文本标注后得到的对应的文本标签。
在确定出待分类文本后,可以将待分类文本输入至初始模型,由初始模型对待分类文本进行文本编码处理,得到待分类文本对应的文本向量。举例而言,由于待分类文本可以是自然语言文本,在确定出待分类文本之后,可以将待分类文本输入BERT编码器,得到对应的文本向量(或矩阵)。获取预先构建的第一文本分类模型,将待分类文本的文本向量输入至第一文本分类模型,由第一文本分类模型输出待分类文本对应的第一文本标签。
参考图4,图4示意性示出了根据本公开的一个实施例的根据待分类训练文本得到第一文本分类模型的流程图。在步骤S410中,获取待分类文本数据集,并获取各待分类训练文本对应的训练文本标签。在确定出待分类文本数据集后,标注员可以对待分类文本进行文本标注,例如,标注员可以快速阅读找到所有包含业务特征、行为需求描述的语句进行分类判断并标注,再根据预设标注规则确定待分类文本对应的训练文本标签。
具体的,在对待分类文本进行文本标注以确定第一文本标签时,对于同一个待分类文本,需要两位标注员在互不知道对方标注结果的前提下进行标注。若全文标注结果不一致,则交由第三人标注,标注系统告知第三人该文本有标注不一致的情况但不显示前两人的标注结果,最终标注结果以第三人为准。
在步骤S420中,将待分类文本数据集中的多个待分类训练文本及其对应的训练文本标签输入至初始模型,以对初始模型进行训练。具体的,在采用待分类训练文本输入初始模型进行模型训练时,如果待分类训练文本的文本长度超过510,则保留待分类训练文本的前510字符。例如,采用下述训练参数进行模型训练,初始模型可以选用RoBerta模型,RoBerta模型为BERT模型的强化版本,RoBerta模型采用了更大的batches,即每次输入网络中样本的个数。模型训练的学习速率=2e-5,文本最大长度=512,批大小=16,轮次=3,采用上述参数进行模型训练。
在步骤S430中,在采用待分类文本数据集与初始模型进行模型训练后,可以得到对应的第一文本分类模型。
在本公开的一种示例性实施例中,确定待分类文本对应的断句标识,根据断句标识对待分类文本进行文本分割处理,以得到分割文本;确定待分类文本对应的段落标识,根据段落标识对待分类文本进行文本分割处理,以得到分割文本;以及确定待分类文本中包含的文本问答对,根据文本问答对对待分类文本进行文本分割处理,以得到分割文本。
其中,断句标识可以是待分类文本中用于分隔每个短句所采用的标识。例如,断句标识可以包括“,”、“、”、“;”、“。”、“!”、“?”等等。文本分割处理可以是按照一定的文本分割规则对待分类文本进行分割处理的过程。段落标识可以是用于区分待分类文本的不同段落文本所采用的标识。文本问答对(Question and Answering)可以是一问一答对应的文本内容。
根据待分类文本得到分割文本时,可以根据不同的使用场景选用相应的文本分割规则进行文本分割处理。具体的,在需要理解文本中包含的说话人意图,可以对待分类文本进行短句分割或段落分割。例如,在进行短句分割处理时,可以确定待分类文本对应的断句标识,根据断句标识对待分类文本进行文本分割处理,得到分割文本。采用断句标识对待分类文本进行文本分割处理得到的分割文本,在后续采用分割文本作为训练数据训练文本分类模型时,可以较为准确地确定出行为或需求描述在文本中的位置。另外,在识别待分类文本中包含的文本意图时,还可以确定待分类文本中的段落标识,采用段落标识对待分类文本进行文本分割处理,得到对应的分割文本。进一步地,为了实现自动问答场景的文本分类,可以确定出待分类文本中包含的文本问答对,根据文本问答对对待分类文本进行文本分割处理,得到分割文本。
采用不同的文本分割方式对待分类文本进行文本分割处理,可以得到不同结果的分割文本,由于后续还需要对待分类文本与分割文本进行文本标注,得到对应的文本标签与分割文本标签,因此,分割文本可以将一个文本样本扩充为多个文本样本,增加训练数据的同时也减少文本标注的数据量,即采用较少的文本数据可以产生大量的标注文本。
本领域技术人员容易理解的是,在其他一些实施例中,还可以选用其他文本分割规则对待分类文本进行文本分割处理,分割的粒度和方式可以根据机器性能和标签数量调整,以适应不同场景下文本分类的实现需求,本公开对此不作任何特殊限定。
在本公开的一种示例性实施例中,获取预先构建的初始模型,通过初始模型对分割文本进行文本编码处理,以得到分割文本的分割文本向量;获取预先构建的第二文本分类模型;第二文本分类模型基于分割文本与初始模型得到;由第二文本分类模型对分割文本向量进行第二文本分类处理,得到第二文本标签;第二文本分类模型通过下述步骤训练得到:获取分割文本数据集;分割文本数据集包括多个训练分割文本以及各训练分割文本对应的训练分割文本标签;根据分割文本数据集对初始模型进行训练,以得到第二文本分类模型。
其中,分割文本可以是对待分类文本进行文本分割处理后生成的文本。分割文本向量可以是对分割文本进行文本编码处理后所得到的对应的向量表示。第二文本分类模型可以是采用分割文本对初始模型进行训练得到的文本分类模型,第二文本分类模型可以是用于对待分类文本进行逐段预测的分类模型。第二文本分类处理可以是采用第二文本分类模型对分割文本进行文本分类的处理过程。分割文本数据集可以是由多个训练分割文本及其对应的训练文本标签组成的数据集。训练分割文本可以是用于训练第二文本分类模型所采用的训练数据。训练文本标签可以是对训练分割文本进行文本标注后得到的对应的文本标签。
在根据待分类文本确定出分割文本之后,可以将分割文本输入至初始模型,由初始模型对分割文本进行文本编码处理,得到分割文本对应的分割文本向量。与待分类文本的处理方式相同,可以将分割文本输入BERT编码器,得到对应的分割文本向量(或矩阵)。获取预先构建的第二文本分类模型,将分割文本对应的分割文本向量输入至第二文本分类模型,由第二文本分类模型输出分割文本对应的第二文本标签。
参考图5,图5示意性示出了根据本公开的一个实施例的根据训练分割文本得到第二文本分类模型的流程图。在步骤S510中,获取分割文本数据集,与各训练分割文本对应的训练分割文本标签。在确定出分割文本数据集后,标注员可以对分割文本进行文本标注,例如,标注员可以根据预设标注规则确定每个分割文本对应的训练分割文本标签。
在确定分割文本对应的第二文本标签时,可以采用与对待分类文本进行文本标注的方式进行标注。如果存在分割文本的标注结果不一致,则仅将分割文本标注结果一致的作为训练数据,放入训练数据集。
在步骤S520中,将分割文本数据集中的多个训练分割文本及其对应的训练分割文本标签输入至初始模型,以对初始模型进行训练。具体的,在采用训练分割文本输入初始模型进行模型训练时,如果训练分割文本的文本长度超过510,则保留待分类训练文本的前510字符,一般情况下,分割文本的文本长度未超过510字符。在对第二文本分类模型进行模型训练时,初始模型可以是BERT模型、RoBerta模型等,对应的训练参数可以配置为:学习速率=2e-5,文本最大长度=512,批大小=16,轮次=3,采用上述参数进行模型训练。
在步骤S530中,在采用分割文本数据集与初始模型进行模型训练后,可以得到对应的第二文本分类模型。
在得到第二文本分类模型后,可以将采用第二文本分类模型对分割文本进行文本分类处理,参考图6,图6示意性示出了根据本公开的一个实施例的采用第二文本分类模型对分割文本进行文本分类的分类结果图。本实施例以处理呼叫中心的通话文本为例,对分割文本的分类结果进行说明,此处对待分类文本进行分类预测后,可以得到待分类文本的业务大类以及行为需求分别对应的文本标签。从图6中可知,通过第二文本分类模型确定出分割文本在业务大类与行为需求两大类下的预测结果。根据文本标注规则,可以将概率阈值确定为0.9,由于标签“故障/报修”对应的概率均大于概率阈值0.9,因此,该分割文本可置信的行为需求为“故障/报修”,由于在得到的分类结果中,“移动业务”先发生且占有最多篇幅,13个标签分类中出现了7次,故业务大类为“移动业务”。
本领域技术人员容易理解的是,第一文本分类模型的表述并不代表其仅有一个模型,也可以是由多个模型集成;又可以是每个标签类别分别采用一个模型以确定对应的标签类别,例如,以呼叫中心中的通话文本为例,通话文本对应的业务大类和行为需求可以分别对应一个模型;另外,第一文本分类模型还可以是多个标签类别模型组成的集合。第二文本分类模型同理,本公开对此不再进行赘述。
本公开中,首先通过对文本进行初始标注以训练文本分类模型。参考图7,图7示意性示出了根据本公开的一个实施例的对文本进行初始标注以训练文本分类模型的流程图。在步骤S710中,获取待分类文本数据集,待分类文本数据集中可以包含多个待分类训练文本。在步骤S720中,对待分类训练文本进行文本分割处理,可以得到训练分割文本。在步骤S730中,获取各待分类训练文本对应的训练文本标签,以及各训练分割文本对应的训练分割文本标签。其中,待分类训练文本的训练文本标签可以是对待分类训练文本进行文本标注得到的,同样的,对训练分割文本进行文本标注,可以得到对应的训练分割文本标签。在步骤S740中,将各待分类训练文本及其对应的训练文本标签输入至预先构建的初始模型,以对初始模型进行训练,得到第一文本分类模型;同时,可以将多个训练分割文本及其对应的训练分割文本标签输入至预先构建的初始模型,以对初始模型进行训练,得到第二文本分类模型。
在本公开的一种示例性实施例中,获取待分类测试文本,并确定待分类测试文本的测试文本向量;获取第一文本分类模型,将测试文本向量输入至第一文本分类模型,得到对应的初始测试文本标签与初始测试标签概率;如果初始测试标签概率小于概率阈值,则确定待分类测试文本的测试文本标签,并确定待分类测试文本对应的分割测试文本的分割测试文本标签;根据待分类测试文本与测试文本标签得到更新后的第一文本分类模型,并根据分割测试文本与分割测试文本标签得到更新后的第二文本分类模型。
其中,待分类测试文本可以是文本标签的准确度还需确定的待分类文本。测试文本向量可以是对待分类测试文本进行文本编码处理所得到的对应的文本向量。初始测试文本标签可以是采用第一文本分类模型对待分类测试文本进行文本分类后得到的文本标签。初始测试标签概率可以是测试文本标签对应的概率值。测试文本标签可以是对待分类测试文本进行文本标注后所确定出的对应标签。分割测试文本可以是对待分类测试文本进行文本分割处理后得到的文本。分割测试文本标签可以是对分割测试文本进行文本标注后确定出的对应标签。
参考图8,图8示意性示出了根据本公开的一个实施例的对文本进行滚动更新标注以训练文本分类模型的流程图。在步骤S810中,获取待分类测试文本。在进行文本分类过程中,将不断产生新的文本,针对最新产生的文本,由于无法确定文本分类模型对其分类的准确性,因此,可以将最新产生的文本作为待分类测试文本。在步骤S820中,由第一文本分类模型对待分类测试文本进行文本分类处理。在获取到待分类测试文本之后,可以对待分类测试文本进行文本编码处理,得到待分类测试文本对应的测试文本向量。获取第一文本分类模型,将测试文本向量输入至第一文本分类模型,由第一文本分类模型对待测试分类文本整体进行文本分类处理,输出对应的测试文本标签以及测试文本标签对应的测试标签概率。
在步骤S830中,将输出的测试标签概率与概率阈值进行对比,判断测试文本标签的最高标签概率是否低于概率阈值。在步骤S840中,如果测试文本标签的最高标签概率不低于概率阈值,则不将待分类测试文本放入文本训练集,此时,无需更新文本分类模型。
在步骤S850中,如果具有最大概率值的测试标签概率仍然小于概率阈值,则需要对待分类测试文本进行文本标注,且需要对其进行文本分割处理后的分割测试文本进行文本标注,分别得到待分类测试文本对应的测试文本标签,以及分割测试文本对应的分割测试文本标签。
在步骤S860中,更新待分类文本数据集与分割文本数据集,以定时更新文本分类模型。具体的,将待分类测试文本与其对应的测试文本标签放入待分类文本数据集,根据包含待分类测试文本与其对应的测试文本标签的待分类文本数据集更新第一文本分类模型,以得到更新后的第一文本分类模型。另外,还可以将分割测试文本与其对应的分割测试文本标签放入分割文本数据集,根据包含分割测试文本与其对应的分割测试文本标签更新第二文本分类模型,以得到更新后的第二文本分类模型。通过定时更新文本分类模型,可以进一步提高文本分类模型对文本分类的准确率。
在本公开的一种示例性实施例中,根据第一文本标签的标签概率对第一文本标签进行排序,得到第一标签排序结果;根据第一标签排序结果确定目标数量个第一初始有效标签;获取第二文本标签的标签概率,删除标签概率小于概率阈值的第二文本标签,得到第二初始有效标签;获取预先配置的文本标注规则,根据文本标注规则、第一初始有效标签与第二初始有效标签确定目标文本标签。
其中,第一标签排序结果可以是按照第一文本标签的标签概率的具体值对第一文本标签进行排序后得到的结果。目标数量可以是预先设定数量值,例如,目标数量可以是3、5、7等。第一初始有效标签可以是第一标签排序结果中处于前目标数量排名的第一文本标签。第二初始有效标签可以是标签概率值大于等于概率阈值的第二文本标签。文本标注规则可以是对文本进行标注操作时所参照的规则。
在根据得到的第一文本标签与第二文本标签确定目标文本标签时,可以按照第一文本标签的标签概率的大小值对第一文本标签从高到低进行排序,得到第一标签排序结果。当目标数量确定为5时,可以从第一标签排序结果中选取排名前5个的第一文本标签作为第一初始有效标签。对分割文本进行文本分类处理后,可以得到第二文本标签,获取第二文本标签的标签概率,将标签概率小于概率阈值的第二文本标签删除,可以得到第二初始有效标签。
在确定出第一初始有效标签与第二初始有效标签后,可以根据文本标注规则从第二初始有效标签确定目标文本标签,例如,当待分类文本中存在多个行为需求的文本标签时,可以选择出现次数最多的文本标签作为目标文本标签。还例如,根据文本标注规则从第二初始有效标签中确定的目标文本标签必须在第一初始有效标签内,否则无法根据第二初始有效标签确定目标文本标签。如果目标文本标签没有达到概率阈值,则将得到的具有最高第一标签概率值的第一文本标签以及具有最高第二标签概率值的第二文本标签作为目标文本标签。
参考图9,图9示意性示出了根据本公开的一个实施例的确定待分类文本的目标文本标签的整体流程图。在步骤S910中,获取待分类文本,并对待分类文本进行文本编码处理,得到对应的文本向量。在步骤S920中,将得到的文本向量输入至第一文本分类模型中,对文本向量进行第一文本分类处理,得到对应的第一文本标签。在步骤S930中,判断是否只有一个超过概率阈值的第一文本标签。获取经过第一文本分类处理后得到的第一文本标签,判断是否仅存在唯一一个标签概率大于等于概率阈值的第一文本标签。在步骤S940中,若是,则将确定出的唯一一个第一文本标签作为目标文本标签。在步骤S950中,如果存在多个标签概率均大于概率阈值的第一文本标签,则对待分类文本进行文本分割处理,得到对应的分割文本,并对分割文本进行文本编码处理,得到分割文本向量。在步骤S960中,将得到的分割文本向量输入至第二文本分类模型中,对分割文本向量进行第二文本分类处理。在步骤S970中,将文本分类结果代入至文本标注规则。确定经过第二文本分类处理后得到的文本分类结果,即第二文本标签,将第二文本标签代入至文本标注规则中,基于文本标注规则并根据第一文本标签与第二文本标签确定目标文本标签。
以处理呼叫中心的通话文本为例,呼叫中心可以使用本公开的文本分类方法在通话结束后即刻得到通话分类结果,可以将得到的分类结果用于统计报表、舆情监测、业务推荐等方面。另外,使用实时语音转文字功能,亦能达到通话时实时预测用户意图的目的。本公开的文本分类方法也可用于其他类似文本结构的文本分类,本公开对此不作任何特殊限定。
需要说明的是,本申请中本公开所使用的术语“第一”、“第二”、等,仅是为了区分不同文本标签、不同文本分类处理、不同的文本分类模型以及不同的初始有效标签,并不应对本公开造成任何限制。
综上所述,本公开的文本分类方法,获取待分类文本,对待分类文本进行第一文本分类处理,得到对应的第一文本标签;当存在多个第一文本标签的标签概率大于概率阈值时,对待分类文本进行文本分割处理,得到分割文本;对分割文本进行第二文本分类处理,以得到对应的第二文本标签;根据第一文本标签与第二文本标签确定待分类文本对应的目标文本标签。通过本公开的文本方法,一方面,对文本进行文本分割处理,可以使用较少的文本数据产生大量的文本标签,减少模型训练所需标注的文本量。另一方面,综合采用第一文本分类模型与第二文本分类模型进行文本分类处理,不仅可以提高文本分类的准确率,还可以使高标签概率的可信分类结果免除进入第二文本分类模型进行文本分类,有效减少硬件资源占用。又一方面,基于分割后的文本进行文本分类,可以确定文本标签的对应位置,不易漏判,还可以提高文本标注准确率。
应当注意,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
进一步的,本示例实施方式中,还提供了一种文本分类装置。该文本分类装置可以应用于一服务器或终端设备。参考图10所示,该文本分类装置1000可以包括第一标签确定模块1010、文本分割模块1020、第二标签确定模块1030以及目标标签确定模块1040。其中:
第一标签确定模块1010,用于获取待分类文本,对待分类文本进行第一文本分类处理,得到对应的第一文本标签;文本分割模块1020,用于当存在多个第一文本标签的标签概率大于概率阈值时,对待分类文本进行文本分割处理,得到分割文本;第二标签确定模块1030,用于对分割文本进行第二文本分类处理,以得到对应的第二文本标签;目标标签确定模块1040,用于根据第一文本标签与第二文本标签确定待分类文本对应的目标文本标签。
在本公开的一种示例性实施例中,所述文本分类装置还包括文本预处理模块,文本预处理模块用于获取原始文本,确定原始文本中包含的待删除词;待删除词包括问候语、语气词、停用词中的一种或多种;删除待删除词,得到对应的待合并文本;确定待合并文本中包含的多个目标连续短句,对多个目标连续短句进行合并处理,以得到待分类文本。
在本公开的一种示例性实施例中,第一标签确定模块包括第一标签确定单元,用于获取预先构建的初始模型,通过初始模型对待分类文本进行文本编码处理,以得到待分类文本的文本向量;获取预先构建的第一文本分类模型;第一文本分类模型基于待分类文本与初始模型得到;由第一文本分类模型对文本向量进行第一文本分类处理,得到第一文本标签;第一文本分类模型通过下述步骤训练得到:获取待分类文本数据集;待分类文本数据集包括多个待分类训练文本以及各待分类训练文本对应的训练文本标签;根据待分类文本数据集对初始模型进行训练,以得到第一文本分类模型。
在本公开的一种示例性实施例中,文本分割模块包括文本分割单元,用于确定待分类文本对应的断句标识,根据断句标识对待分类文本进行文本分割处理,以得到分割文本;确定待分类文本对应的段落标识,根据段落标识对待分类文本进行文本分割处理,以得到分割文本;以及确定待分类文本中包含的文本问答对,根据文本问答对对待分类文本进行文本分割处理,以得到分割文本。
在本公开的一种示例性实施例中,第二标签确定模块包括第二标签确定单元,用于获取预先构建的初始模型,通过初始模型对分割文本进行文本编码处理,以得到分割文本的分割文本向量;获取预先构建的第二文本分类模型;第二文本分类模型基于分割文本与初始模型得到;由第二文本分类模型对分割文本向量进行第二文本分类处理,得到第二文本标签;第二文本分类模型通过下述步骤训练得到:获取分割文本数据集;分割文本数据集包括多个训练分割文本以及各训练分割文本对应的训练分割文本标签;根据分割文本数据集对初始模型进行训练,以得到第二文本分类模型。
在本公开的一种示例性实施例中,文本分类装置还包括模型更新模块,用于获取待分类测试文本,并确定待分类测试文本的测试文本向量;获取第一文本分类模型,将测试文本向量输入至第一文本分类模型,得到对应的初始测试文本标签与初始测试标签概率;如果初始测试标签概率小于概率阈值,则确定待分类测试文本的测试文本标签,并确定待分类测试文本对应的分割测试文本的分割测试文本标签;根据待分类测试文本与测试文本标签得到更新后的第一文本分类模型,并根据分割测试文本与分割测试文本标签得到更新后的第二文本分类模型。
在本公开的一种示例性实施例中,目标标签确定模块包括目标标签确定单元,用于根据第一文本标签的标签概率对第一文本标签进行排序,得到第一标签排序结果;根据第一标签排序结果确定目标数量个第一初始有效标签;获取第二文本标签的标签概率,删除标签概率小于概率阈值的第二文本标签,得到第二初始有效标签;获取预先配置的文本标注规则,根据文本标注规则、第一初始有效标签与第二初始有效标签确定目标文本标签。
上述文本分类装置中各模块或单元的具体细节已经在对应的文本分类方法中进行了详细的描述,因此此处不再赘述。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (10)

1.一种文本分类方法,其特征在于,包括:
获取待分类文本,对所述待分类文本进行第一文本分类处理,得到对应的第一文本标签;
当存在多个所述第一文本标签的标签概率大于概率阈值时,对所述待分类文本进行文本分割处理,得到分割文本;
对所述分割文本进行第二文本分类处理,以得到对应的第二文本标签;
根据所述第一文本标签与所述第二文本标签确定所述待分类文本对应的目标文本标签。
2.根据权利要求1所述的方法,其特征在于,在所述获取待分类文本之前,所述方法还包括:
获取原始文本,确定所述原始文本中包含的待删除词;所述待删除词包括问候语、语气词、停用词中的一种或多种;
删除所述待删除词,得到对应的待合并文本;
确定所述待合并文本中包含的多个目标连续短句,对多个所述目标连续短句进行合并处理,以得到所述待分类文本。
3.根据权利要求1所述的方法,其特征在于,所述对所述待分类文本进行第一文本分类处理,得到对应的第一文本标签,包括:
获取预先构建的初始模型,通过所述初始模型对所述待分类文本进行文本编码处理,以得到所述待分类文本的文本向量;
获取预先构建的第一文本分类模型;所述第一文本分类模型基于所述待分类文本与所述初始模型得到;
由所述第一文本分类模型对所述文本向量进行所述第一文本分类处理,得到所述第一文本标签;
所述第一文本分类模型通过下述步骤训练得到:
获取待分类文本数据集;所述待分类文本数据集包括多个待分类训练文本以及各待分类训练文本对应的训练文本标签;
根据所述待分类文本数据集对所述初始模型进行训练,以得到所述第一文本分类模型。
4.根据权利要求1所述的方法,其特征在于,所述对所述待分类文本进行文本分割处理,得到分割文本,包括:
确定所述待分类文本对应的断句标识,根据所述断句标识对所述待分类文本进行文本分割处理,以得到所述分割文本;
确定所述待分类文本对应的段落标识,根据所述段落标识对所述待分类文本进行文本分割处理,以得到所述分割文本;以及
确定所述待分类文本中包含的文本问答对,根据所述文本问答对对所述待分类文本进行文本分割处理,以得到所述分割文本。
5.根据权利要求1或4所述的方法,其特征在于,所述对所述分割文本进行第二文本分类处理,以得到对应的第二文本标签,包括:
获取预先构建的初始模型,通过所述初始模型对所述分割文本进行文本编码处理,以得到所述分割文本的分割文本向量;
获取预先构建的第二文本分类模型;所述第二文本分类模型基于所述分割文本与所述初始模型得到;
由所述第二文本分类模型对所述分割文本向量进行所述第二文本分类处理,得到所述第二文本标签;
所述第二文本分类模型通过下述步骤训练得到:
获取分割文本数据集;所述分割文本数据集包括多个训练分割文本以及各所述训练分割文本对应的训练分割文本标签;
根据所述分割文本数据集对所述初始模型进行训练,以得到所述第二文本分类模型。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
获取待分类测试文本,并确定所述待分类测试文本的测试文本向量;
获取第一文本分类模型,将所述测试文本向量输入至所述第一文本分类模型,得到对应的初始测试文本标签与初始测试标签概率;
如果所述初始测试标签概率小于概率阈值,则确定所述待分类测试文本的测试文本标签,并确定所述待分类测试文本对应的分割测试文本的分割测试文本标签;
根据所述待分类测试文本与所述测试文本标签得到更新后的第一文本分类模型,并根据所述分割测试文本与所述分割测试文本标签得到更新后的第二文本分类模型。
7.根据权利要求1所述的方法,其特征在于,所述根据所述第一文本标签与所述第二文本标签确定所述待分类文本对应的目标文本标签,包括:
根据所述第一文本标签的标签概率对所述第一文本标签进行排序,得到第一标签排序结果;
根据所述第一标签排序结果确定目标数量个第一初始有效标签;
获取所述第二文本标签的标签概率,删除标签概率小于所述概率阈值的第二文本标签,得到第二初始有效标签;
获取预先配置的文本标注规则,根据所述文本标注规则、所述第一初始有效标签与所述第二初始有效标签确定所述目标文本标签。
8.一种文本分类装置,其特征在于,包括:
第一标签确定模块,用于获取待分类文本,对所述待分类文本进行第一文本分类处理,得到对应的第一文本标签;
文本分割模块,用于当存在多个所述第一文本标签的标签概率大于概率阈值时,对所述待分类文本进行文本分割处理,得到分割文本;
第二标签确定模块,用于对所述分割文本进行第二文本分类处理,以得到对应的第二文本标签;
目标标签确定模块,用于根据所述第一文本标签与所述第二文本标签确定所述待分类文本对应的目标文本标签。
9.一种电子设备,其特征在于,包括:
处理器;以及
存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现如权利要求1至7中任意一项所述的文本分类方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的文本分类方法。
CN202110635207.6A 2021-06-08 2021-06-08 文本分类方法及装置、电子设备、计算机可读存储介质 Pending CN113239204A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110635207.6A CN113239204A (zh) 2021-06-08 2021-06-08 文本分类方法及装置、电子设备、计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110635207.6A CN113239204A (zh) 2021-06-08 2021-06-08 文本分类方法及装置、电子设备、计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN113239204A true CN113239204A (zh) 2021-08-10

Family

ID=77137368

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110635207.6A Pending CN113239204A (zh) 2021-06-08 2021-06-08 文本分类方法及装置、电子设备、计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN113239204A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114547317A (zh) * 2022-04-28 2022-05-27 飞狐信息技术(天津)有限公司 一种文本审核方法及装置
CN114647732A (zh) * 2022-05-23 2022-06-21 之江实验室 一种面向弱监督文本分类系统、方法和装置
CN114972944A (zh) * 2022-06-16 2022-08-30 中国电信股份有限公司 视觉问答模型的训练方法及装置、问答方法、介质、设备

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114547317A (zh) * 2022-04-28 2022-05-27 飞狐信息技术(天津)有限公司 一种文本审核方法及装置
CN114647732A (zh) * 2022-05-23 2022-06-21 之江实验室 一种面向弱监督文本分类系统、方法和装置
CN114647732B (zh) * 2022-05-23 2022-09-06 之江实验室 一种面向弱监督文本分类系统、方法和装置
CN114972944A (zh) * 2022-06-16 2022-08-30 中国电信股份有限公司 视觉问答模型的训练方法及装置、问答方法、介质、设备
CN114972944B (zh) * 2022-06-16 2023-10-27 中国电信股份有限公司 视觉问答模型的训练方法及装置、问答方法、介质、设备

Similar Documents

Publication Publication Date Title
KR102288249B1 (ko) 정보 처리 방법, 단말기, 및 컴퓨터 저장 매체
CN111428010B (zh) 人机智能问答的方法和装置
CN113239204A (zh) 文本分类方法及装置、电子设备、计算机可读存储介质
JP7334395B2 (ja) ビデオ分類方法、装置、機器、および記憶媒体
CN113407677B (zh) 评估咨询对话质量的方法、装置、设备和存储介质
CN112347760A (zh) 意图识别模型的训练方法及装置、意图识别方法及装置
CN112163081A (zh) 标签确定方法、装置、介质及电子设备
CN115099239B (zh) 一种资源识别方法、装置、设备以及存储介质
CN107766498A (zh) 用于生成信息的方法和装置
CN111783424B (zh) 一种文本分句方法和装置
US20230004715A1 (en) Method and apparatus for constructing object relationship network, and electronic device
CN116204624A (zh) 应答方法、装置、电子设备及存储介质
CN114880520B (zh) 视频标题生成方法、装置、电子设备和介质
CN113254578B (zh) 用于数据聚类的方法、装置、设备、介质和产品
CN111695360B (zh) 语义分析方法、装置、电子设备及存储介质
CN114691850A (zh) 生成问答对的方法、神经网络模型的训练方法和装置
CN112131378A (zh) 用于识别民生问题类别的方法、装置及电子设备
CN110019742B (zh) 用于处理信息的方法和装置
US20230386237A1 (en) Classification method and apparatus, electronic device and storage medium
CN115952854B (zh) 文本脱敏模型的训练方法、文本脱敏方法及应用
CN113344405B (zh) 基于知识图谱生成信息的方法、装置、设备、介质和产品
CN116881730A (zh) 基于语境的聊天场景匹配系统、方法、设备及存储介质
CN115455963A (zh) 文本特征的分析方法、装置、存储介质及电子设备
CN117648395A (zh) 组合事件逻辑抽取方法及相关装置
CN116010606A (zh) 文本审核模型的训练方法、装置及文本审核的方法、装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination