CN112148877B - 语料文本的处理方法、装置及电子设备 - Google Patents

语料文本的处理方法、装置及电子设备 Download PDF

Info

Publication number
CN112148877B
CN112148877B CN202011009875.XA CN202011009875A CN112148877B CN 112148877 B CN112148877 B CN 112148877B CN 202011009875 A CN202011009875 A CN 202011009875A CN 112148877 B CN112148877 B CN 112148877B
Authority
CN
China
Prior art keywords
corpus text
corpus
language model
text
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011009875.XA
Other languages
English (en)
Other versions
CN112148877A (zh
Inventor
浦嘉澍
毛晓曦
范长杰
胡志鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Netease Hangzhou Network Co Ltd
Original Assignee
Netease Hangzhou Network Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Netease Hangzhou Network Co Ltd filed Critical Netease Hangzhou Network Co Ltd
Priority to CN202011009875.XA priority Critical patent/CN112148877B/zh
Publication of CN112148877A publication Critical patent/CN112148877A/zh
Application granted granted Critical
Publication of CN112148877B publication Critical patent/CN112148877B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2193Validation; Performance evaluation; Active pattern learning techniques based on specific statistical tests
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了语料文本的处理方法、装置及电子设备。其中,该方法包括:将待处理的语料文本集合输入语言模型,得到语料文本的特征向量;基于聚类算法和语料文本的特征向量,对语料文本集合进行聚类处理,得到语料分类信息;修改目标语料文本标注的意图类别标注信息,得到目标语料文本;并将目标语料文本添加至原始训练样本中,以训练语言模型,得到优化的语言模型。本发明中,通过语言模型和聚类算法对语料文本集合进行聚类处理,并修正语料分类信息中目标语料信息标注的意图类别标注信息,以训练语言模型,使语言模型在使用过程中能够迭代优化,提升了语言模型和聚类算法的泛化能力,以及语料文本对应意图类别标注信息的标注准确度。

Description

语料文本的处理方法、装置及电子设备
技术领域
本发明涉及自然语言处理技术领域,尤其是涉及一种语料文本的处理方法、装置及电子设备。
背景技术
随着计算机的飞速发展,数字化的文本数量在不断地增长,互联网的发展更加加剧了数字化文本的膨胀速度。在此背景下,聚类技术可以用于简化文本的表示,并对信息检索进行重新表示,以加速信息检索速度;或者实现一系列的个性化信息的整合和推送,比如目前流行的APP(Application,手机软件)今日头条、知乎等等。然而,大部分场景下聊天机器人仍然需要定制特定的问答对,也就是意图与回答的配对,这种模式在任务型对话中十分常见,比如订机票等。但是在开放域的回答中,识别高频意图也有很高的价值,因为对话的第一步就是听懂人类在说什么,文本聚类可以用于在海量的数据(比如游戏中玩家的私聊数据,数据量在千万轮以上)中寻找高频的意图,并对相似的表述进行聚类操作,比如找到“我去睡觉了”、“我现在真的要去睡了”等相似表述时,可以把他们归类为“玩家想去睡觉了”这个意图,以便后续可以定制特定的回答。
现有的语料文本主要通过聚类算法和度量学习进行意图类别标注信息的标注,其中,度量学习的模型为传统的序列模型,对语料文本的表示能力有限,导致意图类别标注信息的标注准确度较低。
发明内容
有鉴于此,本发明的目的在于提供语料文本的处理方法、装置及电子设备,以缓解上述问题。
第一方面,本发明实施例提供了一种语料文本的处理方法,该方法包括:将待处理的语料文本集合输入语言模型,得到语料文本集合中的语料文本的特征向量;其中,特征向量用于表征语料文本的语义信息;语言模型为经过原始训练样本训练得到的模型;基于聚类算法和语料文本的特征向量,对语料文本集合进行聚类处理,得到语料分类信息;其中,语料分类信息包括语料文本标注的意图类别标注信息;响应针对于目标语料文本的意图类别标注信息的修正操作,修改目标语料文本标注的意图类别标注信息,得到目标语料文本;将目标语料文本添加至原始训练样本中,得到更新样本;应用更新样本继续训练语言模型,得到优化的语言模型。
上述语料分类信息还包括语料文本对应的置信度,置信度用于表征语料文本对应的意图类别标注信息的可信程度;上述响应针对于目标语料文本的意图类别标注信息的修正操作的步骤之前,该方法还包括:将置信度低于预设阈值的语料文本作为目标语料文本。
上述语言模型为BERT语言模型,上述语料文本集合中的语料文本均标注有开始标识和结束标识。
上述聚类算法为多个;基于聚类算法和语料文本的特征向量,对语料文本集合进行聚类处理的步骤,包括:根据语料文本集合对应的任务类型确定目标聚类算法;其中,任务类型包括语料文本集合的类别总数已知或语料文本集合的类别总数未知;应用目标聚类算法和语料文本的特征向量,对语料文本集合进行聚类处理。
上述根据语料文本集合对应的任务类型确定目标聚类算法的步骤,包括:如果语料文本集合的类别总数已知,确定目标聚类算法为K-means算法;如果语料文本集合的类别总数未知,确定目标聚类算法为DBscan算法。
第二方面,本发明实施例还提供一种语料文本的处理装置,该装置包括:特征向量获取模块,用于将待处理的语料文本集合输入语言模型,得到语料文本集合中的语料文本的特征向量;其中,特征向量用于表征语料文本的语义信息;语言模型为经过原始训练样本训练得到的模型;聚类处理模块,用于基于聚类算法和语料文本的特征向量,对语料文本集合进行聚类处理,得到语料分类信息;其中,语料分类信息包括语料文本标注的意图类别标注信息;修正操作响应模块,用于响应针对于目标语料文本的意图类别标注信息的修正操作,修改目标语料文本标注的意图类别标注信息,得到目标语料文本;添加模块,用于将目标语料文本添加至原始训练样本中,得到更新样本;训练模块,用于应用更新样本继续训练语言模型,得到优化的语言模型。
上述语料分类信息还包括语料文本对应的置信度,置信度用于表征语料文本对应的意图类别标注信息的可信程度;上述修正操作响应模块之前,该装置还包括:将置信度低于预设阈值的语料文本作为目标语料文本。
上述语言模型为BERT语言模型,上述语料文本集合中的语料文本均标注有开始标识和结束标识。
第三方面,本发明实施例还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现第一方面的语料文本的处理方法的步骤。
第四方面,本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行第一方面的语料文本的处理方法的步骤。
本发明实施例带来了以下有益效果:
本发明实施例提供了语料文本的处理方法、装置及电子设备,将待处理的语料文本集合输入语言模型,得到语料文本集合中的语料文本的特征向量;基于聚类算法和语料文本的特征向量,对语料文本集合进行聚类处理,得到语料分类信息;响应针对于目标语料文本的意图类别标注信息的修正操作,修改目标语料文本标注的意图类别标注信息,得到目标语料文本;将目标语料文本添加至原始训练样本中,得到更新样本;应用更新样本继续训练语言模型,得到优化的语言模型。本发明实施例中,通过应用语言模型和聚类算法对语料文本集合进行聚类处理,得出语料分类信息后,进一步对语料分类信息中的目标语料信息标注的意图类别标注信息进行修正,将修正后得到的目标语料文本作为训练样本添加至原始训练样本中,得到更新样本,并通过更新样本继续训练语言模型,使语言模型在使用过程中能够迭代优化,从而提升了语言模型和聚类算法的泛化能力,以及语料文本对应的意图类别标注信息的标注准确度。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种常见的损失函数的示意图;
图2为本发明实施例提供的一种语料文本的处理方法的流程图;
图3为本发明实施例提供的一种BERT语言模型的结构示意图;
图4为本发明实施例提供的另一种语料文本的处理方法的流程图;
图5为本发明实施例提供的一种THUCNews文本数据集的处理结果示意图;
图6为本发明实施例提供的一种old_smalltalk文本数据集的处理结果示意图;
图7为本发明实施例提供的一种new_smalltalk_0303文本数据集的处理结果示意图;
图8为本发明实施例提供的一种smp_2019文本数据集的处理结果示意图;
图9为本发明实施例提供的一种语料文本的处理装置的示意图;
图10为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
通过对图像领域新意图的发现工作的研究,发现图像领域的新意图发现常通过聚类算法和度量学习实现。其中,对于聚类算法,常用的算法主要有K-means(k-meansclustering algorithm,K均值聚类算法)算法、Mini Batch K-means算法和DBscan(Density-Based Spatial Clustering of Applications with Noise,聚类算法)算法等,但是这些聚类算法大都是在预计算的表示上进行的,也就是文本到向量空间是固定的;于是就有了结合度量学习的方法,度量学习的方法有很多种,不同的度量学习方法的主要区别是模型、采样和损失函数不同,常用的模型包括:RNN(Recurrent Neural Network,循环神经网络)、LSTM(Long-Short Term Memory,长短期记忆网络)和CNN(ConvolutionalNeural Network,卷积神经网络)等,常见的损失函数主要包括:对比损失ContrastiveLoss、三元组损失Triplet Loss、四元组损失Quadruple Loss、结构化损失StructuredLoss、N元组损失N-pair Loss、磁损耗Magnet Loss、聚类损失Clustering Loss和混合损失Mixed Loss等,其中,对比损失和三元组损失如图1所示,从而通过聚类算法和度量学习得到待处理图像对应的意图。
而对于语料文本领域,新意图的发现并不能完全等价于一个聚类问题,首先,海量文本中大部分语料文本是不属于任何意图的,需要舍弃,而大部分聚类算法并不会对样本进行舍弃;其次,新的意图必须要有可对应的回答,目前很少有聚类算法会考虑回答及上下文,因此,聚类算法只是新意图发现的一种方法,这里新意图发现是指把和原有意图语义相差较大的相似语义的文本放在一起形成一个簇,即默认多了一个分类。
为了提升语料文本的意图标注效果,本发明实施例提供了一种语料文本的处理方法、装置及电子设备,通过应用语言模型和聚类算法对语料文本集合进行聚类处理,并对语料分类信息中的目标语料信息标注的意图类别标注信息进行修正,将修正后得到的目标语料文本作为训练样本添加至原始训练样本中,以训练语言模型,使语言模型在使用过程中能够迭代优化,从而提升了语言模型和聚类算法的泛化能力,以及语料文本对应的意图类别标注信息的标注准确度。
为便于对本实施例进行理解,下面首先对本发明实施例提供的一种语料文本的处理方法进行详细介绍。
实施例一:
本发明实施例提供了一种语料文本的处理方法,如图2所示,该方法包括以下步骤:
步骤S202,将待处理的语料文本集合输入语言模型,得到语料文本集合中的语料文本的特征向量;其中,特征向量用于表征语料文本的语义信息;语言模型为经过原始训练样本训练得到的模型。
其中,语言模型为BERT(Bidirectional Encoder Representations fromTransformers,基于转换器的双向编码表征)语言模型。在对语料文本集合进行聚类处理之前,需要对语料文本集合中的语料文本进行向量化映射处理,具体地,将待处理的语料文本集合输入BERT语言模型,以使BERT语言模型对待处理的语料文本集合进行向量映射处理,得到语料文本集合中语料文本的特征向量,每个语料文本可能包含多个特征,每个语料文本所有的特征即为该语料文本的特征向量,用以表征该语料文本的语义信息。需要说明的是,这里语料文本可以为任意语言的语料文本,本发明实施例对此不作限制说明。
此外,语料文本集合中的语料文本均标注有开始标识和结束标识,以便BERT语言模型根据识别到的开始标识和结束标识对对应的语料文本进行向量映射处理,得到设定维度的向量。为了便于理解,这里举例说明。BERT语言模型的输入为一句话,即一个语料文本,输出设定为一个768维的向量,在向量映射处理过程中采用自注意力机制Self-Attention等技术,如输入的语料文本为“[CLS]Which Sesame Street character is your favorite[SEP]”,其中,CLS为开始标识,SEP为结束标识,如图3所示,该语料文本会经过BERT语言模型中N个Transformer层进行语义空间的映射,一般取最后一层的隐含层作为BERT语言模型的输出向量,如图3中o0-o7,维度设定为768。需要说明的是,为了使语料文本集合中不同定长的语料文本可以有相同的定长的向量化表示,还可以对o0-o7做平均处理操作,以使BERT语言模型输出768维的向量,关于BERT语言模型输出向量的具体维数,可以根据实际应用场景进行设置,本发明实施例对此不作限制说明。
进一步,上述语言模型为经过原始训练样本训练得到的模型,训练过程包括在原始训练样本预训练语言模型和在特定语料上构建分类数据集,微调语言模型。自动语言模型被广泛应用之后,预训练语言模型成为了做大部分任务之前都会进行的工作,且,可以有效提升下游任务的学习效果。其中,预训练语言模型的学习方法包括完形填空和预测下一句话,比如输入的原始训练样本为:我们去西湖玩吧,[Masked][Masked]今天天气不错,输出为:我们去西湖玩吧,杭州今天天气不错,即语言模型根据上下文可以推断出[Mask]的内容。本发明中原始训练样本数据大约在1.3GB左右,且,原始训练样本中每个训练语料文本来自多个渠道,如豆瓣、新浪微博和全国社会媒体处理大会SMP比赛等,以确保原始训练样本更加口语化,以使训练后的语言模型具有较佳的初始化参数,从而更加准确的识别用户的口语化的语料文本,进而提升语料文本对应的意图类别标注信息的标注准确度。
对于上述预训练语言模型,还需进行微调处理,具体的微调处理过程如下:首先,需要选取聚类算法,为了适应特定的聚类算法,有多种微调语言模型的方法,如上述Contrastive Loss等,本申请采用最直接的softmax函数和交叉熵损失函数Cross EntropyLoss作为训练目标;然后,需要构建分类数据集,这里分类数据集包括多个金标准数据,其中,金标准数据是指人工筛选、标注后的原始训练样本数据,金标准数据具有以下特点:每个意图之间的语义具有互斥性即不同意图描述不同事件,每个意图中的语料文本具有不可分割性,即在一个意图中无法继续分割成多个意图,同一意图内的语料文本具有很强的指向性。
上述分类数据集构建完之后,对预训练的语言模型进行微调训练,将分类数据集中的每个金标准数据输入至预训练的语言模型,以使分类数据集在预训练的语言模型上进行模型优化,以更新语言模型的权重,并在验证集上挑选最高f1-score的语言模型,训练的优化器则采用Adam(Adaptive Moment Estimation,自适应矩估计)优化器,学习率设定为0.00005,其中,根据验证集上的f1值(f1-score)挑选微调后的语言模型,即f1值越高,代表语言模型的泛化性越好,验证集的划分比例则在10%左右,其余90%则用于训练语言模型,当根据f1值选出微调后的语言模型后,即上述对待处理的语料文本集合进行向量映射处理的语言模型,此时语言模型输出一个N维的向量,这里N代表类别的数量,可以根据实际应用情况进行设置。
由于上述微调过程可以持续迭代,即每一次的聚类数据经过人工筛选后都可以转换成分类数据,并且原始训练样本数据也同时保留,此时训练数据会慢慢增加,提升了语言模型的泛化性能,以及提高了语言模型的映射精度,即将语料文本集合映射至向量空间时,不同语义的语料文本在向量空间中相距较远,相同或相似语义的语料文本则相距较近,进而提升了语料文本集合的聚类效果。
步骤S204,基于聚类算法和语料文本的特征向量,对语料文本集合进行聚类处理,得到语料分类信息;其中,语料分类信息包括语料文本标注的意图类别标注信息。
具体地,对于上述语言模型输出的语料文本的特征向量,通过聚类算法对语料文本的特征向量进行聚类处理,得到语料分类信息;其中,语料分类信息包括语料文本标注的意图类别标注信息,从而将语料文本集合中的多个语料文本按照意图类别标注信息进行分类。在实际应用中,聚类算法的输入为语料文本的特征向量,输出则为标签,不同的意图类别标注信息对应不同的标签,从而根据标签即可得到语料文本集合的语料分类信息。例如,对于一个包含10条语料文本的语料文本集合,通过BERT语言模型进行向量映射处理后,转化为[10*768]的特征向量,这里768为BERT语言模型输出的特征维度,然后通过聚类算法对[10*768]的特征向量进行聚类处理,得到[0,0,1,1,1,1,2,2,2,2]的标签,此时,根据相同的标签即可确认相同的意图类别标注信息,即前2条语料文本具有相同的意图类别标注信息,属于同一个簇,中间4条语料文本则属于同一个簇,最后4条语料文本则属于另一个簇,从而得到该语料文本集合的语料分类信息。
步骤S206,响应针对于目标语料文本的意图类别标注信息的修正操作,修改目标语料文本标注的意图类别标注信息,得到目标语料文本。
在其中一种可能的实施例中,对于上述聚类算法输出的标签,还可能存在伪标签,其中,伪标签指和聚类算法输出的某个标签一样,但伪标签对应的意图类别标注信息实际和该标签对应的意图类别标注信息不一样,此时,则需要将伪标签对应的意图类别标注信息进行人工修改,得到正确意图类别标注信息的目标语料文本,以提高聚类效果,从而提高了语料文本对应的意图类别标注信息的标注准确度。
为了便于理解,这里举例说明。例如,聚类算法输出的伪标签也为标签1,伪标签1对应的语料文本为“今天天气真好”,但标签1对应的语料文本为“你今天真好看”,对应的意图类别标注信息则为人物,此时需要将伪标签对应的意图类别标注信息修改为天气,从而保证语料文本的分类信息的纯净性和互斥性,提高聚类效果。
在另一种可能的实施例中,上述语料分类信息还包括语料文本对应的置信度,其中,置信度用于表征语料文本对应的意图类别标注信息的可信程度;对于聚类算法输出的分类信息,判断每个语料文本的置信度是否低于预设阈值,如果某个语料文本的置信度低于预设阈值,则将该语料文本设置为目标语料文本,以便将目标语料文本加入至原始训练样本,重新训练BERT语言模型。
在另一种可能的实施例中,对于聚类算法输出的分类信息,还可以将分类信息提供给用户,以便用户根据分类信息自行选择目标语料文本;此外,用户还可以对分类信息中的语料文本进行拆分和合并,以及对没有同一回答的类别进行舍弃,从而确保分类信息中类别的纯净性和互斥性,提高聚类效果,从而提高语料文本对应的意图类别标注信息的标注准确度。
步骤S208,将目标语料文本添加至原始训练样本中,得到更新样本。
步骤S210,应用更新样本继续训练语言模型,得到优化的语言模型。
具体地,基于目标语料文本添加至原始训练样本得到的更新样本继续训练BERT语言模型,且,该训练过程是可迭代的,理论上只要更新样本的语料文本的数据量充足,可以无限迭代下去,直至获得待处理的语料文本集合中更多有价值的意图类别标注信息,以及获得最后优化的BERT语言模型,该优化的BERT语言模型在使用过程中能够迭代优化,从而提升了语言模型和聚类算法的泛化能力,进而提高了语料文本对应的意图类别标注信息的标注准确度。
本发明实施例提供的语料文本的处理方法,通过应用语言模型和聚类算法对语料文本集合进行聚类处理,得出语料分类信息后,进一步对语料分类信息中的目标语料信息标注的意图类别标注信息进行修正,将修正后得到的目标语料文本作为训练样本添加至原始训练样本中,得到更新样本,并通过更新样本继续训练语言模型,使语言模型在使用过程中能够迭代优化,从而提升了语言模型和聚类算法的泛化能力,以及语料文本对应的意图类别标注信息的标注准确度。
进一步的,在图2的基础上,本发明实施例还提供了另一种语料文本的处理方法,该方法重点描述了当聚类算法为多个时,基于聚类算法和语料文本的特征向量,对语料文本集合进行聚类处理的过程。如图4所示,该方法包括以下步骤:
步骤S402,将待处理的语料文本集合输入语言模型,得到语料文本集合中的语料文本的特征向量;其中,特征向量用于表征语料文本的语义信息;语言模型为经过原始训练样本训练得到的模型。
步骤S404,根据语料文本集合对应的任务类型确定目标聚类算法;其中,任务类型包括语料文本集合的类别总数已知或语料文本集合的类别总数未知。
在实际应用中,由于不同的聚类算法适用于不同的任务,K-means算法适用于用户知道语料文本中有多少类的情况,而DBscan算法则适用于用户不知道有多少类的情况,因此,如果语料文本集合的类别总数已知,则确定目标聚类算法为K-means算法;如果语料文本集合的类别总数未知,则确定目标聚类算法为DBscan算法。具体地,通过不同聚类算法的运算时间的实验表明,K-means算法的运算速度较快,且,时间复杂度不会成指数级增长;但输出的分类结果大都无法直接使用,语料文本的相似度不是很高,即同一类的语料文本可能不是同一个语义;而层次聚类算法则会在训练样本数量大于2万左右时几乎变得不可用,DBscan算法的速度则在两者之间,但是对于距离参数特别敏感,需要有很好的先验知识。因此,对于语料文本集合的类别总数已知的情形,选择目标聚类算法为K-means算法;而对于语料文本集合的类别总数未知的情形,则选取目标聚类算法为DBscan算法,即对于不同的语料文本集合,选取适用的聚类方法,从而提高了语料文本的聚类效果,进而提高了语料文本对应的意图类别标注信息的标注准确度。
步骤S406,应用目标聚类算法和语料文本的特征向量,对语料文本集合进行聚类处理,得到语料分类信息;其中,语料分类信息包括语料文本标注的意图类别标注信息。
步骤S408,响应针对于目标语料文本的意图类别标注信息的修正操作,修改目标语料文本标注的意图类别标注信息,得到目标语料文本。
步骤S410,将目标语料文本添加至原始训练样本中,得到更新样本。
步骤S412,应用更新样本继续训练语言模型,得到优化的语言模型。
上述步骤S406~S412可以参考上述方法实施例,本发明实施例对此不再详细赘述。
为了便于理解,这里以待处理的语料文本集分别为THUCNews文本数据集、old_smalltalk文本数据集、new_smalltalk_0303文本数据集和smp_2019文本数据集为例进行说明。其中,THUCNews文本数据集的处理结果如图5所示,old_smalltalk文本数据集的处理结果如图6所示,new_smalltalk_0303文本数据集的处理结果如图7所示,smp_2019文本数据集的处理结果如图8所示,具体地,分别通过基线方法和本申请提供的语料文本的处理方法对待处理的语料文本集进行处理,这里基线方法包括经过原始训练样本训练的预训练语言模型和聚类算法,该预训练模型不能进行迭代优化。其中,X轴表示待处理的语料文本集的文本数据量,Y轴表示测评指标,曲线1表示待处理的语料文本集的分类结果,曲线2表示基线方法对待处理的语料文本集进行处理得到的分类结果,曲线3表示对基线方法中的预训练语言模型进行微调后,对待处理的语料文本集进行处理得到的分类结果,曲线4表示本申请提供的语料文本的处理方法对待处理的语料文本集进行处理得到的分类结果,由此可知,本申请提供的语料文本的处理方法相对于基线方法,对待处理的语料文本集的分类结果有了很大提升,从而提高了语料文本对应的意图类别标注信息的标注准确度。
因此,本申请提供的语料文本的处理方法,基于大数据集的语料文本集合,根据任务类型确定聚类算法,并在预设迭代周期内提炼出语料文本集合对应的意图类别标注信息,相比于直接不变的语料文本进行聚类处理,本申请还通过将聚类后的目标语料信息标注的意图类别标注信息进行修正,或者经过人工筛选,得到更新样本,并将更新样本添加至原始训练样本重新进行训练BERT语言模型,以得到优化后的BERT语言模型,以及,利用BERT语言模型强大的表示能力,能从过去的经验中学习到最佳的语义表示方法,在聚类之前,将语料文本集合中的语料文本向量映射到更利于发现新意图的语义空间中,以使得到的语料文本的特征向量更适合下游的聚类算法,从而提升了语言模型和聚类算法的泛化能力,以及语料文本对应的意图类别标注信息的标注准确度。
对应上述的方法实施例,本发明实施例还提供了一种语料文本的处理装置,如图9所示,该装置包括依次连接的特征向量获取模块91、聚类处理模块92、修正操作响应模块93、添加模块94和训练模块95,其中,各个模块的功能如下:
特征向量获取模块91,用于将待处理的语料文本集合输入语言模型,得到语料文本集合中的语料文本的特征向量;其中,特征向量用于表征语料文本的语义信息;语言模型为经过原始训练样本训练得到的模型;
聚类处理模块92,用于基于聚类算法和语料文本的特征向量,对语料文本集合进行聚类处理,得到语料分类信息;其中,语料分类信息包括语料文本标注的意图类别标注信息;
修正操作响应模块93,用于响应针对于目标语料文本的意图类别标注信息的修正操作,修改目标语料文本标注的意图类别标注信息,得到目标语料文本;
添加模块94,用于将目标语料文本添加至原始训练样本中,得到更新样本;
训练模块95,用于应用更新样本继续训练语言模型,得到优化的语言模型。
本发明实施例提供的语料文本的处理装置,通过应用语言模型和聚类算法对语料文本集合进行聚类处理,得出语料分类信息后,进一步对语料分类信息中的目标语料信息标注的意图类别标注信息进行修正,将修正后得到的目标语料文本作为训练样本添加至原始训练样本中,得到更新样本,并通过更新样本继续训练语言模型,使语言模型在使用过程中能够迭代优化,从而提升了语言模型和聚类算法的泛化能力,以及语料文本对应的意图类别标注信息的标注准确度。
在其中一种可能的实施例中,上述语料分类信息还包括语料文本对应的置信度,其中,置信度用于表征语料文本对应的意图类别标注信息的可信程度;上述修正操作响应模块93之前,该装置还包括:将置信度低于预设阈值的语料文本作为目标语料文本。
在另一种可能的实施例中,上述语言模型为BERT语言模型,上述语料文本集合中的语料文本均标注有开始标识和结束标识。
在另一种可能的实施例中,上述聚类算法为多个;上述聚类处理模块92还用于:根据语料文本集合对应的任务类型确定目标聚类算法;其中,任务类型包括语料文本集合的类别总数已知或语料文本集合的类别总数未知;应用目标聚类算法和语料文本的特征向量,对语料文本集合进行聚类处理。
在另一种可能的实施例中,上述聚类处理模块92还用于:如果语料文本集合的类别总数已知,确定目标聚类算法为K-means算法;如果语料文本集合的类别总数未知,确定目标聚类算法为DBscan算法。
本发明实施例提供的语料文本的处理装置,与上述实施例提供的语料文本的处理方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
实现上述方法和装置的设备上可以预先存储上述聚类算法和语言模型,也可以利用第三方设备上的聚类算法和语言模型实现上述方法和装置中的语料文本的处理。
本发明实施例还提供一种电子设备,包括处理器和存储器,存储器存储有能够被处理器执行的机器可执行指令,处理器执行机器可执行指令以实现上述语料文本的处理方法。
参见图10所示,该电子设备包括处理器100和存储器101,该存储器101存储有能够被处理器100执行的机器可执行指令,该处理器100执行机器可执行指令以实现上述语料文本的处理方法。
进一步地,图10所示的电子设备还包括总线102和通信接口103,处理器100、通信接口103和存储器101通过总线102连接。
其中,存储器101可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口103(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。总线102可以是ISA(IndustrialStandard Architecture,工业标准结构总线)总线、PCI(Peripheral ComponentInterconnect,外设部件互连标准)总线或EISA(Enhanced Industry StandardArchitecture,扩展工业标准结构)总线等。上述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图10中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
处理器100可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器100中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器100可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DigitalSignal Processor,简称DSP)、专用集成电路(Application Specific IntegratedCircuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器101,处理器100读取存储器101中的信息,结合其硬件完成前述实施例的方法的步骤。
本实施例还提供一种机器可读存储介质,机器可读存储介质存储有机器可执行指令,机器可执行指令在被处理器调用和执行时,机器可执行指令促使处理器实现上述语料文本的处理方法。
本发明实施例所提供的语料文本的处理方法、装置和电子设备的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (8)

1.一种语料文本的处理方法,其特征在于,所述方法包括:
将待处理的语料文本集合输入语言模型,得到所述语料文本集合中的语料文本的特征向量;其中,所述特征向量用于表征所述语料文本的语义信息;所述语言模型为经过原始训练样本训练得到的模型;
基于聚类算法和所述语料文本的特征向量,对所述语料文本集合进行聚类处理,得到语料分类信息;其中,所述语料分类信息包括所述语料文本标注的意图类别标注信息;
响应针对于目标语料文本的意图类别标注信息的修正操作,修改所述目标语料文本标注的意图类别标注信息,得到目标语料文本;
将所述目标语料文本添加至所述原始训练样本中,得到更新样本;
应用所述更新样本继续训练所述语言模型,得到优化的所述语言模型;
所述语料分类信息还包括所述语料文本对应的置信度,所述置信度用于表征所述语料文本对应的意图类别标注信息的可信程度;所述响应针对于目标语料文本的意图类别标注信息的修正操作的步骤之前,所述方法还包括:将置信度低于预设阈值的所述语料文本作为目标语料文本。
2.根据权利要求1所述的语料文本的处理方法,其特征在于,所述语言模型为BERT语言模型,所述语料文本集合中的语料文本均标注有开始标识和结束标识。
3.根据权利要求1所述的语料文本的处理方法,其特征在于,所述聚类算法为多个;基于所述聚类算法和所述语料文本的特征向量,对所述语料文本集合进行聚类处理的步骤,包括:
根据所述语料文本集合对应的任务类型确定目标聚类算法;其中,所述任务类型包括所述语料文本集合的类别总数已知或所述语料文本集合的类别总数未知;
应用所述目标聚类算法和所述语料文本的特征向量,对所述语料文本集合进行聚类处理。
4.根据权利要求3所述的语料文本的处理方法,其特征在于,根据所述语料文本集合对应的任务类型确定目标聚类算法的步骤,包括:
如果所述语料文本集合的类别总数已知,确定目标聚类算法为K-means算法;
如果所述语料文本集合的类别总数未知,确定目标聚类算法为DBscan算法。
5.一种语料文本的处理装置,其特征在于,所述装置包括:
特征向量获取模块,用于将待处理的语料文本集合输入语言模型,得到所述语料文本集合中的语料文本的特征向量;其中,所述特征向量用于表征所述语料文本的语义信息;所述语言模型为经过原始训练样本训练得到的模型;
聚类处理模块,用于基于聚类算法和所述语料文本的特征向量,对所述语料文本集合进行聚类处理,得到语料分类信息;其中,所述语料分类信息包括所述语料文本标注的意图类别标注信息;
修正操作响应模块,用于响应针对于目标语料文本的意图类别标注信息的修正操作,修改所述目标语料文本标注的意图类别标注信息,得到目标语料文本;
添加模块,用于将所述目标语料文本添加至所述原始训练样本中,得到更新样本;
训练模块,用于应用所述更新样本继续训练所述语言模型,得到优化的所述语言模型;
所述语料分类信息还包括所述语料文本对应的置信度,所述置信度用于表征所述语料文本对应的意图类别标注信息的可信程度;所述修正操作响应模块之前,所述装置还包括:将置信度低于预设阈值的所述语料文本作为目标语料文本。
6.根据权利要求5所述的语料文本的处理装置,其特征在于,所述语言模型为BERT语言模型,所述语料文本集合中的语料文本均标注有开始标识和结束标识。
7.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1-4任一项所述的语料文本的处理方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述权利要求1-4任一项所述的语料文本的处理方法的步骤。
CN202011009875.XA 2020-09-23 2020-09-23 语料文本的处理方法、装置及电子设备 Active CN112148877B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011009875.XA CN112148877B (zh) 2020-09-23 2020-09-23 语料文本的处理方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011009875.XA CN112148877B (zh) 2020-09-23 2020-09-23 语料文本的处理方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN112148877A CN112148877A (zh) 2020-12-29
CN112148877B true CN112148877B (zh) 2023-07-04

Family

ID=73896188

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011009875.XA Active CN112148877B (zh) 2020-09-23 2020-09-23 语料文本的处理方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN112148877B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11710168B2 (en) * 2020-11-30 2023-07-25 Beijing Wodong Tianjun Information Technology Co., Ltd. System and method for scalable tag learning in e-commerce via lifelong learning
CN112989000B (zh) * 2021-03-29 2023-07-04 网易(杭州)网络有限公司 意图识别系统更新方法、装置、电子设备及存储介质
CN113254617B (zh) * 2021-06-11 2021-10-22 成都晓多科技有限公司 基于预训练语言模型和编码器的消息意图识别方法及系统
CN113312899B (zh) * 2021-06-18 2023-07-04 网易(杭州)网络有限公司 文本分类方法、装置和电子设备
CN113626592A (zh) * 2021-07-08 2021-11-09 中汽创智科技有限公司 一种基于语料的分类方法、装置,电子设备及存储介质
CN113468877A (zh) * 2021-07-09 2021-10-01 浙江大学 语言模型的微调方法、装置、计算设备和存储介质
CN113553858B (zh) * 2021-07-29 2023-10-10 北京达佳互联信息技术有限公司 文本向量表征模型的训练和文本聚类
CN113656534A (zh) * 2021-08-26 2021-11-16 北京百度网讯科技有限公司 语料扩充方法、装置、设备和介质
CN114492306A (zh) * 2021-11-16 2022-05-13 马上消费金融股份有限公司 语料标注方法、装置、电子设备及存储介质
CN114003724B (zh) * 2021-12-30 2022-03-25 北京云迹科技股份有限公司 一种样本筛选方法、装置及电子设备
CN114637848A (zh) * 2022-03-15 2022-06-17 美的集团(上海)有限公司 语义分类方法及装置
CN117709355B (zh) * 2024-02-05 2024-05-17 四川蜀天信息技术有限公司 一种提高大语言模型训练效果的方法、装置及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101866337A (zh) * 2009-04-14 2010-10-20 日电(中国)有限公司 词性标注系统、用于训练词性标注模型的装置及其方法
CN110472030A (zh) * 2019-08-08 2019-11-19 网易(杭州)网络有限公司 人机交互方法、装置和电子设备
CN110795945A (zh) * 2019-10-30 2020-02-14 腾讯科技(深圳)有限公司 一种语义理解模型训练方法、语义理解方法、装置及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9367814B1 (en) * 2011-12-27 2016-06-14 Google Inc. Methods and systems for classifying data using a hierarchical taxonomy
US11734328B2 (en) * 2018-08-31 2023-08-22 Accenture Global Solutions Limited Artificial intelligence based corpus enrichment for knowledge population and query response
CN111696535B (zh) * 2020-05-22 2021-10-26 百度在线网络技术(北京)有限公司 基于语音交互的信息核实方法、装置、设备和计算机存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101866337A (zh) * 2009-04-14 2010-10-20 日电(中国)有限公司 词性标注系统、用于训练词性标注模型的装置及其方法
CN110472030A (zh) * 2019-08-08 2019-11-19 网易(杭州)网络有限公司 人机交互方法、装置和电子设备
CN110795945A (zh) * 2019-10-30 2020-02-14 腾讯科技(深圳)有限公司 一种语义理解模型训练方法、语义理解方法、装置及存储介质

Also Published As

Publication number Publication date
CN112148877A (zh) 2020-12-29

Similar Documents

Publication Publication Date Title
CN112148877B (zh) 语料文本的处理方法、装置及电子设备
US11816442B2 (en) Multi-turn dialogue response generation with autoregressive transformer models
WO2019084867A1 (zh) 自动回答方法、装置、存储介质及电子设备
CN107844560B (zh) 一种数据接入的方法、装置、计算机设备和可读存储介质
US20190251165A1 (en) Conversational agent
CN110188223B (zh) 图像处理方法、装置及计算机设备
WO2021204269A1 (zh) 分类模型的训练、对象分类
CN111241814B (zh) 语音识别文本的纠错方法、装置、电子设备及存储介质
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN111444320A (zh) 文本检索方法、装置、计算机设备和存储介质
CN110188422B (zh) 一种基于网络数据提取节点的特征向量的方法及装置
CN111144093A (zh) 一种智能文本处理方法、装置、电子设备及存储介质
CN114896395A (zh) 语言模型微调方法、文本分类方法、装置及设备
WO2023134074A1 (zh) 文本主题的生成方法、装置、设备及存储介质
CN111209751B (zh) 一种中文分词方法、装置及存储介质
CN116737939B (zh) 元学习方法、文本分类方法、装置、电子设备及存储介质
CN113486670A (zh) 基于目标语义的文本分类方法、装置、设备及存储介质
CN114970538A (zh) 文本纠错的方法及装置
CN114091555A (zh) 图像识别模型的训练方法、装置、电子设备及存储介质
CN112528621B (zh) 文本处理、文本处理模型训练方法、装置和存储介质
CN112966501B (zh) 一种新词发现方法、系统、终端及介质
CN113920291A (zh) 基于图片识别结果的纠错方法、装置、电子设备及介质
CN110969016B (zh) 分词处理方法及装置
CN114626378A (zh) 命名实体识别方法、装置、电子设备及计算机可读存储介质
CN112085040A (zh) 对象标签确定方法、装置和计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant