CN111339308A - 基础分类模型的训练方法、装置和电子设备 - Google Patents
基础分类模型的训练方法、装置和电子设备 Download PDFInfo
- Publication number
- CN111339308A CN111339308A CN202010439816.XA CN202010439816A CN111339308A CN 111339308 A CN111339308 A CN 111339308A CN 202010439816 A CN202010439816 A CN 202010439816A CN 111339308 A CN111339308 A CN 111339308A
- Authority
- CN
- China
- Prior art keywords
- training
- current round
- loss
- preset
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本说明书提出了一种基础分类模型的训练方法、装置和电子设备,其中,上述方法包括:获取本轮训练语句样本,以进行本轮训练,对所述本轮训练语句样本进行向量转换,得到本轮训练语句向量;将所述本轮训练语句向量与预置业务标签向量输入预置基础分类模型中进行训练,得到本轮训练语句样本的类别概率;根据所述类别概率进行计算,得到本轮训练的损失,根据所述本轮训练的损失更新所述预置业务标签向量,以进行下一轮训练;通过本说明书提供的方法可以实现无监督的训练,由此可以提高训练的效率,并进一步提高分类的准确度。
Description
技术领域
本说明书涉及人工智能技术领域,尤其涉及一种基础分类模型的训练方法、装置和电子设备。
背景技术
人工智能(Artificial Intelligence;以下简称:AI),是目前研究和开发用于模拟、延伸以及扩展人类智能的一门新兴科学技术。其中,AI的主要研究目标是使机器能够胜任一些通常需要人类智能才能完成的复杂工作,比如时下出现的文本分类便是AI技术的一个实际应用。
发明内容
本说明书实施例提供了一种基础分类模型的训练方法、装置和电子设备,通过将训练语句样本与预置业务标签向量输入预置基础分类模型中进行训练,得到本轮训练的损失,并根据该本轮训练损失对该预置业务标签向量进行更新,以进行下一轮训练,由此可以实现无监督的反复训练,提高训练的效率,并可进一步提高基础分类模型的准确度。
第一方面,本说明书实施例提供一种基础分类模型的训练方法,包括:
获取本轮训练语句样本,以进行本轮训练,对所述本轮训练语句样本进行向量转换,得到本轮训练语句向量;
将所述本轮训练语句向量与预置业务标签向量输入预置基础分类模型中进行训练,得到本轮训练语句样本的类别概率;
根据所述类别概率进行计算,得到本轮训练的损失,根据所述本轮训练的损失更新所述预置业务标签向量,以进行下一轮训练。
其中一种可能的实现方式中,所述对所述本轮训练语句样本进行向量转换,得到本轮训练语句向量包括:
对所述本轮训练语句样本进行词向量转换,得到与所述本轮训练语句样本对应的多个词向量;
对与所述本轮训练语句样本对应的所有所述词向量进行均值计算,得到本轮训练语句向量。
其中一种可能的实现方式中,所述将所述本轮训练语句向量与预置业务标签向量输入预置基础分类模型中进行训练,得到本轮训练语句样本的类别概率包括:
获取预置业务标签向量集合,其中,所述预置业务标签向量集合包括多个预置业务标签向量;
在预置基础分类模型中将所述本轮训练语句向量分别与每个所述预置业务标签向量进行计算,得到与每个所述预置业务标签向量对应的本轮训练语句标量;
根据每个所述预置业务标签向量对应的本轮训练语句标量获得与每个所述本轮训练语句标量对应的类别概率。
其中一种可能的实现方式中,所述根据所述类别概率进行计算,得到本轮训练的损失包括:
根据所述类别概率、所述本轮训练语句向量及所述预置业务标签向量进行计算,得到本轮训练的相关性损失及召回率损失,其中,所述相关性损失用于表征本轮预测结果与所述本轮训练语句样本之间的相关程度,所述召回率损失用于表征所述本轮训练语句样本的易分类程度;
将所有所述预置业务标签向量组成向量矩阵,根据所述向量矩阵进行计算,得到正交性损失,其中,所述正交性损失用于表征业务标签之间的关联程度。
其中一种可能的实现方式中,所述根据所述本轮训练的损失更新所述预置业务标签向量包括:
根据本轮训练的所述相关性损失、所述召回率损失及所述正交性损失中的一个或多个对与所述预置业务标签向量对应的关键词权重进行更新,其中,所述关键词权重用于与对应的预置关键词向量进行加权计算,以得到预置业务标签向量。
其中一种可能的实现方式中,所述根据所述本轮训练的损失更新所述预置业务标签向量之后,还包括:
根据本轮训练的所述相关性损失、所述召回率损失及所述正交性损失中的一个或多个对所述预置基础分类模型的参数进行更新,其中,所述预置基础分类模型的参数用于对所述本轮训练语句向量与预置业务标签向量进行运算,以得到本轮训练语句标量。
上述基础分类模型的训练方法中,通过将训练语句样本与预置业务标签向量输入预置基础分类模型中进行训练,得到本轮训练的损失,并根据该本轮训练损失对该预置业务标签向量进行更新,以进行下一轮训练,由此可以实现无监督的反复训练,提高训练的效率,并可进一步提高基础分类模型的准确度。
第二方面,本说明书实施例提供一种基础分类模型的训练装置,包括:
获取模块,用于获取本轮训练语句样本,以进行本轮训练,对所述本轮训练语句样本进行向量转换,得到本轮训练语句向量;
训练模块,用于将所述本轮训练语句向量与预置业务标签向量输入预置基础分类模型中进行训练,得到本轮训练语句样本的类别概率;
第一反馈模块,用于根据所述类别概率进行计算,得到本轮训练的损失,根据所述本轮训练的损失更新所述预置业务标签向量,以进行下一轮训练。
其中一种可能的实现方式中,所述获取模块包括:
转换单元,用于对所述本轮训练语句样本进行词向量转换,得到与所述本轮训练语句样本对应的多个词向量;
向量计算单元,用于对与所述本轮训练语句样本对应的所有所述词向量进行均值计算,得到本轮训练语句向量。
其中一种可能的实现方式中,所述训练模块包括:
获取单元,用于获取预置业务标签向量集合,其中,所述预置业务标签向量集合包括多个预置业务标签向量;
标量计算单元,用于在预置基础分类模型中将所述本轮训练语句向量分别与每个所述预置业务标签向量进行计算,得到与每个所述预置业务标签向量对应的本轮训练语句标量;
概率计算单元,用于根据每个所述预置业务标签向量对应的本轮训练语句标量获得与每个所述本轮训练语句标量对应的类别概率。
其中一种可能的实现方式中,所述第一反馈模块包括:
第一损失计算单元,用于根据所述类别概率、所述本轮训练语句向量及所述预置业务标签向量进行计算,得到本轮训练的相关性损失及召回率损失,其中,所述相关性损失用于表征本轮预测结果与所述本轮训练语句样本之间的相关程度,所述召回率损失用于表征所述本轮训练语句样本的易分类程度;
第二损失计算单元,用于将所有所述预置业务标签向量组成向量矩阵,根据所述向量矩阵进行计算,得到正交性损失,其中,所述正交性损失用于表征业务标签之间的关联程度。
其中一种可能的实现方式中,所述第一反馈模块还用于根据本轮训练的所述相关性损失、所述召回率损失及所述正交性损失中的一个或多个对与所述预置业务标签向量对应的关键词权重进行更新,其中,所述关键词权重用于与对应的预置关键词向量进行加权计算,以得到预置业务标签向量。
其中一种可能的实现方式中,所述装置还包括:
第二反馈模块,用于根据本轮训练的所述相关性损失、所述召回率损失及所述正交性损失中的一个或多个对所述预置基础分类模型的参数进行更新,其中,所述预置基础分类模型的参数用于对所述本轮训练语句向量与预置业务标签向量进行运算,以得到本轮训练语句标量。
第三方面,本说明书实施例提供一种电子设备,包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行第一方面提供的方法。
第四方面,本说明书实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行第一方面提供的方法。
应当理解的是,本说明书的第二~第四方面与本说明书的第一方面的技术方案一致,各方面及对应的可行实施方式所取得的有益效果相似,不再赘述。
附图说明
为了更清楚地说明本说明书实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本说明书基础分类模型的训练方法一个实施例的流程图;
图2为本说明书词向量转换一个实施例的示意图;
图3为本说明书基础分类模型一个实施例的结构示意图;
图4为本说明书基础分类模型的训练装置一个实施例的结构示意图;
图5为本说明书基础分类模型的训练装置另一个实施例的结构示意图;
图6为本说明书基础分类模型的训练装置再一个实施例的结构示意图;
图7为本说明书电子设备一个实施例的结构示意图。
具体实施方式
为了更好的理解本说明书的技术方案,下面结合附图对本说明书实施例进行详细描述。
应当明确,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本说明书保护的范围。
在本说明书实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本说明书实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
现有相关技术中,通常都是通过基础分类模型对待分类文本进行分类;例如,该基础分类模型可以是文本卷积神经网络(text Convolutional Neural Networks, textCNN)模型,首先可以对待分类文本进行分词,并构建词向量,然后对词向量进行卷积运算,对卷积运算结果进行归一化运算,由此获得待分类文本的最终分类类别。为了提升模型的准确度,通常都需要对模型进行训练,然而,目前在对模型训练的过程中,通常都是通过标签数据作为监督数据,对模型进行监督训练,因此对标签数据的要求较高,如果标签数据不准确,则会造成模型训练的效率较低;此外,在对模型训练的过程中,通常都是更新模型的参数,而没有结合语义及上下文环境,由此也会导致训练的效率较低。
图1为本说明书基础分类模型的训练方法一个实施例的流程图,如图1所示,上述基础分类模型的训练方法可以包括:
步骤101,获取本轮训练语句样本,对所述本轮训练语句样本进行向量转换,得到本轮训练语句向量。
具体地,该本轮训练语句样本可以是一句话,也可以是一段话,可以由用户输入,也可以对预先存储的数据文本进行识别后获得;其中,该本轮训练语句样本可以用于本轮的训练,在进行下一轮训练时,可以获取不同的训练语句样本进行训练。
接着,可以对该本轮训练语句样本进行向量转换,在具体实现时,在对该本轮训练语句样本进行向量转换的过程中,可以先将该本轮训练语句样本进行分词,以得到与该本轮训练语句样本对应的多个单词,然后将这些单词进行向量转换,得到每个单词对应的向量,如图2所示,假设该本轮训练语句样本为一句话“今天天气很好,出来玩”,可以通过分词得到“今天”、“天气”、“很好”、“,”、“出来”及“玩”等6个单词,接着对这些单词进行向量转换,可以得到每个单词对应的5维的词向量。
需要说明的是,词向量构建的方式可以通过word2vec或者glov等方式,词向量的维数也可以事先指定,在具体实现时,可以将词向量设定为300维,本说明书实施例对此不作限定。
可选地,还可以对上述词向量进行均值计算,得到该本轮训练语句样本的向量,即本轮训练语句向量,其中,均值计算的方式可以通过对所有词向量求平均值,例如,通过公式进行计算:
其中,W为本轮训练语句向量,w为与该本轮训练语句对应的所有词向量,其中,w包括w1、w2、…、wn,n为词向量的总数。
步骤102,将所述本轮训练语句向量与预置业务标签向量输入预置基础分类模型中进行训练,得到本轮训练语句样本的类别概率。
具体地,该业务标签可以是本次分类的类别,在具体实现时,可以根据本次待训练的基础分类模型的类别数确定业务标签的数目,例如,假设本次待训练的基础分类模型的类别有K个,那么可以预先设定K个业务标签,其中,每个业务标签与类别对应。
进一步地,当确定业务标签后,可以将每个业务标签与一个或多个预设的关键词进行关联,接着可以将该关键词进行向量转换,得到每个关键词对应的词向量,接着将这些关键词的词向量进行累计求和,就可获得该业务标签的向量,即业务标签向量。
可选地,在计算业务标签向量的过程中,还可以对每个关键词的词向量预先分配对应的权重,并可以根据该权重对每个关键词的词向量进行加权求和,由此得到标签向量;例如,假设任一业务标签与m个关键词V对应,其中,关键词V分别为V1、V2…Vm;与该关键词对应的权重分别为weight1、weight2…weightm;则可以通过如下公式计算获得该业务标签向量:
其中,L为业务标签向量;每个业务标签经过向量转换后,都可以得到对应的业务标签向量,那么K个业务标签向量可以分别是L1、L2…Lk。
接着可以将该业务标签向量与该本轮训练语句向量输入预置基础分类模型中进行训练;该训练可以通过该预置基础分类模型对业务标签向量与本轮训练语句向量进行运算实现;在具体实现时,可以对业务标签向量与本轮训练语句向量进行卷积运算,该卷积运算可以通过该预置基础分类模型的卷积层完成;其中,该预置基础分类模型的卷积层可以包括卷积核,首先可以将业务标签向量与本轮训练语句向量进行相乘,得到中间向量,然后通过该卷积核与该中间向量进行卷积运算,由此获得本轮训练语句标量,该卷积核包括一个权重系数和一个偏差值。
应理解的是,业务标签向量可以包含多个,因此当每个业务标签向量与该本轮训练语句向量相乘后,可以获得多个中间向量,该中间向量与卷积层的卷积核进行卷积运算后,可以获得多个本轮训练语句标量。
其中,该基础分类模型可以是卷积神经网络(Convolutional Neural Networks,CNN)模型,也可以是其它具有同等功能的分类模型,本说明书对此不作限定。
当获得本轮训练语句标量后,可以将上述多个本轮训练语句标量输入该预置基础分类模型的输出层进行再次计算,该输出层包括softmax函数,通过该softmax函数可以对上述多个本轮训练语句标量进行归一化,由此获得每个业务标签对应的概率值;而通过概率值的比较,可以选取最大概率值对应的业务标签作为最终的业务标签,即可以将该业务标签作为最终的预测结果进行输出。
现结合图3进行说明,如图3所示,以三个业务标签向量为例,分别为业务标签向量A、业务标签向量B及业务标签向量C,首先将本轮训练语句向量分别与该三个业务标签向量进行相乘,得到对应的三个中间向量,分别为中间向量A、中间向量B及中间向量C;接着将该三个中间向量输入至预置基础分类模型的卷积层进行卷积操作,得到对应的三个本轮训练语句标量,分别为本轮训练语句标量A、本轮训练语句标量B及本轮训练语句标量C,其中,在卷积操作过程中,卷积核中的每个元素都对应一组参数,该组参数包括一个权重系数P和偏差值Q,该第三向量的计算过程可以是:
本轮训练语句标量=P*中间向量+Q;
接着可以将上述三个本轮训练语句标量输入softmax函数进行归一化计算,由此可以获得与每个本轮训练语句标量对应的概率值,即与每个业务标签对应的概率值P1、P2及P3,并可以将最大概率值对应的业务标签进行输出,作为最终的预测结果。
步骤103,根据所述类别概率进行计算,得到本轮训练的损失,根据所述本轮训练的损失更新所述预置业务标签向量,以进行下一轮训练。
具体地,当获取到本轮训练的预测结果后,本轮训练结束;这时,可以计算本轮训练的损失,并可以在获得本轮训练的损失后根据该本轮训练的损失对预置业务标签向量进行更新,以便进行下一轮训练,而后续的训练可以是重复以上步骤。
应理解,训练可以是多轮,即可以对该预置基础分类模型进行循环训练,每一轮训练可以获取不同的训练语句样本;由于每一轮训练中预置业务标签向量不同,因此每一轮计算获得的训练损失也不同,由此可以根据每一轮的训练损失不断优化该预置基础分类模型,提升模型训练的效率。
其中,本轮训练的损失可以包括正交性损失、相关性损失及召回率损失;该正交性损失用于表征业务标签之间的关联程度,即期望每个业务标签向量之间尽量正交,这样,可以对各业务类别之间的界限划分的更清晰,由此可以提高分类的准确度,该正交性损失可以通过如下公式计算:
其中,Tn为标准化的矩阵T,该矩阵T可以是各业务标签向量组成的矩阵{L1,L2,…,Lk},I可以是对角线为全1的单位矩阵。
该相关性损失用于表征本轮预测结果与所述本轮训练语句样本之间的相关程度,即期望预测的类别与本次输入文本的内容尽量接近,由此,可以提高预测的准确度;该相关性损失可以通过如下公式计算:
其中,pj为第j个业务标签对应的概率值,Lj为第j个业务标签向量,W为本轮训练语句向量。
该召回率损失用于表征所述本轮训练语句样本的易分类程度,即期望每次分类中,本轮训练语句样本都有对应的分类,例如,假设有K个业务类别,而第K个类别是其它类别,即在无法识别当前的训练语句样本时,可以将当前的训练语句样本识别为第K个类别,因此期望对于分类到第K个类别的样本数量尽量少,该召回率损失可以通过如下公式计算:
其中,pk为与第K个业务标签对应的概率值。
进一步地,可以根据上述本轮训练的正交性损失、相关性损失及召回率损失中的一个或多个对预置业务标签向量进行更新,以便进行下一轮训练,其中,对该预置业务标签向量进行更新可以是对该预置业务标签向量的关键词权重进行更新,由此可以获得新的业务标签向量。
可选地,还可以对上述三个训练损失进行累计求和,得到综合损失,也可以对上述三个训练损失进行加权求和,得到综合损失,计算公式如下:
其中α和β是权重系数,可以预先指定。
可选地,还可以根据上述本轮训练的正交性损失、相关性损失及召回率损失中的一个或多个对预置基础分类模型的参数进行更新;在具体实现时,可以对该预置基础分类模型中的卷积层参数(权重系数及偏差值)进行更新,这样可以更有效的通过卷积运算提取训练语句样本的特征,由此可以获得更精确的训练语句标量,从而可以提高分类的准确度。
可选地,还可以预先设定训练损失的阈值,若本轮的训练损失达到该阈值时,可以停止训练;若本轮的训练损失未达到该阈值时,可以继续训练。
上述基础分类模型的训练方法中,通过将训练语句样本与预置业务标签向量输入预置基础分类模型中进行训练,得到本轮训练的损失,并根据该本轮训练损失对该预置业务标签向量进行更新,以进行下一轮训练,由此可以实现无监督的反复训练,提高训练的效率,并可进一步提高基础分类模型的准确度。
图4为本说明书基础分类模型的训练装置40一个实施例的结构示意图,如图4所示,上述基础分类模型的训练装置40可以包括:获取模块41、训练模块42和第一反馈模块43;
获取模块41,用于获取本轮训练语句样本,以进行本轮训练,对所述本轮训练语句样本进行向量转换,得到本轮训练语句向量;
训练模块42,用于将所述本轮训练语句向量与预置业务标签向量输入预置基础分类模型中进行训练,得到本轮训练语句样本的类别概率;
第一反馈模块43,用于根据所述类别概率进行计算,得到本轮训练的损失,根据所述本轮训练的损失更新所述预置业务标签向量,以进行下一轮训练。
图4所示实施例提供的基础分类模型的训练装置可用于执行本说明书图1~图3所示方法实施例的技术方案,其实现原理和技术效果可以进一步参考方法实施例中的相关描述。
图5为本说明书基础分类模型的训练装置50另一个实施例的结构示意图,与图4所示的基础分类模型的训练装置40相比,图5所示的基础分类模型的训练装置50中,上述获取模块41可以包括:转换单元411及向量计算单元412;
转换单元411,用于对所述本轮训练语句样本进行词向量转换,得到与所述本轮训练语句样本对应的多个词向量;
向量计算单元412,用于对与所述本轮训练语句样本对应的所有所述词向量进行均值计算,得到本轮训练语句向量。
图5所示实施例提供的基础分类模型的训练装置可用于执行本说明书图1~图3所示方法实施例的技术方案,其实现原理和技术效果可以进一步参考方法实施例中的相关描述。
图6为本说明书基础分类模型的训练装置60再一个实施例的结构示意图,与图4所示的基础分类模型的训练装置40相比,图6所示的基础分类模型的训练装置60中,上述训练模块42可以包括:获取单元421、标量计算单元422及概率计算单元423;
获取单元421,用于获取预置业务标签向量集合,其中,所述预置业务标签向量集合包括多个预置业务标签向量;
标量计算单元422,用于在预置基础分类模型中将所述本轮训练语句向量分别与每个所述预置业务标签向量进行计算,得到与每个所述预置业务标签向量对应的本轮训练语句标量;
概率计算单元423,用于根据每个所述预置业务标签向量对应的本轮训练语句标量获得与每个所述本轮训练语句标量对应的类别概率。
其中一种可能的实现方式中,上述第一反馈模块43可以包括:第一损失计算单元431及第二损失计算单元432;
第一损失计算单元431,用于根据所述类别概率、所述本轮训练语句向量及所述预置业务标签向量进行计算,得到本轮训练的相关性损失及召回率损失,其中,所述相关性损失用于表征本轮预测结果与所述本轮训练语句样本之间的相关程度,所述召回率损失用于表征所述本轮训练语句样本的易分类程度;
第二损失计算单元432,用于将所有所述预置业务标签向量组成向量矩阵,根据所述向量矩阵进行计算,得到正交性损失,其中,所述正交性损失用于表征业务标签之间的关联程度。
其中一种可能的实现方式中,上述第一反馈模块43还可以用于根据本轮训练的所述相关性损失、所述召回率损失及所述正交性损失中的一个或多个对与所述预置业务标签向量对应的关键词权重进行更新,其中,所述关键词权重用于与对应的预置关键词向量进行加权计算,以得到预置业务标签向量。
其中一种可能的实现方式中,上述基础分类模型的训练装置60还可以包括:第二反馈模块61;
第二反馈模块61,用于根据本轮训练的所述相关性损失、所述召回率损失及所述正交性损失中的一个或多个对所述预置基础分类模型的参数进行更新,其中,所述预置基础分类模型的参数用于对所述本轮训练语句向量与预置业务标签向量进行运算,以得到本轮训练语句标量。
图6所示实施例提供的基础分类模型的训练装置可用于执行本说明书图1~图3所示方法实施例的技术方案,其实现原理和技术效果可以进一步参考方法实施例中的相关描述。
应理解以上图4-图6所示的基础分类模型的训练装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块以软件通过处理元件调用的形式实现,部分模块通过硬件的形式实现。例如,检测模块可以为单独设立的处理元件,也可以集成在电子设备的某一个芯片中实现。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit;以下简称:ASIC),或,一个或多个微处理器(Digital Singnal Processor;以下简称:DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array;以下简称:FPGA)等。再如,这些模块可以集成在一起,以片上系统(System-On-a-Chip;以下简称:SOC)的形式实现。
图7为本说明书电子设备700一个实施例的结构示意图,如图7所示,上述电子设备可以包括至少一个处理器;以及与上述处理器通信连接的至少一个存储器,其中:存储器存储有可被处理器执行的程序指令,上述处理器调用上述程序指令能够执行本说明书图1~图3所示实施例提供的基础分类模型的训练方法。
其中,上述电子设备可以为能够进行模型训练的设备,例如:计算机,本说明书实施例对上述电子设备的具体形式不作限定。可以理解的是,这里的电子设备即为方法实施例中提到的机器。
图7示出了适于用来实现本说明书实施方式的示例性电子设备的框图。图7显示的电子设备700仅仅是一个示例,不应对本说明书实施例的功能和使用范围带来任何限制。
如图7所示,电子设备700以通用计算设备的形式表现。电子设备700的组件可以包括但不限于:一个或者多个处理器710,存储器730,连接不同系统组件(包括存储器730和处理单元710)的通信总线740。
通信总线740表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
电子设备典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器730可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)和/或高速缓存存储器。电子设备可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。存储器730可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本说明书各实施例的功能。
具有一组(至少一个)程序模块的程序/实用工具,可以存储在存储器730中,这样的程序模块包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块通常执行本说明书所描述的实施例中的功能和/或方法。
处理器710通过运行存储在存储器730中的程序,从而执行各种功能应用以及数据处理,例如实现本说明书图1~图3所示实施例提供的基础分类模型的训练方法。
以上各实施例中,涉及的处理器可以例如包括CPU、DSP、微控制器或数字信号处理器,还可包括GPU、嵌入式神经网络处理器(Neural-network Process Units;以下简称:NPU)和图像信号处理器(Image Signal Processing;以下简称:ISP),该处理器还可包括必要的硬件加速器或逻辑处理硬件电路,如ASIC,或一个或多个用于控制本申请技术方案程序执行的集成电路等。此外,处理器可以具有操作一个或多个软件程序的功能,软件程序可以存储在存储介质中。
本说明书实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行本说明书图1~图3所示实施例提供的基础分类模型的训练方法。
上述非暂态计算机可读存储介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(Read Only Memory;以下简称:ROM)、可擦式可编程只读存储器(Erasable ProgrammableRead Only Memory;以下简称:EPROM)或闪存、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本说明书操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LocalArea Network;以下简称:LAN)或广域网(Wide Area Network;以下简称:WAN)连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本说明书的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本说明书的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本说明书的实施例所属技术领域的技术人员所理解。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
需要说明的是,本说明书实施例中所涉及的终端可以包括但不限于个人计算机(Personal Computer;以下简称:PC)、个人数字助理(Personal Digital Assistant;以下简称:PDA)、无线手持设备、平板电脑(Tablet Computer)、手机、MP3播放器、MP4播放器等。
在本说明书所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本说明书各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器(Processor)执行本说明书各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory;以下简称:ROM)、随机存取存储器(Random Access Memory;以下简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本说明书的较佳实施例而已,并不用以限制本说明书,凡在本说明书的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书保护的范围之内。
Claims (14)
1.一种基础分类模型的训练方法,包括:
获取本轮训练语句样本,以进行本轮训练,对所述本轮训练语句样本进行向量转换,得到本轮训练语句向量;
将所述本轮训练语句向量与预置业务标签向量输入预置基础分类模型中进行训练,得到本轮训练语句样本的类别概率;
根据所述类别概率进行计算,得到本轮训练的损失,根据所述本轮训练的损失更新所述预置业务标签向量,以进行下一轮训练。
2.根据权利要求1所述的方法,所述对所述本轮训练语句样本进行向量转换,得到本轮训练语句向量包括:
对所述本轮训练语句样本进行词向量转换,得到与所述本轮训练语句样本对应的多个词向量;
对与所述本轮训练语句样本对应的所有所述词向量进行均值计算,得到本轮训练语句向量。
3.根据权利要求1所述的方法,所述将所述本轮训练语句向量与预置业务标签向量输入预置基础分类模型中进行训练,得到本轮训练语句样本的类别概率包括:
获取预置业务标签向量集合,其中,所述预置业务标签向量集合包括多个预置业务标签向量;
在预置基础分类模型中将所述本轮训练语句向量分别与每个所述预置业务标签向量进行计算,得到与每个所述预置业务标签向量对应的本轮训练语句标量;
根据每个所述预置业务标签向量对应的本轮训练语句标量获得与每个所述本轮训练语句标量对应的类别概率。
4.根据权利要求3所述的方法,所述根据所述类别概率进行计算,得到本轮训练的损失包括:
根据所述类别概率、所述本轮训练语句向量及所述预置业务标签向量进行计算,得到本轮训练的相关性损失及召回率损失,其中,所述相关性损失用于表征本轮预测结果与所述本轮训练语句样本之间的相关程度,所述召回率损失用于表征所述本轮训练语句样本的易分类程度;
将所有所述预置业务标签向量组成向量矩阵,根据所述向量矩阵进行计算,得到正交性损失,其中,所述正交性损失用于表征业务标签之间的关联程度。
5.根据权利要求4所述的方法,所述根据所述本轮训练的损失更新所述预置业务标签向量包括:
根据本轮训练的所述相关性损失、所述召回率损失及所述正交性损失中的一个或多个对与所述预置业务标签向量对应的关键词权重进行更新,其中,所述关键词权重用于与对应的预置关键词向量进行加权计算,以得到预置业务标签向量。
6.根据权利要求4所述的方法,所述根据所述本轮训练的损失更新所述预置业务标签向量之后,还包括:
根据本轮训练的所述相关性损失、所述召回率损失及所述正交性损失中的一个或多个对所述预置基础分类模型的参数进行更新,其中,所述预置基础分类模型的参数用于对所述本轮训练语句向量与预置业务标签向量进行运算,以得到本轮训练语句标量。
7.一种基础分类模型的训练装置,包括:
获取模块,用于获取本轮训练语句样本,以进行本轮训练,对所述本轮训练语句样本进行向量转换,得到本轮训练语句向量;
训练模块,用于将所述本轮训练语句向量与预置业务标签向量输入预置基础分类模型中进行训练,得到本轮训练语句样本的类别概率;
第一反馈模块,用于根据所述类别概率进行计算,得到本轮训练的损失,根据所述本轮训练的损失更新所述预置业务标签向量,以进行下一轮训练。
8.根据权利要求7所述的装置,所述获取模块包括:
转换单元,用于对所述本轮训练语句样本进行词向量转换,得到与所述本轮训练语句样本对应的多个词向量;
向量计算单元,用于对与所述本轮训练语句样本对应的所有所述词向量进行均值计算,得到本轮训练语句向量。
9.根据权利要求7所述的装置,所述训练模块包括:
获取单元,用于获取预置业务标签向量集合,其中,所述预置业务标签向量集合包括多个预置业务标签向量;
标量计算单元,用于在预置基础分类模型中将所述本轮训练语句向量分别与每个所述预置业务标签向量进行计算,得到与每个所述预置业务标签向量对应的本轮训练语句标量;
概率计算单元,用于根据每个所述预置业务标签向量对应的本轮训练语句标量获得与每个所述本轮训练语句标量对应的类别概率。
10.根据权利要求9所述的装置,所述第一反馈模块包括:
第一损失计算单元,用于根据所述类别概率、所述本轮训练语句向量及所述预置业务标签向量进行计算,得到本轮训练的相关性损失及召回率损失,其中,所述相关性损失用于表征本轮预测结果与所述本轮训练语句样本之间的相关程度,所述召回率损失用于表征所述本轮训练语句样本的易分类程度;
第二损失计算单元,用于将所有所述预置业务标签向量组成向量矩阵,根据所述向量矩阵进行计算,得到正交性损失,其中,所述正交性损失用于表征业务标签之间的关联程度。
11.根据权利要求10所述的装置,所述第一反馈模块还用于根据本轮训练的所述相关性损失、所述召回率损失及所述正交性损失中的一个或多个对与所述预置业务标签向量对应的关键词权重进行更新,其中,所述关键词权重用于与对应的预置关键词向量进行加权计算,以得到预置业务标签向量。
12.根据权利要求10所述的装置,所述装置还包括:
第二反馈模块,用于根据本轮训练的所述相关性损失、所述召回率损失及所述正交性损失中的一个或多个对所述预置基础分类模型的参数进行更新,其中,所述预置基础分类模型的参数用于对所述本轮训练语句向量与预置业务标签向量进行运算,以得到本轮训练语句标量。
13.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至6任一所述的方法。
14.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至6任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010439816.XA CN111339308B (zh) | 2020-05-22 | 2020-05-22 | 基础分类模型的训练方法、装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010439816.XA CN111339308B (zh) | 2020-05-22 | 2020-05-22 | 基础分类模型的训练方法、装置和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111339308A true CN111339308A (zh) | 2020-06-26 |
CN111339308B CN111339308B (zh) | 2020-09-22 |
Family
ID=71186527
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010439816.XA Active CN111339308B (zh) | 2020-05-22 | 2020-05-22 | 基础分类模型的训练方法、装置和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111339308B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112417150A (zh) * | 2020-11-16 | 2021-02-26 | 建信金融科技有限责任公司 | 行业分类模型训练、使用方法、装置、设备及介质 |
CN112988963A (zh) * | 2021-02-19 | 2021-06-18 | 平安科技(深圳)有限公司 | 基于多流程节点的用户意图预测方法、装置、设备及介质 |
CN113435500A (zh) * | 2021-06-25 | 2021-09-24 | 竹间智能科技(上海)有限公司 | 一种语言模型构建方法及设备 |
CN114564940A (zh) * | 2022-03-01 | 2022-05-31 | 阿里巴巴(中国)有限公司 | 地址文本的召回方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190370394A1 (en) * | 2018-05-31 | 2019-12-05 | Fmr Llc | Automated computer text classification and routing using artificial intelligence transfer learning |
CN110795563A (zh) * | 2019-10-31 | 2020-02-14 | 支付宝(杭州)信息技术有限公司 | 文本分类模型训练方法、事件检测方法及对应的装置 |
CN110909145A (zh) * | 2019-11-29 | 2020-03-24 | 支付宝(杭州)信息技术有限公司 | 针对多任务模型的训练方法及装置 |
-
2020
- 2020-05-22 CN CN202010439816.XA patent/CN111339308B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190370394A1 (en) * | 2018-05-31 | 2019-12-05 | Fmr Llc | Automated computer text classification and routing using artificial intelligence transfer learning |
CN110795563A (zh) * | 2019-10-31 | 2020-02-14 | 支付宝(杭州)信息技术有限公司 | 文本分类模型训练方法、事件检测方法及对应的装置 |
CN110909145A (zh) * | 2019-11-29 | 2020-03-24 | 支付宝(杭州)信息技术有限公司 | 针对多任务模型的训练方法及装置 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112417150A (zh) * | 2020-11-16 | 2021-02-26 | 建信金融科技有限责任公司 | 行业分类模型训练、使用方法、装置、设备及介质 |
CN112988963A (zh) * | 2021-02-19 | 2021-06-18 | 平安科技(深圳)有限公司 | 基于多流程节点的用户意图预测方法、装置、设备及介质 |
CN112988963B (zh) * | 2021-02-19 | 2024-05-10 | 平安科技(深圳)有限公司 | 基于多流程节点的用户意图预测方法、装置、设备及介质 |
CN113435500A (zh) * | 2021-06-25 | 2021-09-24 | 竹间智能科技(上海)有限公司 | 一种语言模型构建方法及设备 |
CN113435500B (zh) * | 2021-06-25 | 2023-05-26 | 竹间智能科技(上海)有限公司 | 一种语言模型构建方法及设备 |
CN114564940A (zh) * | 2022-03-01 | 2022-05-31 | 阿里巴巴(中国)有限公司 | 地址文本的召回方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111339308B (zh) | 2020-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111339308B (zh) | 基础分类模型的训练方法、装置和电子设备 | |
WO2022012407A1 (zh) | 一种用于神经网络的训练方法以及相关设备 | |
US20220083868A1 (en) | Neural network training method and apparatus, and electronic device | |
CN109902293A (zh) | 一种基于局部与全局互注意力机制的文本分类方法 | |
CN111951805A (zh) | 一种文本数据处理方法及装置 | |
CN111797589B (zh) | 一种文本处理网络、神经网络训练的方法以及相关设备 | |
WO2020224106A1 (zh) | 基于神经网络的文本分类方法、系统及计算机设备 | |
WO2021051574A1 (zh) | 英文文本序列标注方法、系统及计算机设备 | |
CN113704460B (zh) | 一种文本分类方法、装置、电子设备和存储介质 | |
CN113158687B (zh) | 语义的消歧方法及装置、存储介质、电子装置 | |
CN113886601B (zh) | 电子文本事件抽取方法、装置、设备及存储介质 | |
CN114358203A (zh) | 图像描述语句生成模块的训练方法及装置、电子设备 | |
CN112667782A (zh) | 一种文本分类方法、装置、设备及存储介质 | |
CN112417878B (zh) | 实体关系抽取方法、系统、电子设备及存储介质 | |
CN110263304B (zh) | 语句编码方法、语句解码方法、装置、存储介质及设备 | |
CN112307048B (zh) | 语义匹配模型训练方法、匹配方法、装置、设备及存储介质 | |
CN111475635B (zh) | 语义补全方法、装置和电子设备 | |
CN114330343A (zh) | 词性感知嵌套命名实体识别方法、系统、设备和存储介质 | |
CN111967253A (zh) | 一种实体消歧方法、装置、计算机设备及存储介质 | |
CN113536784A (zh) | 文本处理方法、装置、计算机设备和存储介质 | |
CN108875024B (zh) | 文本分类方法、系统、可读存储介质及电子设备 | |
CN116306612A (zh) | 一种词句生成方法及相关设备 | |
CN112528621B (zh) | 文本处理、文本处理模型训练方法、装置和存储介质 | |
CN111444319B (zh) | 文本匹配方法、装置和电子设备 | |
CN110347813B (zh) | 一种语料处理方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |