CN113849653B - 一种文本分类方法及装置 - Google Patents
一种文本分类方法及装置 Download PDFInfo
- Publication number
- CN113849653B CN113849653B CN202111199675.XA CN202111199675A CN113849653B CN 113849653 B CN113849653 B CN 113849653B CN 202111199675 A CN202111199675 A CN 202111199675A CN 113849653 B CN113849653 B CN 113849653B
- Authority
- CN
- China
- Prior art keywords
- similarity
- category
- text
- training
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Abstract
本申请实施例提供了一种文本分类方法及装置。其中,该方法包括:获取训练文本的表示向量和类别标签的标签向量;将训练文本向其对应的类别标签聚拢,以形成类别簇,并学习每个类别簇的决策边界;确定待分类文本是否位于全部类别簇的决策边界之外;如果待分类文本位于全部类别簇的边界之外,则待分类文本为未知类别;如果待分类文本不位于全部类别簇的边界之外,则与待分类文本相似度最大的类别标签所对应的类别为待分类文本的类别。这样,当有待分类文本位于全部类别簇的边界之外时,本申请实施例能够将待分类文本识别为未知意图,解决了目前的分类模型无法识别未知意图,以及将未知意图的文本分类到错误类别的问题。
Description
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种文本分类方法及装置。
背景技术
文本分类是自然语言处理技术领域的基本任务之一,其在现实生活中有着非常丰富的应用,例如基于自然语言处理技术的舆情监测、新闻分类、情感分类等应用都是通过文本分类任务实现的。
目前,文本分类任务通过几个固定类别的训练文本训练分类模型,使分类模型能够从未知文本中识别几个固定类别的文本,然而,对于不属于这几个固定类别的未知文本(即未知意图),分类模型却无法进行分类。例如:在新闻分类场景中,如果训练文本包括体育、经济、娱乐这三个类别的标签,那么使用这三个类别的训练文本训练得到的分类模型仅能够对体育、经济、娱乐这三个类别的待分类文本进行分类,而政治类的待分类文本对于该分类模型来说就属于未知意图,然而该分类模型无法识别出这个未知意图。
另外,在一些场景中,文本类别可能有许多种,训练文本的类别标签可能仅覆盖部分类别,即训练文本的类别标签是不完备的。例如:在出行方式识别领域,训练文本的类别标签可能包括步行、乘公交车、骑自行车、开车,然而出行方式还可以包括乘网约车、乘火车、多种方式换乘等,对于分类模型来说,乘网约车、乘火车、多种方式换乘等都属于无法识别的未知意图。
发明内容
本申请实施例提供了一种文本分类方法及装置,能够从待分类文本中识别出未知意图。
第一方面,本申请实施例提供了一种文本分类方法,该分类方法包括:获取训练文本的表示向量和类别标签的标签向量;将训练文本向其对应的类别标签聚拢,以形成类别簇,并学习每个类别簇的决策边界;确定待分类文本是否位于全部类别簇的决策边界之外;如果待分类文本位于全部类别簇的边界之外,则待分类文本为未知类别;如果待分类文本不位于全部类别簇的边界之外,则与待分类文本相似度最大的类别标签所对应的类别为待分类文本的类别。
在一种实现方式中,将训练文本向其对应的类别标签聚拢,包括:获取各个训练文本与其所属类别簇的中心点的第一相似度,以及,获取各个训练文本与其他各个类别簇的中心点的第二相似度;根据训练文本的数量、第一相似度、第二相似度构造损失函数;根据损失函数将训练文本向其对应的类别标签聚拢。
在一种实现方式中,该方法还包括:在构造损失函数时,对第一相似度和第二相似度引入核函数。
在一种实现方式中,学习每个类别簇的决策边界,包括:根据训练文本的数量、各个类别簇的决策边界与第一相似度的数值关系构造优化函数,数值关系包括第一相似度大于类别簇的决策边界,或者,第一相似度小于或等于类别簇的决策边界;根据优化函数学习每个类别簇的决策边界。
在一种实现方式中,该方法还包括:在构造优化函数时,对第一相似度引入核函数。
在一种实现方式中,第一相似度和第二相似度均为余弦相似度,损失函数具体为以下损失函数Loss1:
其中,N为训练文本的数量,zi为训练文本,cyi为zi所属类别簇的中心点,m为一个预设的参数,s为一个预设倍数,cj为其他类别簇的中心点,cos(cyi,zi)为cyi与zi的余弦相似度,cos(cj,zi)为cj与zi的余弦相似度。
在一种实现方式中,第一相似度和第二相似度均为欧氏距离,损失函数具体为以下损失函数Loss2
其中,N为训练文本的数量,zi为训练文本,cyi为zi所属类别簇的中心点,m为一个预设的参数,s为一个预设倍数,cj为其他类别簇的中心点,||zi-cyi||2为cyi与zi的欧氏距离,||zi-cj||2为cj与zi的欧氏距离。
在一种实现方式中,第一相似度和第二相似度均为余弦相似度;在对第一相似度和第二相似度引入核函数时,损失函数具体为以下损失函数Loss3:
其中,N为训练文本的数量,zi为训练文本,cyi为zi所属类别簇的中心点,m为一个预设的参数,s为一个预设倍数,cj为其他类别簇的中心点,exp(γ×cos2(cyi,zi))为cyi与zi的余弦相似度的核函数,exp(γ×cos2(cj,zi))为cj与zi的余弦相似度的核函数。
在一种实现方式中,第一相似度和第二相似度均为欧氏距离;在对第一相似度和第二相似度引入核函数时,损失函数具体为以下损失函数Loss4:
其中,N为训练文本的数量,zi为训练文本,cyi为zi所属类别簇的中心点,m为一个预设的参数,s为一个预设倍数,cj为其他类别簇的中心点,为cyi与zi的欧氏距离的核函数,为cj与zi的欧氏距离的核函数。
在一种实现方式中,第一相似度为余弦相似度,优化函数具体为以下优化函数Lb1:
其中,N为训练文本的数量,Δyi为类别簇的决策边界,cyi为类别簇的中心点,zi为训练文本,cos(cyi,zi)为训练文本zi与中心点cyi之间的余弦相似度。
在一种实现方式中,第一相似度为欧式距离,优化函数具体为以下优化函数Lb2:
其中,N为训练文本的数量,Δyi为类别簇的决策边界,cyi为类别簇的中心点,zi为训练文本,||zi-cyi||2为训练文本zi与中心点cyi之间的欧式距离。
在一种实现方式中,第一相似度为余弦相似度,在对第一相似度引入核函数时,优化函数具体为以下优化函数Lb3:
其中,N为训练文本的数量,Δyi为类别簇的决策边界,cyi为类别簇的中心点,zi为训练文本,exp(γ×cos2(cyi,zi))为训练文本zi与中心点cyi之间的余弦相似度的核函数。
在一种实现方式中,第一相似度为欧式距离,在对第一相似度引入核函数时,优化函数具体为以下优化函数Lb4:
在一种实现方式中,训练文本的表示向量为以下任意一种:使用特征抽取器获取训练文本的首字符或首个分词对应的向量,将训练文本的首字符或首个分词对应的向量作为训练文本的表示向量;或者,将训练文本的句子表示为矩阵,在词的维度对矩阵取均值作为训练文本的表示向量;或者,将训练文本的句子表示为矩阵,在词的维度对矩阵取最大值作为训练文本的表示向量;或者,将训练文本的句子表示为矩阵,在词的维度对矩阵取均值和最大值,并将均值和最大值的结合作为训练文本的表示向量。
在一种实现方式中,类别标签的表示向量为以下任意一种:将类别标签输入到特征抽取器中,以特征抽取器的输出作为类别标签的表示向量,类别标签的表示向量初始为随机向量;或者,为类别标签添加标签描述文本,将类别标签及其标签描述文本输入到特征抽取器中,以特征抽取器的输出作为类别标签的表示向量;或者,对每个类别的全部训练文本的表示向量取中心点,将中心点的向量作为该类别对应的类别标签的表示向量。
在一种实现方式中,特征抽取器为预训练的语言模型。
第二方面,本申请实施例提供给了一种文本分类装置,包括:处理器和存储器,存储器中包括程序指令,当程序指令被处理器执行时,使文本分类装置执行以下方法步骤:获取训练文本的表示向量和类别标签的标签向量;将训练文本向其对应的类别标签聚拢,以形成类别簇,并学习每个类别簇的决策边界;确定待分类文本是否位于全部类别簇的决策边界之外;如果待分类文本位于全部类别簇的边界之外,则待分类文本为未知类别;如果待分类文本不位于全部类别簇的边界之外,则与待分类文本相似度最大的类别标签所对应的类别为待分类文本的类别。
本申请实施例提供的技术方案,能够将同一个类别的文本聚类到一个类别簇中,并且通过一些自适应的学习算法确定各个类别簇的边界,这样,当有待分类文本位于全部类别簇的边界之外时,该方案能够将待分类文本识别为未知意图,解决了目前的分类模型无法识别未知意图,以及将未知意图的文本分类到错误类别的问题。
附图说明
图1是本申请实施例提供的文本分类模型的示意图;
图2是本申请实施例提供的文本分类方法的流程图;
图3是本申请实施例提供的将训练文本向其对应的类别标签聚拢的流程图;
图4是本申请实施例提供的学习类别簇的决策边界的流程图;
图5是本申请实施例示出的待分类文本与类别簇的边界位置示意图;
图6是本申请实施例提供的一种文本分类装置的结构示意图。
具体实施方式
文本分类是自然语言处理技术领域的基本任务之一,其在现实生活中有着非常丰富的应用,例如基于自然语言处理技术实现的舆情监测、新闻分类、情感分类等应用都是通过文本分类任务实现的。
目前,文本分类任务通过几个固定类别的训练文本训练分类模型,使分类模型能够从未知文本中识别几个固定类别的文本,然而,对于不属于这几个固定类别的未知文本(即未知意图),分类模型却无法进行分类。例如:在新闻分类场景中,如果训练文本包括体育、经济、娱乐这三个类别的标签,那么使用这三个类别的训练文本训练得到的分类模型仅能够对体育、经济、娱乐这三个类别的待分类文本进行分类,而政治类的待分类文本对于该分类模型来说就属于未知意图,然而该分类模型无法识别出这个未知意图。
另外,在一些场景中,文本类别可能有许多种,训练文本的类别标签可能仅覆盖部分类别,即训练文本的类别标签是不完备的。例如:在出行方式识别领域,训练文本的类别标签可能包括步行、乘公交车、骑自行车、开车,然而出行方式还可以包括乘网约车、乘火车、多种方式换乘等,对于分类模型来说,乘网约车、乘火车、多种方式换乘等都属于未知意图,目前的分类模型无法识别出这个未知意图。
另外,目前的分类模型通常由深度学习模型训练得到,而深度学习模型只能在已训练过的类别中给出输入文本的类别判断。针对未训练过的类别的输入文本,深度学习模型也会给出所有已知分类中概率最高的类别,导致输入文本会被分类到错误的类别。
为了从待分类文本中识别出未知意图,本申请实施例提供了一种文本分类方法。
本申请实施例提供的文本分类方法可通过基于深度学习算法的分类模型实现或者通过其他算法或方式实现。本申请实施例示例性的提供了一种文本分类模型,图1是该文本分类模型的示意图,如图1所示,该分类模型包括:编码层Embedding Layer、特征抽取器、边界学习层Boundary Learning,相似度计算层Cosine Similarity、损失优化层LMCLLoss,其中:
编码层Embedding Layer作为分类模型的输入,用于将输入的训练文本(或者测试和生产阶段的待分类文本,简称文本)及其对应的类别标签(简称标签)编码成向量,文本分类模型通过学习该向量,可以学习到训练文本和类别标签的意义(例如类别特征),从而将原有的分类任务映射为匹配任务,提高文本分类模型泛化新样本的能力。
在本申请实施例的文本分类任务中,每个已知的类别都可以具有一个对应的类别标签,不同类别对应的类别标签不同。以新闻分类任务为例,如果已知的类别包括体育、经济、娱乐,那么类别标签则可以相应地包括“体育”“经济”和“娱乐”。
特征抽取器例如可以是BERT、roberta等预训练的语言模型,特征抽取层以编码层输出的向量作为输入,通过其内部网络进行特征提取,最终输出训练文本的表示向量和类别标签的表示向量。这里需要说明的是,BERT、roberta等预训练的语言模型属于深度学习领域的既有模型,其中可能会包括一个或者多个遮罩多头注意力层Masked Multi-HeadAttention、一个或者多个多头注意力层Multi-Head Attention、一个或者多个叠加和正则层Add&Norm、一个或者多个前反馈层Feed Forward等。本申请实施例对预训练的语言模型的具体结构不做限定。
边界学习层Boundary Learning用于学习同一类别的训练文本在向量空间中的边界,同一类别的全部或者大部分训练文本都应该在该类别的边界之内。
相似度计算层Cosine Similarity用于计算训练文本的表示向量类别标签的表示向量之间的相似度,该相似度例如可以是余弦相似度或欧式距离等。
损失优化层LMCL Loss用于通过距离损失算法将相同类别的训练文本相互靠拢,将不同类别的训练文本相互远离,使得相同类别的训练文本聚拢而形成一个簇。
下面结合该文本分类模型对本申请实施例提供的文本分类方法的具体步骤进行说明。
图2是本申请实施例提供的文本分类方法的流程图。如图2所示,该方法可以包括以下步骤S101-步骤S105。
步骤S101,获取训练文本的表示向量和类别标签的标签向量
本申请实施例对训练文本的表示向量和类别标签的表示向量的生成方式不作具体限定,能够表示训练文本和类别标签的类别特征的向量均可以作为其表示向量。本申请实施例以下示例性的提供训练文本的表示向量和类别标签的表示向量的几种实现方式。
对于训练文本的表示向量,本申请实施例提供了四种实现方式:
第一种实现方式是使用特征抽取器获取训练文本的首字符或首个分词对应的向量,将训练文本的首字符或首个分词对应的向量作为训练文本的表示向量。在这种方式中,特征抽取器可以是bert、Roberta等预训练的语言模型。
具体实现中,可以首先对训练文本进行分词,然后将分词编码后输入到语言模型中,然后从语言模型的输出中将训练文本的首个字符或词对应的向量作为训练文本的表示向量。例如:训练文本“奥运会男子接力”分词结果是“奥运会/男子/接力”,因此该训练文本的表示向量是语言模型的输出首个分词“奥运会”对应的向量。
第二种实现方式是将训练文本的句子表示为矩阵,在词的维度对矩阵取均值作为训练文本的表示向量。
示例性的,对于训练文本“奥运会男子接力”,如果“奥运会”的表示向量为A、“男子”的表示向量为B、“接力”的表示向量为C,那么该训练文本的句子的表示矩阵M1=[A;B;C],那么该训练文本的表示向量E1=(A+B+C)/3,即向量A、B、C的均值。
第三种实现方式是将训练文本的句子表示为矩阵,在词的维度对矩阵取最大值作为训练文本的表示向量。
示例性的,对于训练文本“奥运会男子接力”,如果“奥运会”的表示向量为A、“男子”的表示向量为B、“接力”的表示向量为C,那么该训练文本的句子的表示矩阵M1=[A;B;C],那么该训练文本的表示向量E2=Max(A,B,C),即向量A、B、C的最大值。
第四种实现方式是将训练文本的句子表示为矩阵,在词的维度对矩阵取均值和最大值,并将均值和最大值的结合作为训练文本的表示向量。
示例性的,对于训练文本“奥运会男子接力”,如果“奥运会”的表示向量为A、“男子”的表示向量为B、“接力”的表示向量为C,那么该训练文本的句子的表示矩阵M1=[A;B;C],在词的维度取均值得到的表示向量E1=(A+B+C)/3,在词的维度取最大值得到的表示向量E2=Max(A,B,C),那么该训练文本的表示向量E3=[E1,E2],其维度是第二种和第三种实现方式的两倍。
对于类别标签的表示向量,本申请实施例提供了三种实现方式:
第一种实现方式是将类别标签输入到特征抽取器中,以特征抽取器的输出作为类别标签的表示向量,其中,该类别标签的表示向量初始为随机向量。
第二种实现方式是为类别标签添加标签描述文本,将类别标签及其标签描述文本输入到特征抽取器中,以特征抽取器的输出作为类别标签的表示向量。
示例性的,对于类别标签“体育”,其标签描述文本可以是“是人类社会的一种身体教育活动和社会文化活动”,因此输入到特征抽取器中的文本可以是“体育是人类社会的一种身体教育活动和社会文化活动”。
第三种实现方式是对每个类别的全部训练文本的表示向量取中心点,将中心点的向量作为该类别对应的类别标签的表示向量。
本申请实施例中,训练文本的类别是已知的,因此训练文本与其所属类别的类别标签实际上具有对应关系。为便于匹配,本申请实施例中的训练文本的表示向量和类别标签的表示向量优选是维度相等的向量。
步骤S102,将训练文本向其对应的类别标签聚拢,以形成类别簇,并学习每个类别簇的决策边界。
本申请实施例可以基于训练文本与其对应的类别标签之间的相似度,将训练文本向其对应的类别标签聚拢,使各个训练文本想起对应的类别标签靠近,并且远离其他的类别标签,从而形成类别簇。
图3是本申请实施例提供的将训练文本向其对应的类别标签聚拢的流程图。如图3所示,将训练文本向其对应的类别标签聚拢,可以通过以下步骤S201-S203实现:
步骤S201,获取各个训练文本与其所属类别簇的中心点的第一相似度,以及,获取各个训练文本与其他各个类别簇的中心点的第二相似度。
其中,第一相似度和第二相似度可以均为余弦相似度,或者均为欧式距离,或者均为其他某个可用于表征两个向量之间语义距离的相似度表达方式,本申请实施例对此不做限定。
步骤S202,根据训练文本的数量、第一相似度、第二相似度构造损失函数。
步骤S203,根据损失函数将训练文本向其对应的类别标签聚拢。
示例性地,当第一相似度和第二相似度均为余弦相似度时,损失函数具体可以为以下损失函数Loss1,其训练目标是使统一类别的训练文本和类别标签的相似度最大:
其中,N为训练文本的数量,zi为训练文本,cyi为zi所属类别簇的中心点,m为一个预设的参数,s为一个预设倍数,cj为其他类别簇的中心点,cos(cyi,zi)为cyi与zi的余弦相似度(即训练文本zi与其所属类别簇的中心点cyi的第一相似度),cos(cj,zi)为cj与zi的余弦相似度(即训练文本zi与其他类别簇的中心点cj的第二相似度)。
本申请实施例引入了类别簇的中心点的概念,其中,类别簇的中心点即为该类别簇所对应类别的所有训练文本的中心点。类别簇的中心点可以通过以下公式得到:
其中,ck为类别簇的中心点,zi为类别簇中的第i个训练文本,Sk表示第k个类别簇,|Sk|表示类别簇中的训练文本的数量。
示例性地,当第一相似度和第二相似度均为欧氏距离时,损失函数具体为以下损失函数Loss2,其训练目标是使同一类别的训练文本和类别标签的相似度最大:
将训练文本向其对应的类别标签聚拢,通过损失函数Loss2实现:
其中,N为训练文本的数量,zi为训练文本,cyi为zi所属类别簇的中心点,m为一个预设的参数,s为一个预设倍数,cj为其他类别簇的中心点,||zi-cyi||2为cyi与zi的欧氏距离(即训练文本zi与其所属类别簇的中心点cyi的第一相似度),||zi-cyi||2为cj与zi的欧氏距离(即训练文本zi与其他类别簇的中心点cj的第二相似度)。4
需要补充说明的是,由于欧式距离与余弦相似度表示的意义相反,即:欧氏距离越大,表示相似度越小,欧氏距离越小,表示相似度越大;余弦相似度越大,表示相似度越大,余弦相似度越小,表示相似度越小。因此,当训练文本的表示向量和类别标签的标签向量之间的相似度为欧式距离时,m和||zi-cyi||2的位置与m和cos(cyi,zi)的位置相反。
在一种实现方式中,在构造损失函数时,可以对第一相似度和第二相似度引入核函数,例如引入一个径向基核函数,径向基核函数能够将训练文本表示向量和类别标签的表示向量从低维空间映射到高维空间,并表示为向量内积,从而解决低维空间线性不可分的问题。因此,本申请实施例中,将训练文本向其对应的类别标签聚拢,可以分为两种情况,一种是不引入核函数的情况,即构造了损失函数Loss1和损失函数Loss2,另一种是引入核函数的情况。下面对引入核函数的情况进行示例性说明。
示例性地,当第一相似度和第二相似度均为余弦相似度时,如果对第一相似度和第二相似度引入核函数,那么损失函数具体为以下损失函数Loss3,其训练目标是使统一类别的训练文本和类别标签的相似度最大:
其中,N为训练文本的数量,zi为训练文本,cyi为zi所属类别簇的中心点,m为一个预设的参数,s为一个预设倍数,cj为其他类别簇的中心点,exp(γ×cos2(cyi,zi))为cyi与zi的余弦相似度的核函数(即训练文本zi与其所属类别簇的中心点cyi的第一相似度的核函数),exp(γ×cos2(cj,zi))为cj与zi的余弦相似度的核函数(即训练文本zi与其他类别簇的中心点cj的第二相似度的核函数),γ是一个可学习的变量。
示例性地,当第一相似度和第二相似度均为欧氏距离时,如果对第一相似度和第二相似度引入核函数,那么损失函数具体为以下损失函数Loss4,其训练目标是使统一类别的训练文本和类别标签的相似度最大:
其中,N为训练文本的数量,zi为训练文本,cyi为zi所属类别簇的中心点,m为一个预设的参数,s为一个预设倍数,cj为其他类别簇的中心点,为cyi与zi的欧氏距离的核函数(即训练文本zi与其所属类别簇的中心点cyi的第一相似度的核函数),为cj与zi的欧氏距离的核函数(即训练文本zi与其他类别簇的中心点cj的第二相似度的核函数),γ是一个可学习的变量。
本申请实施例可以采用自适应决策的方式确定每个类别簇的边界。
在理想状态下,应有所有的训练文本与其所属类别簇的中心点之间的距离均小于该类别簇的边界,具体来说:
当训练文本与其所属类别簇的中心点的相似度为余弦相似度时,有:
其中,cos(zi,ck)为类别簇中的第i个训练文本与类别簇的中心点之间的余弦相似度,Δk为类别簇的边界(即类别簇的半径)。
当训练文本与其所属类别簇的中心点的相似度为欧式时,有:
其中,||zi-ck||2为类别簇中的第i个训练文本与类别簇的中心点之间的欧式距离,Δk为类别簇的边界(即类别簇的半径)。
为了使类别簇的边界趋近于理想情况,本申请实施例可以通过分类模型对类别簇的边界进行了自适应地动态学习,以使同一个类别的尽可能多的训练文本位于相应类别簇的边界内。
图4是本申请实施例提供的学习类别簇的决策边界的流程图。如图4所示,在形成类别簇之后学习类别簇的决策边界,可以通过以下步骤S301-S302实现:
步骤S301,根据训练文本的数量、各个类别簇的决策边界与第一相似度的数值关系构造优化函数,数值关系包括第一相似度大于类别簇的决策边界,或者,第一相似度小于或等于类别簇的决策边界。
步骤S302,根据优化函数学习每个类别簇的决策边界。
示例性地,当训练文本的表示向量和类别标签的标签向量之间的相似度为余弦相似度时,优化函数具体可以为以下优化函数Lb1:
其中,N为训练文本的数量,Δyi为类别簇的决策边界,cyi为类别簇的中心点,zi为训练文本,cos(cyi,zi)为训练文本zi与中心点cyi之间的余弦相似度(即训练文本zi与其所属类别簇的中心点cyi的第一相似度)。该优化函数以使Lb1更小为优化目标。根据上述优化函数,当训练文本zi与中心点cyi之间的余弦距离大于Δyi时,δi=1,该优化函数的优化目标实际上是δi(Δyi-cos(cyi,zi)),那么,为了使Lb1更小,可以增大边界Δyi。
基于上述Loss1和Lb1,在一种实现方式中,当训练文本的表示向量和类别标签的标签向量之间的相似度为余弦相似度时,步骤S102的总学习目标LOSS可以为:LOSS=Loss1+Lb1。
示例性地,当训练文本的表示向量和类别标签的标签向量之间的相似度为欧式距离时,优化函数具体可以为以下优化函数Lb2:
其中,N为训练文本的数量,Δyi为类别簇的决策边界,cyi为类别簇的中心点,zi为训练文本,||zi-cyi||2为训练文本zi与中心点cyi之间的欧式距离(即训练文本zi与其所属类别簇的中心点cyi的第一相似度)。该优化函数以使Lb2更小为优化目标。根据上述优化函数,当训练文本zi与中心点cyi之间的欧式距离大于Δyi时,δi=1,该优化函数的优化目标实际上是δi(||zi-cyi||2-Δyi),那么,为了使Lb2更小,可以增大边界Δyi。
基于上述Loss2和Lb2,在一种实现方式中,当训练文本的表示向量和类别标签的标签向量之间的相似度为欧氏距离时,步骤S102的总学习目标LOSS可以为:LOSS=Loss2+Lb2。
在一种实现方式中,在构造优化函数时,可以对第一相似度引入核函数,例如引入一个径向基核函数,径向基核函数能够将训练文本表示向量和类别标签的表示向量从低维空间映射到高维空间,并表示为向量内积,从而解决低维空间线性不可分的问题。因此,本申请实施例中,学习每个类别簇的决策边界,可以分为两种情况,一种是不引入核函数的情况,即构造了优化函数Lb1和损失函数Lb2,另一种是引入核函数的情况。下面对引入核函数的情况进行示例性说明。
示例性地,当训练文本的表示向量和类别标签的标签向量之间的相似度为余弦相似度时,如果对该余弦相似度引入核函数,那么优化函数具体可以为优化函数Lb3:
其中,N为训练文本的数量,Δyi为类别簇的决策边界,cyi为类别簇的中心点,zi为训练文本,exp(γ×cos2(cyi,zi))为训练文本zi与中心点cyi之间的余弦相似度的核函数(即训练文本zi与其所属类别簇的中心点cyi的第一相似度的核函数)。该优化函数以使Lb3更小为优化目标。根据上述优化函数,当训练文本zi与中心点cyi之间的余弦距离的核函数大于Δyi时,δi=1,该优化函数的优化目标实际上是δi(Δyi-exp(γ×cos2(cyi,zi))),那么,为了使Lb3更小,可以增大边界Δyi。
基于Loss3和Lb3,在一种实现方式中,对于引入核函数的情况,并且训练文本的表示向量和类别标签的标签向量之间的相似度为余弦相似度时,步骤S102的总学习目标LOSS可以为:LOSS=Loss3+Lb3。
示例性地,当训练文本的表示向量和类别标签的标签向量之间的相似度为欧式距离时,如果对该欧氏距离引入核函数,那么优化函数具体可以为优化函数Lb4:
其中,N为训练文本的数量,Δyi为类别簇的决策边界,cyi为类别簇的中心点,zi为训练文本,为cyi与zi的欧氏距离的核函数(即训练文本zi与其所属类别簇的中心点cyi的第一相似度的核函数)。该优化函数以使Lb4更小为优化目标。根据上述优化函数,当训练文本zi与中心点cyi之间的欧式距离大于Δyi时,δi=1,该优化函数的优化目标实际上是那么,为了使Lb4更小,可以增大边界Δyi。
需要补充说明的是,由于欧式距离与余弦相似度表示的意义相反,即:欧氏距离越大,表示相似度越小,欧氏距离越小,表示相似度越大;余弦相似度越大,表示相似度越大,余弦相似度越小,表示相似度越小。因此,Lb4中去除了γ之前的负号,使相似度意义表达一致。
基于Loss4和Lb4,在一种实现方式中,对于引入核函数的情况,并且训练文本的表示向量和类别标签的标签向量之间的相似度为欧氏距离时,步骤S102的总学习目标LOSS可以为:LOSS=Loss4+Lb4。
步骤S103,确定待分类文本是否位于全部类别簇的边界之外。
本申请实施例的步骤S103-步骤S105可以在文本分类的测试阶段或者生产阶段实现。
其中,在步骤S103中,待分类文本被输入到文本分类模型之后,文本分类模型可以分别计算待分类文本与每个类别标签的相似度,从而确定与待分类文本相似度最大的类别标签。另外,文本分类模型还可以根据待分类文本与各个类别簇的中心点之间的距离判断待分类文本是否位于全部类别簇的边界之外,以便于确定待分类文本是否属于未知意图。
步骤S104,如果待分类文本位于全部类别簇的边界之外,则待分类文本为未知类别。
当待分类文本位于全部类别簇的边界之外时,说明待分类文本不属于已知的任何一个类别,那么文本分类模型可以确定待分类文本属于未知类别,即未知意图。
步骤S105,如果待分类文本不位于全部类别簇的边界之外,则与待分类文本相似度最大的类别标签所对应的类别为待分类文本的类别。
当待分类文本不位于全部类别簇的边界之外时,说明待分类文本属于已知的类别,那么文本分类模型可以确定与待分类文本相似度最大的类别标签所对应的类别为待分类文本的类别。
图5是本申请实施例示出的待分类文本与类别簇的边界位置示意图。下面结合图5,对“待分类文本位于全部类别簇的边界之外”以及“待分类文本不位于全部类别簇的边界之外”的两种情况进行示例性说明。
如图5所示,文本分类模型中包括三个类别簇,分别为类别簇1、类别簇2和类别簇3。其中,类别簇1的类别标签为tag1、边界为B1、类别簇2的类别标签为tag2、边界为B2、类别簇3的类别标签为tag3、边界为B3。对于待分类文本text1来说,虽然其与类别标签tag1的相似度最大,但是由于分类文本text1位于全部类别簇的边界之外,因此分类文本text1不属于任何一个已知的类别,属于未知意图。对于待分类文本text2来说,其与类别标签tag2的相似度最大,并且其还在类别簇2的边界之内,因此类别标签为tag2对应的类别就是待分类文本text2的类别。
本申请实施例提供的文本分类方法,能够将同一个类别的文本聚类到一个类别簇中,并且通过一些自适应的学习算法确定各个类别簇的边界,这样,当有待分类文本位于全部类别簇的边界之外时,该方法能够将待分类文本识别为未知意图,解决了目前的分类模型无法识别未知意图,以及将未知意图的文本分类到错误的类别的问题。
上述各实施例对本申请提供的文本分类方法的各方案进行了介绍。可以理解的是,各个设备或模块为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各硬件及方法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
图6是本申请实施例提供的一种文本分类装置的结构示意图。如图6所示,该装置包括了用于实现本申请实施例提供的文本分类方法的硬件模块,包括:处理器210和存储器220,存储器220中包括程序指令230,当程序指令230被处理器210执行时,使该文本分类装置执行以下方法步骤:
获取训练文本的表示向量和类别标签的标签向量;
将训练文本向其对应的类别标签聚拢,以形成类别簇,并学习每个类别簇的决策边界;
确定待分类文本是否位于全部类别簇的决策边界之外;
如果待分类文本位于全部类别簇的边界之外,则待分类文本为未知类别;
如果待分类文本不位于全部类别簇的边界之外,则与待分类文本相似度最大的类别标签所对应的类别为待分类文本的类别。
本申请实施例提供的文本分类装置,能够将同一个类别的文本聚类到一个类别簇中,并且通过一些自适应的学习算法确定各个类别簇的边界,这样,当有待分类文本位于全部类别簇的边界之外时,该装置能够将待分类文本识别为未知意图,解决了目前的分类模型无法识别未知意图,以及将未知意图的文本分类到错误的类别的问题。
容易理解的是,本领域技术人员在本申请提供的几个实施例的基础上,可以对本申请的实施例进行结合、拆分、重组等得到其他实施例,这些实施例均没有超出本申请的保护范围。
以上的具体实施方式,对本申请实施例的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上仅为本申请实施例的具体实施方式而已,并不用于限定本申请实施例的保护范围,凡在本申请实施例的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本申请实施例的保护范围之内。
Claims (8)
1.一种文本分类方法,其特征在于,包括:
获取训练文本的表示向量和类别标签的标签向量;
获取各个所述训练文本与其所属类别簇的中心点的第一相似度,以及,获取各个所述训练文本与其他各个类别簇的中心点的第二相似度;
根据所述训练文本的数量、所述第一相似度、所述第二相似度构造损失函数;
所述第一相似度和所述第二相似度均为余弦相似度,所述损失函数具体为以下损失函数Loss1:
其中,N为训练文本的数量,zi为训练文本,cyi为zi所属类别簇的中心点,m为一个预设的参数,s为一个预设倍数,cj为其他类别簇的中心点,cos(cyi,zi)为cyi与zi的余弦相似度,cos(cj,zi)为cj与zi的余弦相似度;
或者,所述第一相似度和所述第二相似度均为欧氏距离,所述损失函数具体为以下损失函数Loss2:
其中,N为训练文本的数量,zi为训练文本,cyi为zi所属类别簇的中心点,m为一个预设的参数,s为一个预设倍数,cj为其他类别簇的中心点,||zi-cyi||2为cyi与zi的欧氏距离,||zi-cj||2为cj与zi的欧氏距离;
根据所述损失函数将所述训练文本向其对应的类别标签聚拢;
根据所述训练文本的数量、各个所述类别簇的决策边界与所述第一相似度的数值关系构造优化函数,所述数值关系包括所述第一相似度大于所述类别簇的决策边界,或者,所述第一相似度小于或等于所述类别簇的决策边界;
根据所述优化函数学习每个所述类别簇的决策边界;
所述第一相似度为余弦相似度,所述优化函数具体为以下优化函数Lb1:
其中,N为训练文本的数量,Δyi为类别簇的决策边界,cyi为类别簇的中心点,zi为训练文本,cos(cyi,zi)为训练文本zi与中心点cyi之间的余弦相似度;
基于上述Loss1和Lb1,当训练文本的表示向量和类别标签的标签向量之间的相似度为余弦相似度时,总学习目标LOSS为:LOSS=Loss1+Lb1;
或者,所述第一相似度为欧式距离,所述优化函数具体为以下优化函数Lb2:
其中,N为训练文本的数量,Δyi为类别簇的决策边界,cyi为类别簇的中心点,zi为训练文本,||zi-cyi||2为训练文本zi与中心点cyi之间的欧式距离;
基于上述Loss2和Lb2,当训练文本的表示向量和类别标签的标签向量之间的相似度为欧氏距离时,总学习目标LOSS为:LOSS=Loss2+Lb2;
确定待分类文本是否位于全部所述类别簇的决策边界之外;
如果所述待分类文本位于全部所述类别簇的边界之外,则所述待分类文本为未知类别;
如果所述待分类文本不位于全部所述类别簇的边界之外,则与所述待分类文本相似度最大的类别标签所对应的类别为所述待分类文本的类别。
2.根据权利要求1所述的方法,其特征在于,还包括:
在构造所述损失函数时,对所述第一相似度和所述第二相似度引入核函数。
3.根据权利要求1所述的方法,其特征在于,还包括:
在构造所述优化函数时,对所述第一相似度引入核函数。
8.一种文本分类装置,其特征在于,处理器和存储器,所述存储器中包括程序指令,当所述程序指令被所述处理器执行时,使所述文本分类装置执行以下方法步骤:
获取训练文本的表示向量和类别标签的标签向量;
获取各个所述训练文本与其所属类别簇的中心点的第一相似度,以及,获取各个所述训练文本与其他各个类别簇的中心点的第二相似度;
根据所述训练文本的数量、所述第一相似度、所述第二相似度构造损失函数;
所述第一相似度和所述第二相似度均为余弦相似度,所述损失函数具体为以下损失函数Loss1:
其中,N为训练文本的数量,zi为训练文本,cyi为zi所属类别簇的中心点,m为一个预设的参数,s为一个预设倍数,cj为其他类别簇的中心点,cos(cyi,zi)为cyi与zi的余弦相似度,cos(cj,zi)为cj与zi的余弦相似度;
或者,所述第一相似度和所述第二相似度均为欧氏距离,所述损失函数具体为以下损失函数Loss2:
其中,N为训练文本的数量,zi为训练文本,cyi为zi所属类别簇的中心点,m为一个预设的参数,s为一个预设倍数,cj为其他类别簇的中心点,||zi-cyi||2为cyi与zi的欧氏距离,||zi-cj||2为cj与zi的欧氏距离;
根据所述损失函数将所述训练文本向其对应的类别标签聚拢;
根据所述训练文本的数量、各个所述类别簇的决策边界与所述第一相似度的数值关系构造优化函数,所述数值关系包括所述第一相似度大于所述类别簇的决策边界,或者,所述第一相似度小于或等于所述类别簇的决策边界;
根据所述优化函数学习每个所述类别簇的决策边界;
所述第一相似度为余弦相似度,所述优化函数具体为以下优化函数Lb1:
其中,N为训练文本的数量,Δyi为类别簇的决策边界,cyi为类别簇的中心点,zi为训练文本,cos(cyi,zi)为训练文本zi与中心点cyi之间的余弦相似度;
基于上述Loss1和Lb1,当训练文本的表示向量和类别标签的标签向量之间的相似度为余弦相似度时,总学习目标LOSS为:LOSS=Loss1+Lb1;
或者,所述第一相似度为欧式距离,所述优化函数具体为以下优化函数Lb2:
其中,N为训练文本的数量,Δyi为类别簇的决策边界,cyi为类别簇的中心点,zi为训练文本,||zi-cyi||2为训练文本zi与中心点cyi之间的欧式距离;
基于上述Loss2和Lb2,当训练文本的表示向量和类别标签的标签向量之间的相似度为欧氏距离时,总学习目标LOSS为:LOSS=Loss2+Lb2;
确定待分类文本是否位于全部所述类别簇的决策边界之外;
如果所述待分类文本位于全部所述类别簇的边界之外,则所述待分类文本为未知类别;
如果所述待分类文本不位于全部所述类别簇的边界之外,则与所述待分类文本相似度最大的类别标签所对应的类别为所述待分类文本的类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111199675.XA CN113849653B (zh) | 2021-10-14 | 2021-10-14 | 一种文本分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111199675.XA CN113849653B (zh) | 2021-10-14 | 2021-10-14 | 一种文本分类方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113849653A CN113849653A (zh) | 2021-12-28 |
CN113849653B true CN113849653B (zh) | 2023-04-07 |
Family
ID=78978528
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111199675.XA Active CN113849653B (zh) | 2021-10-14 | 2021-10-14 | 一种文本分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113849653B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114596913B (zh) * | 2022-02-25 | 2023-03-31 | 河南大学 | 基于深度中心点模型的蛋白质折叠识别方法及系统 |
CN116049412B (zh) * | 2023-03-31 | 2023-07-14 | 腾讯科技(深圳)有限公司 | 文本分类方法、模型训练方法、装置及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106886213A (zh) * | 2017-03-13 | 2017-06-23 | 北京化工大学 | 一种基于核相似度支持向量数据描述的间歇过程故障检测方法 |
CN110929761A (zh) * | 2019-10-30 | 2020-03-27 | 南京理工大学 | 智能系统安全体系态势感知构架中采集样本的平衡方法 |
WO2020075485A1 (ja) * | 2018-10-11 | 2020-04-16 | 富士フイルム株式会社 | データ処理装置、方法、プログラム、及びシステム |
CN111401196A (zh) * | 2020-03-10 | 2020-07-10 | 珠海全志科技股份有限公司 | 受限空间内自适应人脸聚类的方法、计算机装置及计算机可读存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105894023A (zh) * | 2016-03-31 | 2016-08-24 | 华东理工大学 | 基于聚簇的支持向量数据描述改进算法 |
CN110969172A (zh) * | 2018-09-28 | 2020-04-07 | 武汉斗鱼网络科技有限公司 | 一种文本的分类方法以及相关设备 |
CN111914903B (zh) * | 2020-07-08 | 2022-10-25 | 西安交通大学 | 一种基于外分布样本检测的广义零样本目标分类方法、装置及相关设备 |
CN112884065B (zh) * | 2021-03-12 | 2024-02-13 | 浙江工业大学 | 一种基于支持向量机的深度学习模型鲁棒边界评估方法、装置和应用 |
CN113344031B (zh) * | 2021-05-13 | 2022-12-27 | 清华大学 | 一种文本分类方法 |
-
2021
- 2021-10-14 CN CN202111199675.XA patent/CN113849653B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106886213A (zh) * | 2017-03-13 | 2017-06-23 | 北京化工大学 | 一种基于核相似度支持向量数据描述的间歇过程故障检测方法 |
WO2020075485A1 (ja) * | 2018-10-11 | 2020-04-16 | 富士フイルム株式会社 | データ処理装置、方法、プログラム、及びシステム |
CN110929761A (zh) * | 2019-10-30 | 2020-03-27 | 南京理工大学 | 智能系统安全体系态势感知构架中采集样本的平衡方法 |
CN111401196A (zh) * | 2020-03-10 | 2020-07-10 | 珠海全志科技股份有限公司 | 受限空间内自适应人脸聚类的方法、计算机装置及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113849653A (zh) | 2021-12-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102071582B1 (ko) | 딥 뉴럴 네트워크(Deep Neural Network)를 이용하여 문장이 속하는 클래스(class)를 분류하는 방법 및 장치 | |
CN111753060B (zh) | 信息检索方法、装置、设备及计算机可读存储介质 | |
CN110427461B (zh) | 智能问答信息处理方法、电子设备及计算机可读存储介质 | |
CN113849653B (zh) | 一种文本分类方法及装置 | |
CN112800292B (zh) | 一种基于模态特定和共享特征学习的跨模态检索方法 | |
CN112732872B (zh) | 面向生物医学文本的基于主题注意机制的多标签分类方法 | |
CN109582963A (zh) | 一种基于极限学习机的档案自动分类方法 | |
CN115130538A (zh) | 文本分类模型的训练方法、文本处理的方法、设备及介质 | |
CN114444476B (zh) | 信息处理方法、装置和计算机可读存储介质 | |
CN115588193A (zh) | 基于图注意力神经网络与视觉关系的视觉问答方法及装置 | |
CN113298253B (zh) | 用于命名实体识别的模型训练方法、识别方法及装置 | |
CN112668633B (zh) | 一种基于细粒度领域自适应的图迁移学习方法 | |
CN117494051A (zh) | 一种分类处理的方法、模型训练的方法以及相关装置 | |
CN113722477B (zh) | 基于多任务学习的网民情绪识别方法、系统及电子设备 | |
CN114840680A (zh) | 一种实体关系联合抽取方法、装置、存储介质及终端 | |
Hong et al. | Representing prior knowledge using randomly, weighted feature networks for visual relationship detection | |
CN114398482A (zh) | 一种词典构造方法、装置、电子设备及存储介质 | |
Huang et al. | Learning emotion recognition and response generation for a service robot | |
CN113821632A (zh) | 内容分类方法、装置、电子设备和计算机可读存储介质 | |
NA et al. | A stacked ensemble technique with glove embedding model for depression detection from tweets | |
CN117611845B (zh) | 多模态数据的关联识别方法、装置、设备及存储介质 | |
Üstünkök et al. | Image Tag Refinement with Self Organizing Maps | |
CN117390497B (zh) | 基于大语言模型的类目预测方法、装置和设备 | |
Hasan | Automatic emotion detection in text messages using supervised learning | |
CN114756678A (zh) | 一种未知意图文本的识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |