CN113722486A - 基于小样本的意图分类方法、装置、设备及存储介质 - Google Patents
基于小样本的意图分类方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113722486A CN113722486A CN202111015066.4A CN202111015066A CN113722486A CN 113722486 A CN113722486 A CN 113722486A CN 202111015066 A CN202111015066 A CN 202111015066A CN 113722486 A CN113722486 A CN 113722486A
- Authority
- CN
- China
- Prior art keywords
- sample
- intention
- samples
- text
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000012549 training Methods 0.000 claims abstract description 73
- 238000013145 classification model Methods 0.000 claims abstract description 53
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 28
- 238000012545 processing Methods 0.000 claims description 30
- 238000002372 labelling Methods 0.000 claims description 27
- 230000006870 function Effects 0.000 claims description 18
- 239000013598 vector Substances 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 5
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及人工智能领域,公开了一种基于小样本的意图分类方法、装置、设备及存储介质。该方法包括:获取电话语音中的文本样本并识别不均衡的目标样本;基于目标样本采用密度聚类算法生成新的目标样本,将新的目标样本和文本样本组成训练样本集;将训练样本集分批输入预构建好的意图分类模型中,获取每批次的训练样本数量以及待分类意图类别数量并计算损失函数,采用损失函数对意图分类模型进行训练,基于反向传播算法调整意图分类模型的参数,得到目标意图分类模型;获取待测文本样本,基于目标意图分类模型识别待测文本样本的意图类别。通过上述方式,本发明能够解决少样本数据不均衡,导致训练得到的意图分类模型对客户意图识别的准确率低。
Description
技术领域
本发明涉及人工智能的自然语言技术领域,特别是涉及一种基于小样本的意图分类方法、装置、设备及存储介质。
背景技术
对话意图识别是通过理解人与人之间的聊天语料信息,对文本中的意图特征进行检索、过滤和分类等,最终识别出用户对话所包含的目的甚至情感,意图识别的核心是对语义的理解。基于机器学习的对话意图识别方法包括基于规则和统计的对话意图识别,基于机器学习分类器的对话意图识别以及基于生成式模型的对话意图识别等。
在电话销售中基于机器学习分类器的对话意图识别是否准确影响着后续业务的展开,同时对客户的用户体验也十分重要。在不同的业务场景和不同的业务节点中,客户的意图分布往往呈现出一种不均衡的状态。在业务刚启动时,往往要面临数据样本规模较小,某些类别意图数量也少的情况。在这种情况下,某些类别意图中少量的样本数量就会和其他类别的数量产生很大的差距,满足不了意图识别模型训练的样本均衡的要求,导致模型分类错误,后续很难进行有效的意图分类,进而导致电话销售人员不能准确识别客户的意图,影响沟通体验,不能达到精准销售的效果。
发明内容
本发明提供一种基于小样本的意图分类方法、装置、设备及存储介质,能够解决少样本数据不均衡,导致训练得到的意图分类模型对客户意图识别的准确率低的问题。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种基于小样本的意图分类方法,包括:
获取电话语音中的文本样本,对所述文本样本进行标注处理,根据标注处理结果识别所述文本样本的意图类别,将不均衡意图类别的文本样本识别为目标样本;
采用密度聚类算法将所述目标样本划分为多个样本簇;
重复执行从不同的所述样本簇中随机选取子样本,每次选取所述子样本后将选取出的所述子样本按照预设策略进行融合以生成新的目标样本,根据新的目标样本和所述文本样本形成训练样本集;
将所述训练样本集分批输入预构建好的意图分类模型中,获取每批次的训练样本数量以及待分类意图类别数量并根据所述训练样本数量以及所述待分类意图类别数量计算损失函数,采用所述损失函数对所述意图分类模型进行训练,基于反向传播算法调整所述意图分类模型的参数,得到目标意图分类模型;
获取待测文本样本,将所述待测文本样本输入所述目标意图分类模型中,得到所述待测文本样本的意图类别。
根据本发明的一个实施例,获取电话语音中的文本样本,对所述文本样本进行标注处理,根据标注处理结果识别所述文本样本的意图类别,将不均衡意图类别的文本样本识别为目标样本的步骤还包括:
获取电话语音中的文本样本,基于Bert模型对各个所述文本样本进行特征提取,根据特征提取结果融合全文语义信息并将每个文本样本的句向量作为输出;
采用one-hot编码对每个所述文本样本进行标注处理;
根据标注处理结果识别每个所述文本样本的意图类别,根据识别结果对每个所述文本样本进行分类处理,统计每个所述意图类别下的文本样本数量;
根据统计结果确定不均衡意图类别与均衡意图类别,提取所述不均衡意图类别中的文本样本并识别为目标样本。
根据本发明的一个实施例,重复执行从不同的所述样本簇随机选取子样本,每次选取所述子样本后将选取出的所述子样本按照预设策略进行融合以生成新的目标样本,根据新的目标样本和所述文本样本形成训练样本集的步骤还包括:
根据所述不均衡意图类别的文本样本数量和所述均衡意图类别的文本样本数量确定所述目标样本需均衡的数量;
随机选取两个不同的所述样本簇并从选取的所述样本簇中各随机选取一个子样本,将选取出的两个所述子样本按照预设策略生成新的目标样本;
重复执行上述生成新的目标样本的步骤获取多个新的目标样本直至新的目标样本的数量达到所述目标样本需均衡的数量为止;
根据新的目标样本和所述文本样本形成训练样本集。
根据本发明的一个实施例,所述预设策略按照如下公式进行:
xnew=xa+ρ(xb-xa),其中,xnew为新的目标样本,xa和xb为两个不同的样本簇中所选取的子样本,ρ为随机系数,取值为(0,1)。
根据本发明的一个实施例,采用密度聚类算法将所述目标样本划分为多个样本簇的步骤还包括:
以每个所述目标样本为圆心按照预设半径划分圆圈区域;
对所述圆圈区域所包含的所述目标样本进行计数,根据计数结果确定核心目标样本;
遍历所有所述目标样本,提取所述核心目标样本密度可达的所述目标样本以形成样本簇。
根据本发明的一个实施例,所述损失函数按照如下公式进行计算:
其中,Nbatch为每批次的训练样本数量,Nres为待分类意图类别数量,yi为训练样本的标注处理结果,yij为yi向量第j个位置的取值,Resi为意图分类模型输出的意图类别,Resij为Resi向量第j个位置的取值,γ和α为预设值。
根据本发明的一个实施例,获取待测文本样本,将所述待测文本样本输入所述目标意图分类模型中,得到所述待测文本样本的意图类别的步骤还包括:
从所述待测文本样本中提取意图特征并对所述意图特征进行学习;
基于学习结果对所述待测文本样本进行分类预测;
通过归一化处理将分类预测结果转换为意图类别概率分布;
根据意图类别概率分布识别所述待测文本样本的意图类别并输出。
为解决上述技术问题,本发明采用的另一个技术方案是:提供一种基于小样本意图分类装置,包括:
获取模块,用于获取电话语音中的文本样本,对所述文本样本进行标注处理,根据标注处理结果识别所述文本样本的意图类别,将不均衡意图类别的文本样本识别为目标样本;
划分模块,用于采用密度聚类算法将所述目标样本划分为多个样本簇;
生成模块,用于重复执行从不同的所述样本簇中随机选取子样本,每次选取所述子样本后将选取出的所述子样本按照预设策略进行融合以生成新的目标样本,根据新的目标样本和所述文本样本形成训练样本集;
训练模块,用于将所述训练样本集分批输入预构建好的意图分类模型中,获取每批次的训练样本数量以及待分类意图类别数量并根据所述训练样本数量以及所述待分类意图类别数量计算损失函数,采用所述损失函数对所述意图分类模型进行训练,基于反向传播算法调整所述意图分类模型的参数,得到目标意图分类模型;
识别模块,用于获取待测文本样本,将所述待测文本样本输入所述目标意图分类模型中,得到所述待测文本样本的意图类别。
为解决上述技术问题,本发明采用的再一个技术方案是:提供一种计算机设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的基于小样本的意图分类方法。
为解决上述技术问题,本发明采用的再一个技术方案是:提供一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述基于小样本的意图分类方法。
本发明的有益效果是:通过使用密度聚类算法增加数量较少的意图类别的文本样本的数量,解决少样本数据不均衡,导致训练得到的意图分类模型对客户意图识别的准确率低问题,有效提高意图分类模型识别客户意图的准确性,从而使电话销售人员能够准确识别客户的意图,提高电话销售精准度,提高沟通体验,降低沟通成本。
附图说明
图1是本发明实施例的基于小样本的意图分类方法的流程示意图;
图2是本发明实施例中基于小样本的意图分类方法的步骤S101的流程示意图;
图3是本发明实施例中基于小样本的意图分类方法的步骤S102的流程示意图;
图4是本发明实施例中基于小样本的意图分类方法的步骤S103的流程示意图;
图5是本发明实施例的目标意图分类模型的结构示意图;
图6是本发明实施例的基于小样本的意图分类方法的步骤S105的流程示意图;
图7是本发明实施例的基于小样本的意图分类装置的结构示意图;
图8是本发明实施例的计算机设备的结构示意图;
图9是本发明实施例的计算机存储介质的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明中的术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
图1是本发明第一实施例的基于小样本的意图分类方法的流程示意图。需注意的是,若有实质上相同的结果,本发明的方法并不以图1所示的流程顺序为限。如图1所示,该方法包括步骤:
步骤S101:获取电话语音中的文本样本,对文本样本进行标注处理,根据标注处理结果识别文本样本的意图类别,将不均衡意图类别的文本样本识别为目标样本。
在步骤S101中,将电话销售人员与客户沟通交流的语音信息解析为文本信息。若文本样本的总数量不能满足模型训练的数量要求,认为存在少样本问题,识别各个文本样本的意图类别。当各个意图类别下的文本样本数量相差比较大时,认为存在数据不均衡问题,将文本样本数量偏离度较大的意图类别归为不均衡意图类别,将文本样本数量正常的意图类别归为均衡意图类别,有必要通过增加不均衡的意图类别的文本样本数量从而解决数据不均衡问题,同时也增加了后续训练模型的文本样本数量,解决训练样本数量不能满足模型训练的要求的问题。
进一步地,本实施例通过人工方式对每个文本样本进行标注,根据标注结果识别每个文本样本的意图类别,进而统计每个意图类别下的文本样本数量,将文本样本数量相差较大的意图类别确定为不均衡意图类别,不均衡意图类别的文本样本为目标样本。
在电话销售场景中,将每个文本样本按照标注识别出客户意向购买的产品类别即为意图类别,假设有80个文本样本识别出客户意向购买的产品A,100个文本样本识别出客户意向购买的产品B,400个文本样本识别出客户意向购买的产品C,500个文本样本识别出客户意向购买的产品D,则认为产品A和产品B是不均衡意图类别,产品C和产品D为均衡意图类别。
进一步地,请参见图2,步骤S101还包括以下步骤:
步骤S201:获取电话语音中的文本样本,基于Bert模型对各个文本样本进行特征提取,根据特征提取结果融合全文语义信息并将每个文本样本的句向量作为输出。
在步骤S201中,Bert模型利用大规模无标注预料进行训练,获得文本样本的包含丰富语义信息的语义表示。Bert模型将文本样本中的词向量作为输入,在文本样本前插入一个[CLS]字符,将该字符对应融合了全文语义信息后的输出向量作为每个文本样本的句向量。
步骤S202:采用one-hot编码对每个文本样本进行标注处理。
在步骤S202中,one-hot编码一般在有监督学习中对数据集进行标注时使用。本实施例从文本样本中提取类别特征,采用one-hot编码对类别特征进行编码处理,例如:本实施例的一个文本样本为(X,Y),X为文本样本的句向量,若提取的类别特征有5个,对应的意图类别有5个,则Y有5种取值,那么Y为第一类的one-hot编码为[1,0,0,0,0],即存在该类别特征的位置上进行标记为“1”,其它位置皆为“0”。
步骤S203:根据标注处理结果识别每个文本样本的意图类别,根据识别结果对每个文本样本进行分类处理,统计每个意图类别下的文本样本数量。
步骤S204:根据统计结果确定不均衡意图类别与均衡意图类别,提取不均衡意图类别中的文本样本并识别为目标样本。
在步骤S204中,本实施例根据步骤S203的统计结果将文本样本数量偏离度较大的意图类别归为不均衡意图类别,将文本样本数量正常的意图类别归为均衡意图类别。本实施例在文本样本总数量较少的情况下,认为所有不均衡意图类别均为样本数量不足,暂不考虑样本数量过多的情况,因此,本实施例对所有不均衡意图类别均需通过增加样本数量来实现数据均衡。本实施例将需要均衡的文本样本确定为目标样本,并获取目标样本需要增加的数量,通过目标样本达到需要均衡的数量以达到数据均衡的目的。
步骤S102:采用密度聚类算法将目标样本划分为多个样本簇。
在步骤S102中,密度聚类算法假设聚类结构能够通过样本分布的紧密程度确定,以数据集在空间分布上的稠密程度为依据进行聚类,即只要一个区域中的样本密度大于某个阈值,就把它划入与之相近的簇中。密度聚类算法包括DBSCAN算法、MDCA算法、OPTICS算法、DENCLUE算法。以DBSCAN算法为例,DBSCAN算法不需要事先给定簇的数目;适于稠密的非凸数据集,可以发现任意形状的簇;可以在聚类时发现噪音点、对数据集中的异常点不敏感;对样本输入顺序不敏感。
进一步地,DBSCAN算法选择其中一个核心目标样本作为种子,创建一个样本簇并找出样本簇中所有的核心目标样本,寻找合并核心目标样本密度可达的目标样本,直到所有核心目标样本均被访问过为止。DBSCAN的簇中可以少包含一个核心目标样本:如果只有一个核心目标样本,则其他非核心目标样本都落在核心目标样本的ε-邻域内;如果有多个核心目标样本,则任意一个核心目标样本的ε-邻域内至少有一个其他核心目标样本,否则这两个核心目标样本无法密度可达;包含过少目标样本的样本簇可以被认为是噪音。
进一步地,请参见图3,步骤S102还包括以下步骤:
步骤S301:以每个目标样本为圆心按照预设半径划分圆圈区域。
在步骤S301中,以每一个目标样本xi为圆心,以eps为半径画圆圈区域,圆圈区域被称为xi的eps邻域。
步骤S302:对圆圈区域所包含的目标样本进行计数,根据计数结果确定核心目标样本。
在步骤S302中,如果一个圆圈区域里面所包含的目标样本的数目超过了密度阈值,那么将该圆圈区域的圆心对应的目标样本记为核心目标样本。如果某个圆圈区域内的目标样本的个数小于密度阈值但是落在核心目标样本的邻域内,则称该圆圈区域的圆心对应的目标样本为边界目标样本。若一个目标样本既不是核心目标样本也不是边界目标样本,则属于噪声。
步骤S303:遍历所有目标样本,提取核心目标样本密度可达的目标样本以形成样本簇。
在步骤S303中,核心目标样本邻域内的所有的目标样本都是核心目标样本的直接密度直达。密度直达具有传递性,通过目标样本的密度直达能够推导出密度可达的目标样本,将密度可达的目标样本进行连接以形成以核心目标样本为中心的样本簇。
步骤S103:重复执行从不同的样本簇中随机选取子样本,每次选取子样本后将选取出的子样本按照预设策略进行融合以生成新的目标样本,根据新的目标样本和文本样本形成训练样本集。
在步骤S103中,根据不均衡意图类别的文本样本数量和均衡意图类别的文本样本数量确定目标样本需均衡的数量,目标样本需要增加的数量为均衡意图类别的文本样本数量与不均衡意图类别的文本样本数量的差值。
进一步地,请参见图4,步骤S103还包括以下步骤:
步骤S401:根据不均衡意图类别的文本样本数量和均衡意图类别的文本样本数量确定目标样本需均衡的数量;
步骤S402:随机选取两个不同的样本簇并从选取的样本簇中各随机选取一个子样本,将选取出的两个子样本按照预设策略生成新的目标样本;
步骤S403:重复执行上述步骤S402获取多个新的目标样本直至新的目标样本的数量达到目标样本需均衡的数量为止;
步骤S404:根据新的目标样本和文本样本形成训练样本集。
假设步骤S102划分得到N个样本簇,从N个样本簇中随机选取两个不用的样本簇A、B,从样本簇A中随机选取一个子样本xa,从样本簇B中随机选取一个子样本xb,同时生成一个随机系数ρ,则预设策略按照如下公式进行:xnew=xa+ρ(xb-xa),其中,xnew为新的目标样本,xa和xb为两个不同的样本簇中所选取的子样本,ρ为随机系数,取值为(0,1)。
进一步地,训练样本集包括多个训练样本,训练样本包括原本无需均衡的文本样本以及均衡后新增的目标样本。假如该不均衡意图类别需增加M个新的目标样本,则步骤S402重复执行M次,获得M个新的目标样本,其他不均衡的意图类别按照上述方式进行新的目标样本生成以增加样本数量,从而解决数据均衡问题。将所有不均衡的意图类别新增的目标样本和原本无需均衡的文本样本组成训练样本集。本实施例的训练样本集按照如下方式表示:
Data={Xk=(xk,yk)|k=1,2,3,4,…,n},其中,xk表示第k个训练样本的句向量;yk为第k个训练样本的标注处理结果,即标注标签,向量大小为1×Nres,Nres为待分类意图类别的数量。xk的向量维度为1×768。例如:待分类意图类别的数量为10,则Nres110,x11(1,0,0,0,0,0,0,0,0,0),则y111,表示第一个训练样本的意图类别为第一个类别。
步骤S104:将训练样本集分批输入预构建好的意图分类模型中,获取每批次的训练样本数量以及待分类意图类别数量并根据每批次的训练样本数量以及待分类意图类别数量计算损失函数,采用损失函数对意图分类模型进行训练,基于反向传播算法调整意图分类模型的参数,得到目标意图分类模型。
在步骤S104中,将训练样本集中的训练样本划分成多个批次并逐个批次输入基于人工智能分类算法的意图分类模型中,获取每批次的训练样本数量以及待分类意图类别数量并根据每批次的训练样本数量以及待分类意图类别数量计算损失函数,损失函数按照如下公式进行计算:
其中,Nbatch为输入批次的训练样本数量,Nres为待分类意图类别数量,yi为训练样本的真实标签,yij为yi向量第j个位置的取值,Resi为意图分类模型输出的意图类别,Resij为Resi向量第j个位置的取值,γ和α为预设值,具体地,γ取2,α取0.25。
本实施例通过调整损失函数中的错分类权重,利用反向传播算法以及梯度下降法反向调整模型的参数,有效提高了不均衡样本的模型进行意图类别分类的准确性。
步骤S105:获取待测文本样本,将待测文本样本输入目标意图分类模型中,得到待测文本样本的意图类别。
在步骤S105中,请参见图5,目标意图分类模型50的结构包括依次拼接GRU层51、第一Dense层52、第二Dense层53和Softmax层54,目标意图分类模型50输入的训练样本Xk的特征大小为Nbatch×1×768,Nbatch为输入批次的训练样本数量,GRU层51用于从训练样本Xk中提取意图特征,GRU层51的输出的特征大小为Nbatch×128,第一Dense层52用于对意图特征进行学习,第一Dense层52输出的特征大小为Nbatch×512,第二Dense层53用于基于学习结果对训练样本Xk进行分类预测,第二Dense层53输出的特征大小为Nbatch×Nres,Softmax层54用于通过归一化处理将分类预测结果转换为意图类别概率分布,Softmax层54输出的特征大小为Nbatch×Nres,目标意图分类模型50最终输出Res={Resi|i=1,2,3,…,Nbatch},Resi的大小为1×Nres,Nres为待分类意图类别的数量。
进一步地,请参见图6,步骤S105还包括以下步骤:
步骤S601:从待测文本样本中提取意图特征并对意图特征进行学习;
步骤S602:基于学习结果对待测文本样本进行分类预测;
步骤S603:通过归一化处理将分类预测结果转换为意图类别概率分布;
步骤S604:根据意图类别概率分布识别待测文本样本的意图类别并输出。
在本实施例中,通过归一化处理将分类预测结果转换为意图类别概率分布之后,选择最大意图类别概率与预设阈值进行比较,最大意图类别概率若超过预设阈值,则将最大意图类别概率对应的意图类别作为训练样本的意图识别结果并输出。
在电话销售场景中,通过目标意图分类模型识别客户意向购买产品C,则销售人员可以针对产品C进行详细介绍,让客户更加了解产品C优点,进一步增强客户的购买欲望;若通过目标意图分类模型识别客户意向购买的并非产品C,销售人员可以及时调整销售策略,向客户介绍感兴趣的产品,以达到精准销售的效果。
本发明实施例的基于小样本的意图分类方法通过使用密度聚类算法增加数量较少的意图类别的文本样本的数量,解决少样本数据不均衡,导致训练得到的意图分类模型对客户意图识别的准确率低问题,通过调整损失函数中的错分类权重,有效提高意图分类模型识别客户意图的准确性,从而使电话销售人员能够准确识别客户的意图,提高电话销售精准度,提高沟通体验,降低沟通成本。
图7是本发明实施例的基于小样本的意图分装置的结构示意图。如图7所示,该装置70包括获取模块71、划分模块72、生成模块73、训练模块74和识别模块75。
获取模块71用于获取电话语音中的文本样本,对文本样本进行标注处理,根据标注处理结果识别文本样本的意图类别,将不均衡意图类别的文本样本识别为目标样本。
划分模块72用于采用密度聚类算法将目标样本划分为多个样本簇。
生成模块73用于重复执行从不同的样本簇中随机选取子样本,每次选取子样本后将选取出的子样本按照预设策略进行融合以生成新的目标样本,根据新的目标样本和文本样本形成训练样本集。
训练模块74用于将训练样本集分批输入预构建好的意图分类模型中,获取每批次的训练样本数量以及待分类意图类别数量并根据每批次的训练样本数量以及待分类意图类别数量计算损失函数,采用损失函数对所述意图分类模型进行训练,基于反向传播算法调整意图分类模型的参数,得到目标意图分类模型。
识别模块75用于获取待测文本样本,将待测文本样本输入目标意图分类模型中,得到待测文本样本的意图类别。
请参阅图8,图8为本发明实施例的计算机设备的结构示意图。如图8所示,该计算机设备80包括处理器81及和处理器81耦接的存储器82。
存储器82存储有用于实现上述任一实施例所述的基于小样本意图分类方法的程序指令。
处理器81用于执行存储器82存储的程序指令以识别客户意图。
其中,处理器81还可以称为CPU(Central Processing Unit,中央处理单元)。处理器81可能是一种集成电路芯片,具有信号的处理能力。处理器81还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
参阅图9,图9为本发明实施例的计算机存储介质的结构示意图。本发明实施例的计算机存储介质存储有能够实现上述所有方法的程序文件91,其中,该程序文件91可以以软件产品的形式存储在上述计算机存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施方式所述方法的全部或部分步骤。而前述的计算机存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等终端设备。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上仅为本发明的实施方式,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种基于小样本的意图分类方法,其特征在于,包括:
获取电话语音中的文本样本,对所述文本样本进行标注处理,根据标注处理结果识别所述文本样本的意图类别,将不均衡意图类别的文本样本识别为目标样本;
采用密度聚类算法将所述目标样本划分为多个样本簇;
重复执行从不同的所述样本簇中随机选取子样本,每次选取所述子样本后将选取出的所述子样本按照预设策略进行融合以生成新的目标样本,根据新的目标样本和所述文本样本形成训练样本集;
将所述训练样本集分批输入预构建好的意图分类模型中,获取每批次的训练样本数量以及待分类意图类别数量并根据所述训练样本数量以及所述待分类意图类别数量计算损失函数,采用所述损失函数对所述意图分类模型进行训练,基于反向传播算法调整所述意图分类模型的参数,得到目标意图分类模型;
获取待测文本样本,将所述待测文本样本输入所述目标意图分类模型中,得到所述待测文本样本的意图类别。
2.根据权利要求1所述的意图分类方法,其特征在于,获取电话语音中的文本样本,对所述文本样本进行标注处理,根据标注处理结果识别所述文本样本的意图类别,将不均衡意图类别的文本样本识别为目标样本的步骤还包括:
获取电话语音中的文本样本,基于Bert模型对各个所述文本样本进行特征提取,根据特征提取结果融合全文语义信息并将每个文本样本的句向量作为输出;
采用one-hot编码对每个所述文本样本进行标注处理;
根据标注处理结果识别每个所述文本样本的意图类别,根据识别结果对每个所述文本样本进行分类处理,统计每个所述意图类别下的文本样本数量;
根据统计结果确定不均衡意图类别与均衡意图类别,提取所述不均衡意图类别中的文本样本并识别为目标样本。
3.根据权利要求2所述的意图分类方法,其特征在于,重复执行从不同的所述样本簇随机选取子样本,每次选取所述子样本后将选取出的所述子样本按照预设策略进行融合以生成新的目标样本,根据新的目标样本和所述文本样本形成训练样本集的步骤还包括:
根据所述不均衡意图类别的文本样本数量和所述均衡意图类别的文本样本数量确定所述目标样本需均衡的数量;
随机选取两个不同的所述样本簇并从选取的所述样本簇中各随机选取一个子样本,将选取出的两个所述子样本按照预设策略生成新的目标样本;
重复执行上述生成新的目标样本的步骤获取多个新的目标样本直至新的目标样本的数量达到所述目标样本需均衡的数量为止;
根据新的目标样本和所述文本样本形成训练样本集。
4.根据权利要求3所述的意图分类方法,其特征在于,所述预设策略按照如下公式进行:
xnew=xa+ρ(xb-xa),其中,xnew为新的目标样本,xa和xb为两个不同的样本簇中所选取的子样本,ρ为随机系数,取值为(0,1)。
5.根据权利要求1所述的意图分类方法,其特征在于,采用密度聚类算法将所述目标样本划分为多个样本簇的步骤还包括:
以每个所述目标样本为圆心按照预设半径划分圆圈区域;
对所述圆圈区域所包含的所述目标样本进行计数,根据计数结果确定核心目标样本;
遍历所有所述目标样本,提取所述核心目标样本密度可达的所述目标样本以形成样本簇。
7.根据权利要求1所述的意图分类方法,其特征在于,获取待测文本样本,将所述待测文本样本输入所述目标意图分类模型中,得到所述待测文本样本的意图类别的步骤还包括:
从所述待测文本样本中提取意图特征并对所述意图特征进行学习;
基于学习结果对所述待测文本样本进行分类预测;
通过归一化处理将分类预测结果转换为意图类别概率分布;
根据意图类别概率分布识别所述待测文本样本的意图类别并输出。
8.一种基于小样本的意图分类装置,其特征在于,包括:
获取模块,用于获取电话语音中的文本样本,对所述文本样本进行标注处理,根据标注处理结果识别所述文本样本的意图类别,将不均衡意图类别的文本样本识别为目标样本;
划分模块,用于采用密度聚类算法将所述目标样本划分为多个样本簇;
生成模块,用于重复执行从不同的所述样本簇中随机选取子样本,每次选取所述子样本后将选取出的所述子样本按照预设策略进行融合以生成新的目标样本,根据新的目标样本和所述文本样本形成训练样本集;
训练模块,用于将所述训练样本集分批输入预构建好的意图分类模型中,获取每批次的训练样本数量以及待分类意图类别数量并根据所述训练样本数量以及所述待分类意图类别数量计算损失函数,采用所述损失函数对所述意图分类模型进行训练,基于反向传播算法调整所述意图分类模型的参数,得到目标意图分类模型;
识别模块,用于获取待测文本样本,将所述待测文本样本输入所述目标意图分类模型中,得到所述待测文本样本的意图类别。
9.一种计算机设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-7任一项所述的基于小样本的意图分类方法。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的基于小样本的意图分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111015066.4A CN113722486A (zh) | 2021-08-31 | 2021-08-31 | 基于小样本的意图分类方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111015066.4A CN113722486A (zh) | 2021-08-31 | 2021-08-31 | 基于小样本的意图分类方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113722486A true CN113722486A (zh) | 2021-11-30 |
Family
ID=78680099
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111015066.4A Pending CN113722486A (zh) | 2021-08-31 | 2021-08-31 | 基于小样本的意图分类方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113722486A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117494866A (zh) * | 2023-09-01 | 2024-02-02 | 华中科技大学 | 基于循环神经网络的交通事故严重程度预测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190251417A1 (en) * | 2018-02-12 | 2019-08-15 | Microsoft Technology Licensing, Llc | Artificial Intelligence System for Inferring Grounded Intent |
CN111475652A (zh) * | 2020-05-22 | 2020-07-31 | 支付宝(杭州)信息技术有限公司 | 数据挖掘的方法和系统 |
CN112989035A (zh) * | 2020-12-22 | 2021-06-18 | 平安普惠企业管理有限公司 | 基于文本分类识别用户意图的方法、装置及存储介质 |
-
2021
- 2021-08-31 CN CN202111015066.4A patent/CN113722486A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190251417A1 (en) * | 2018-02-12 | 2019-08-15 | Microsoft Technology Licensing, Llc | Artificial Intelligence System for Inferring Grounded Intent |
CN111712834A (zh) * | 2018-02-12 | 2020-09-25 | 微软技术许可有限责任公司 | 用于推断现实意图的人工智能系统 |
CN111475652A (zh) * | 2020-05-22 | 2020-07-31 | 支付宝(杭州)信息技术有限公司 | 数据挖掘的方法和系统 |
CN112989035A (zh) * | 2020-12-22 | 2021-06-18 | 平安普惠企业管理有限公司 | 基于文本分类识别用户意图的方法、装置及存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117494866A (zh) * | 2023-09-01 | 2024-02-02 | 华中科技大学 | 基于循环神经网络的交通事故严重程度预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11282295B2 (en) | Image feature acquisition | |
CN106651057B (zh) | 一种基于安装包序列表的移动端用户年龄预测方法 | |
CN108763325A (zh) | 一种网络对象处理方法及装置 | |
CN109241525B (zh) | 关键词的提取方法、装置和系统 | |
CN112784066B (zh) | 基于知识图谱的信息反馈方法、装置、终端和存储介质 | |
CN110827797B (zh) | 语音应答事件分类处理方法和装置 | |
US8793201B1 (en) | System and method for seeding rule-based machine learning models | |
CN107291774B (zh) | 错误样本识别方法和装置 | |
CN113449084A (zh) | 基于图卷积的关系抽取方法 | |
CN116226785A (zh) | 目标对象识别方法、多模态识别模型的训练方法和装置 | |
CN114706945A (zh) | 意图识别方法、装置、电子设备及存储介质 | |
CN113722486A (zh) | 基于小样本的意图分类方法、装置、设备及存储介质 | |
CN111062490A (zh) | 一种包含隐私数据的网络数据的处理方法及装置 | |
CN114357184A (zh) | 事项推荐方法及相关装置、电子设备和存储介质 | |
CN112307199A (zh) | 信息识别、数据处理方法、装置及设备、信息交互方法 | |
CN109727091A (zh) | 基于对话机器人的产品推荐方法、装置、介质及服务器 | |
CN109992679A (zh) | 一种多媒体数据的分类方法及装置 | |
CN111340566B (zh) | 一种商品分类方法、装置、电子设备及存储介质 | |
CN110879832A (zh) | 目标文本检测方法、模型训练方法、装置及设备 | |
CN114048294A (zh) | 相似人群扩展模型训练方法、相似人群扩展方法和装置 | |
CN112561569B (zh) | 基于双模型的到店预测方法、系统、电子设备及存储介质 | |
CN115063858A (zh) | 视频人脸表情识别模型训练方法、装置、设备及存储介质 | |
CN114706899A (zh) | 快递数据的敏感度计算方法、装置、存储介质及设备 | |
CN107665443A (zh) | 获取目标用户的方法及装置 | |
CN114529191A (zh) | 用于风险识别的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |