CN115292492A - 意图分类模型的训练方法、装置、设备及存储介质 - Google Patents
意图分类模型的训练方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN115292492A CN115292492A CN202210937638.2A CN202210937638A CN115292492A CN 115292492 A CN115292492 A CN 115292492A CN 202210937638 A CN202210937638 A CN 202210937638A CN 115292492 A CN115292492 A CN 115292492A
- Authority
- CN
- China
- Prior art keywords
- training sample
- label
- training
- processing
- classification model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及人工智能技术领域,公开了一种意图分类模型的训练方法、装置、设备及存储介质。该方法包括:获取训练样本,对训练样本进行第一标签标注处理,获得第一训练样本;对第一训练样本分别进行分词处理和特征提取处理,基于分词处理结果对第一训练样本进行第二标签标注处理,基于特征提取结果对第一训练样本进行第三标签标注处理,获得包含有第一标签、第二标签以及第三标签的第二训练样本;获取预构建的意图分类模型以及预设损失函数;根据第二训练样本和预设损失函数对意图分类模型进行训练,调整预设损失函数直至预设损失函数收敛至最小,得到训练好的意图分类模型。通过上述方式,本发明能够提高客服解决问题的效率及用户满意度。
Description
技术领域
本发明涉及人工智能的自然语言处理技术领域,特别是涉及一种意图分类模型的训练方法、装置、设备及存储介质。
背景技术
随着互联网的快速发展,利用电话客服在线解决用户的提问已经慢慢渗透进了人们的日常生活中,但是用户的提问方式多种多样,所涉及的领域和业务线繁多,如何能快速、准确定位到用户提问的关键内容,是提高客服解决问题的效率,提升用户满意度的关键点。
为了提升客服解决问题的效率,目前一个比较好的方案是通过在线预测对话过程中客户的意图倾向,给予电话客服人员及时提示,从而使客服能快速反馈解决问题的方案,增加容错率的同时也能减少客服人员的工作量。但是,现有的客户的意图倾向预测准确率较低,导致影响了客服解决问题的效率以及用户满意度。
发明内容
本发明提供一种意图分类模型的训练方法、装置、设备及存储介质,能够有效提高客服解决问题的效率以及用户满意度。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种意图分类模型的训练方法,包括:
获取训练样本,对所述训练样本进行第一标签标注处理,获得包含有第一标签的第一训练样本;
对所述第一训练样本分别进行分词处理和特征提取处理,基于分词处理结果对所述第一训练样本进行第二标签标注处理,基于特征提取结果对所述第一训练样本进行第三标签标注处理,获得包含有所述第一标签、所述第二标签以及所述第三标签的第二训练样本;
获取预构建的意图分类模型以及预设损失函数,所述意图分类模型至少包括:实体识别模块、掩码模块以及意图分类模块,所述预设损失函数为所述实体识别模块的损失函数、所述意图分类模块的损失函数以及所述掩码模块的损失函数之和;
根据所述第二训练样本和所述预设损失函数对所述意图分类模型进行训练,调整所述预设损失函数直至所述预设损失函数收敛至最小,得到训练好的意图分类模型。
根据本发明的一个实施例,所述获取训练样本,对所述训练样本进行第一标签标注处理,获得包含有第一标签的第一训练样本包括:
基于用户与客服的对话定时获取训练样本,所述训练样本包括用户问题和客服回答;
采用人工标注的方式参考所述客服回答对所述用户问题进行三级分类标签的标注处理,将所述三级分类标签作为所述第一标签,获得包含有第一标签的第一训练样本。
根据本发明的一个实施例,所述对所述第一训练样本分别进行分词处理和特征提取处理,基于分词处理结果对所述第一训练样本进行第二标签标注处理,基于特征提取结果对所述第一训练样本进行第三标签标注处理,获得包含有所述第一标签、所述第二标签以及所述第三标签的第二训练样本包括:
对所述第一训练样本进行分词处理,基于分词处理结果进行关键词识别,基于关键词识别结果对所述第一训练样本中对应的所述关键词进行第二标签标注处理;
对所述第一训练样本进行特征提取处理,根据特征提取处理结果获得对应的特征名,将所述特征名作为第三标签对所述第一训练样本进行标注处理。
根据本发明的一个实施例,所述对所述第一训练样本进行特征提取处理,根据特征提取处理结果获得对应的特征名,将所述特征名作为第三标签对所述第一训练样本进行标注处理包括:
将所述第一训练样本与预设的regex表达式进行匹配,确定与所述第一训练样本相匹配的目标regex表达式;
根据所述目标regex表达式确定对应的特征名,将所述特征名作为第三标签对所述第一训练样本进行标注处理。
根据本发明的一个实施例,所述对所述第一训练样本分别进行分词处理和特征提取处理,基于分词处理结果对所述第一训练样本进行第二标签标注处理,基于特征提取结果对所述第一训练样本进行第三标签标注处理,获得包含有所述第一标签、所述第二标签以及所述第三标签的第二训练样本之后,还包括:
对所述第二训练样本进行分词处理,分割成词集合;
将所述词集合中的各词与标准词进行匹配;
根据匹配结果将所述词集合中的词替换为对应的所述标准词。
根据本发明的一个实施例,所述获取训练样本,对所述训练样本进行第一标签标注处理,获得包含有第一标签的第一训练样本之后,以及所述对所述第一训练样本分别进行分词处理和特征提取处理之前,还包括:
对所述第一训练样本进行归一化处理、去重处理以及过滤处理。
根据本发明的一个实施例,所述意图分类模型为用于意图分类和实体识别的多任务结构模型。
为解决上述技术问题,本发明采用的另一个技术方案是:提供一种意图分类模型的训练装置,包括:
标注模块,用于获取训练样本,对所述训练样本进行第一标签标注处理,获得包含有第一标签的第一训练样本;
分词及特征提取模块,用于对所述第一训练样本分别进行分词处理和特征提取处理,基于分词处理结果对所述第一训练样本进行第二标签标注处理,基于特征提取结果对所述第一训练样本进行第三标签标注处理,获得包含有所述第一标签、所述第二标签以及所述第三标签的第二训练样本;
获取模块,用于获取预构建的意图分类模型以及预设损失函数,所述意图分类模型至少包括:实体识别模块、掩码模块以及意图分类模块,所述预设损失函数为所述实体识别模块的损失函数、所述意图分类模块的损失函数以及所述掩码模块的损失函数之和;
训练模块,用于根据所述第二训练样本和所述预设损失函数对所述意图分类模型进行训练,调整所述预设损失函数直至所述预设损失函数收敛至最小,得到训练好的意图分类模型。
为解决上述技术问题,本发明采用的再一个技术方案是:提供一种计算机设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的意图分类模型的训练方法。
为解决上述技术问题,本发明采用的再一个技术方案是:提供一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述意图分类模型的训练方法。
本发明的有益效果是:通过对第一训练样本分别进行分词处理和特征提取处理,基于分词处理结果对第一训练样本进行第二标签标注处理,基于特征提取结果对第一训练样本进行第三标签标注处理,获得包含有第一标签、第二标签以及第三标签的第二训练样本,利用第二训练样本进行意图分类模型训练,让意图分类模型充分学习到有效的特征,从而提高意图分类模型的准确性和可靠性,进而有效提高客服解决问题的效率以及用户满意度。
附图说明
图1是本发明一实施例的意图分类模型的训练方法的流程示意图;
图2是本发明实施例中步骤S101的流程示意图;
图3是本发明实施例中步骤S102的流程示意图;
图4是本发明另一实施例的意图分类模型的训练方法的流程示意图;
图5是本发明另一实施例的意图分类模型的训练方法的流程示意图;
图6是本发明实施例的意图分类模型的训练装置的结构示意图;
图7是本发明实施例的计算机设备的结构示意图;
图8是本发明实施例的计算机存储介质的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明中的术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
图1是本发明一实施例的意图分类模型的训练方法的流程示意图。需注意的是,若有实质上相同的结果,本发明的方法并不以图1所示的流程顺序为限。如图1所示,该方法包括步骤:
步骤S101:获取训练样本,对训练样本进行第一标签标注处理,获得包含有第一标签的第一训练样本。
在步骤S101中,基于用户与客服的对话生成数据源,从数据源获取模型训练所需的训练样本,数据源是定时任务所下载的对话数据表,数据表中包括用户问题和客服回答,获取训练样本后,人工参考客服回答对用户问题进行标签标注处理,得到获得包含有第一标签的第一训练样本。本实施例的训练样本包括用户问题和客服回答,第一训练样本包括用户问题和第一标签。
在一种可实现的实施方式中,请参见图2,步骤S101还包括以下步骤:
步骤S201:基于用户与客服的对话定时获取训练样本,训练样本包括用户问题和客服回答。
在步骤S201中,客服可以是电话客服或网络在线客服,基于定时任务定时获取训练样本,能够实时更新训练样本,丰富训练数据。
步骤S202:采用人工标注的方式参考客服回答对用户问题进行三级分类标签的标注处理,将三级分类标签作为第一标签,获得包含有第一标签的第一训练样本。
在步骤S202中,第一训练样本包括用户问题,每个用户问题都标注一个第一标签,第一标签为三级分类标签,可以包括第一级标签、第二级标签以及第三级标签,例如,某一训练样本的第一标签包括:第一级标签为“承保服务”,第二级标签为“契约”,第三级标签为“承保进度”,又如,某一训练样本的第一标签包括:第一级标签为“承保服务”,第二级标签为“核保”,第三级标签为“核保问题咨询”。通过三级分类标签标注能够满足不同的业务线的需求,提高意图分类的准确性,从而有效提高客服解决问题的效率以及用户满意度。
步骤S102:对第一训练样本分别进行分词处理和特征提取处理,基于分词处理结果对第一训练样本进行第二标签标注处理,基于特征提取结果对第一训练样本进行第三标签标注处理,获得包含有第一标签、第二标签以及第三标签的第二训练样本。
在步骤S102中,采用jieba分词的方式对第一训练样本分别进行分词处理,采用regex特征提取的方式对第一训练样本分别进行特征提取处理。本实施例的分词处理和特征提取处理部分先后顺序,可同步进行,具体地,请参见图3,步骤S102还包括以下步骤:
步骤S301:对第一训练样本进行分词处理,基于分词处理结果进行关键词识别,基于关键词识别结果对第一训练样本中对应的关键词进行第二标签标注处理。
在步骤S301中,首先进行分词器选择,本实施例采用jieba分词器,然后构建关键词词典,利用关键词词典进行关键词识别。本实施例可以从不同维度构建关键词词典,例如:通用实体、疾病、投保渠道、职业、产品、险种等,这些关键词词典可以在分词器遇到专业性的词汇时,采用更合适的组合方式来进行表达,从而提升训练样本转化的准确度,后续进行模型训练时也容易学到专业性强的特征。如,第一训练样本包含成分"责任免除内容",引入实体词典后,关键词"责任免除"被加载到分词器中,分词器在进行切词预测时,('责任免除','内容')的概率大于('责任','免除','内容'),则最终分词结果为('责任免除','内容')。
步骤S302:对第一训练样本进行特征提取处理,根据特征提取处理结果获得对应的特征名,将特征名作为第三标签对第一训练样本进行标注处理。
在步骤S302中,采用regex表达式对第一训练样本进行regex特征提取,使得模型不仅能学习到分词的特征,还能学习到句子结构相关的特征。本实施例导入regex表达式时,需将每个regex代表的特征名与所能关联到的regex表达式进行绑定,一个特征名可关联的regex表达式可以有多个。进一步地,将第一训练样本与预设的regex表达式进行匹配,确定与第一训练样本相匹配的目标regex表达式;根据目标regex表达式确定对应的特征名,将特征名作为第三标签对第一训练样本进行标注处理。
步骤S103:获取预构建的意图分类模型以及预设损失函数,意图分类模型至少包括:实体识别模块、掩码模块以及意图分类模块,预设损失函数为实体识别模块的损失函数、意图分类模块的损失函数以及掩码模块的损失函数之和。
在步骤S103中,意图分类模型为用于意图分类和实体识别的多任务结构模型,优选地,意图分类模型为迁移学习模型(Dual Intent and Entity Transformer,DIET),DIET模型的优点在于能够通过即插即用的方式,将字符级特征、词级特征以及预训练语言模型相结合,从而提升目标任务整体的准确性,综合性能比要好于微调的Bert模型,训练速度也比Bert模型要快5倍左右。意图分类模型至少包括:实体识别模块、掩码模块以及意图分类模块,预设损失函数为实体识别模块的损失函数、意图分类模块的损失函数以及掩码模块的损失函数之和,其中,实体识别模块的损失函数为Transformer的输出向量对应的输入token位置对于实体识别分类标签的负对数似然函数;意图分类模块的损失函数为提取CLS向量,将其与向量化的句子标签进行点积,分别计算正负样本的相似性,并用交叉熵来计算整体的损失;掩码模块的损失函数为对于Mask后的向量化实体,与原始的向量化实体做点积,分别计算正负样本的相似性并计算交叉熵损失。该实施例的掩码模块随机选取样本中15%的数据,这部分数据有70%会被替换为Mask对应的向量,10%替换成随机的字符,20%保留原始数据,目的是为了提升模型泛化能力,减少过拟合。
步骤S104:根据第二训练样本和预设损失函数对意图分类模型进行训练,调整损失函数直至预设损失函数收敛至最小,得到训练好的意图分类模型。
在步骤S104中,对第二训练样本进行向量化处理,转化为向量序列,将向量序列作为意图分类模型的输入,意图分类模型的输出为与第二训练样本对应的意图分类标签,基于预设损失函数对意图分类模型进行训练,通过调整实体识别模块的损失函数、意图分类模块的损失函数或掩码模块的损失函数直至预设损失函数收敛至最小,达到模型优化的目的,得到训练好的意图分类模型。
利用训练好的意图分类模型对用户问题的意图分类进行预测可以按如下步骤进行:获取用户问题,对用户问题进行归一化处理;对归一化处理后的用户问题分别进行分词处理和特征提取处理;对分词处理结果和特征提取结果进行同义词替换处理;将同义词替换处理后的用户问题转化为向量序列,输入训练好的意图分类模型中,对向量序列进行特征提取,根据特征提取结果进行实体识别,得到实体识别结果,根据实体识别结果进行意图分类识别,得到与用户问题对应的意图分类识别标签。
本发明一实施例的意图分类模型的训练方法通过对第一训练样本分别进行分词处理和特征提取处理,基于分词处理结果对第一训练样本进行第二标签标注处理,基于特征提取结果对第一训练样本进行第三标签标注处理,获得包含有第一标签、第二标签以及第三标签的第二训练样本,利用第二训练样本进行意图分类模型训练,让意图分类模型充分学习到有效的特征,从而提高意图分类模型的准确性和可靠性,进而有效提高客服解决问题的效率以及用户满意度。
图4是本发明另一实施例的意图分类模型的训练方法的流程示意图。需注意的是,若有实质上相同的结果,本发明的方法并不以图4所示的流程顺序为限。如图4所示,该方法包括步骤:
步骤S401:获取训练样本,对训练样本进行第一标签标注处理,获得包含有第一标签的第一训练样本。
在本实施例中,图4中的步骤S401和图1中的步骤S101类似,为简约起见,在此不再赘述。
步骤S402:对第一训练样本分别进行分词处理和特征提取处理,基于分词处理结果对第一训练样本进行第二标签标注处理,基于特征提取结果对第一训练样本进行第三标签标注处理,获得包含有第一标签、第二标签以及第三标签的第二训练样本。
在本实施例中,图4中的步骤S402和图1中的步骤S102类似,为简约起见,在此不再赘述。
步骤S403:对第二训练样本进行分词处理,分割成词集合,将词集合中的各词与标准词进行匹配,根据匹配结果将词集合中的各词替换为对应的标准词。
在步骤S403中,标准词实质为同义词,本实施例预先定义一系列等价的同义词或表达式,将词集合中的词有相匹配的同义词,都用同义词进行替换,能够有效减少模型计算推理的复杂度,同时也能让同义不同词的句子在预测时具有接近的评分。
步骤S404:获取预构建的意图分类模型以及预设损失函数,意图分类模型至少包括:实体识别模块、掩码模块以及意图分类模块,预设损失函数为实体识别模块的损失函数、意图分类模块的损失函数以及掩码模块的损失函数之和。
在本实施例中,图4中的步骤S404和图1中的步骤S103类似,为简约起见,在此不再赘述。
步骤S405:根据第二训练样本和预设损失函数对意图分类模型进行训练,调整损失函数直至预设损失函数收敛至最小,得到训练好的意图分类模型。
在本实施例中,图4中的步骤S405和图1中的步骤S104类似,为简约起见,在此不再赘述。
本发明实施例的意图分类模型的训练方法在上述实施例的基础上,通过在第二训练样本输入模型之前进行同义的标准词替换,能够有效减少模型计算推理的复杂度,从而有效提高意图分类模型预测的准确性和效率。
图5是本发明另一实施例的意图分类模型的训练方法的流程示意图。需注意的是,若有实质上相同的结果,本发明的方法并不以图4所示的流程顺序为限。如图5所示,该方法包括步骤:
步骤S501:获取训练样本,对训练样本进行第一标签标注处理,获得包含有第一标签的第一训练样本。
在本实施例中,图5中的步骤S501和图4中的步骤S401类似,为简约起见,在此不再赘述。
步骤S502:对第一训练样本进行归一化处理、去重处理以及过滤处理。
在步骤S502中,归一化处理为去除第一训练样本中的特殊符号如空格、@、$、#等,也可以理解为只保留常规的逗号、句号、冒号、引号、感叹号,分号等,一般的标点全角转为半角、繁体转为简体、汉字形式,数字转化为阿拉伯数字等。
去重处理为对归一化处理之后的第一训练样本进行去重处理,即对同样的文本,出现的次数以及对应的标签唯一化。去重处理时可能会出现转化后相同的文本对应不同标签的情况,对文本进行标记后,统一以人工审核的方式确定好标签。
过滤处理为对去重处理好的第一训练样本进行频数统计,对于每一个三级分类的标签,若在此标签下的第一训练样本总数超过预设值,则保留此类标签下的数据,作为后续模型训练的语料,否则该标签的数据将被存储于数据库中,在后续的定时任务增加新数据之后,如果该标签的数量达到预设值以上,再投入模型使用。
通过归一化处理、去重处理以及过滤处理对第一训练样本进行筛选,能够保证足够多的有效训练数据,让模型训练结果更为稳定。
步骤S503:对第一训练样本分别进行分词处理和特征提取处理,基于分词处理结果对第一训练样本进行第二标签标注处理,基于特征提取结果对第一训练样本进行第三标签标注处理,获得包含有第一标签、第二标签以及第三标签的第二训练样本。
在本实施例中,图5中的步骤S503和图4中的步骤S402类似,为简约起见,在此不再赘述。
步骤S504:对第二训练样本进行分词处理,分割成词集合,将词集合中的各词与标准词进行匹配,根据匹配结果将词集合中的各词替换为对应的标准词。
在本实施例中,图5中的步骤S504和图4中的步骤S403类似,为简约起见,在此不再赘述。
步骤S505:获取预构建的意图分类模型以及预设损失函数,意图分类模型至少包括:实体识别模块、掩码模块以及意图分类模块,预设损失函数为实体识别模块的损失函数、意图分类模块的损失函数以及掩码模块的损失函数之和。
在本实施例中,图5中的步骤S505和图4中的步骤S404类似,为简约起见,在此不再赘述。
步骤S506:根据第二训练样本和预设损失函数对意图分类模型进行训练,调整损失函数直至预设损失函数收敛至最小,得到训练好的意图分类模型。
在本实施例中,图5中的步骤S506和图4中的步骤S405类似,为简约起见,在此不再赘述。
本发明实施例的意图分类模型的训练方法在上述实施例的基础上,通过归一化处理、去重处理以及过滤处理对第一训练样本进行筛选,能够保证足够多的有效训练数据,让模型训练结果更为稳定。
图6是本发明实施例的意图分类模型的训练装置的结构示意图。如图6所示,该装置60包括标注模块61、分词及特征提取模块62、获取模块63以及训练模块64。
标注模块61用于获取训练样本,对训练样本进行第一标签标注处理,获得包含有第一标签的第一训练样本;
分词及特征提取模块62用于对第一训练样本分别进行分词处理和特征提取处理,基于分词处理结果对第一训练样本进行第二标签标注处理,基于特征提取结果对第一训练样本进行第三标签标注处理,获得包含有第一标签、第二标签以及第三标签的第二训练样本;
获取模块63用于获取预构建的意图分类模型以及预设损失函数,意图分类模型至少包括:实体识别模块、掩码模块以及意图分类模块,预设损失函数为实体识别模块的损失函数、意图分类模块的损失函数以及掩码模块的损失函数之和;
训练模块64用于根据第二训练样本和预设损失函数对意图分类模型进行训练,调整预设损失函数直至预设损失函数收敛至最小,得到训练好的意图分类模型。
请参阅图7,图7为本发明实施例的计算机设备的结构示意图。如图7所示,该计算机设备70包括处理器71及和处理器71耦接的存储器72。
存储器72存储有用于实现上述任一实施例所述的意图分类模型的训练方法的程序指令。
处理器71用于执行存储器72存储的程序指令以训练意图分类模型。
其中,处理器71还可以称为CPU(Central Processing Unit,中央处理单元)。处理器71可能是一种集成电路芯片,具有信号的处理能力。处理器71还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
参阅图8,图8为本发明实施例的计算机存储介质的结构示意图。本发明实施例的计算机存储介质存储有能够实现上述所有方法的程序文件81,其中,该程序文件81可以以软件产品的形式存储在上述计算机存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施方式所述方法的全部或部分步骤。而前述的计算机存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等终端设备。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上仅为本发明的实施方式,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种意图分类模型的训练方法,其特征在于,包括:
获取训练样本,对所述训练样本进行第一标签标注处理,获得包含有第一标签的第一训练样本;
对所述第一训练样本分别进行分词处理和特征提取处理,基于分词处理结果对所述第一训练样本进行第二标签标注处理,基于特征提取结果对所述第一训练样本进行第三标签标注处理,获得包含有所述第一标签、所述第二标签以及所述第三标签的第二训练样本;
获取预构建的意图分类模型以及预设损失函数,所述意图分类模型至少包括:实体识别模块、掩码模块以及意图分类模块,所述预设损失函数为所述实体识别模块的损失函数、所述意图分类模块的损失函数以及所述掩码模块的损失函数之和;
根据所述第二训练样本和所述预设损失函数对所述意图分类模型进行训练,调整所述预设损失函数直至所述预设损失函数收敛至最小,得到训练好的意图分类模型。
2.根据权利要求1所述的意图分类模型的训练方法,其特征在于,所述获取训练样本,对所述训练样本进行第一标签标注处理,获得包含有第一标签的第一训练样本包括:
基于用户与客服的对话定时获取训练样本,所述训练样本包括用户问题和客服回答;
采用人工标注的方式参考所述客服回答对所述用户问题进行三级分类标签的标注处理,将所述三级分类标签作为所述第一标签,获得包含有第一标签的第一训练样本。
3.根据权利要求1所述的意图分类模型的训练方法,其特征在于,所述对所述第一训练样本分别进行分词处理和特征提取处理,基于分词处理结果对所述第一训练样本进行第二标签标注处理,基于特征提取结果对所述第一训练样本进行第三标签标注处理,获得包含有所述第一标签、所述第二标签以及所述第三标签的第二训练样本包括:
对所述第一训练样本进行分词处理,基于分词处理结果进行关键词识别,基于关键词识别结果对所述第一训练样本中对应的所述关键词进行第二标签标注处理;
对所述第一训练样本进行特征提取处理,根据特征提取处理结果获得对应的特征名,将所述特征名作为第三标签对所述第一训练样本进行标注处理。
4.根据权利要求3所述的意图分类模型的训练方法,其特征在于,所述对所述第一训练样本进行特征提取处理,根据特征提取处理结果获得对应的特征名,将所述特征名作为第三标签对所述第一训练样本进行标注处理包括:
将所述第一训练样本与预设的regex表达式进行匹配,确定与所述第一训练样本相匹配的目标regex表达式;
根据所述目标regex表达式确定对应的特征名,将所述特征名作为第三标签对所述第一训练样本进行标注处理。
5.根据权利要求1所述的意图分类模型的训练方法,其特征在于,所述对所述第一训练样本分别进行分词处理和特征提取处理,基于分词处理结果对所述第一训练样本进行第二标签标注处理,基于特征提取结果对所述第一训练样本进行第三标签标注处理,获得包含有所述第一标签、所述第二标签以及所述第三标签的第二训练样本之后,还包括:
对所述第二训练样本进行分词处理,分割成词集合;
将所述词集合中的各词与标准词进行匹配;
根据匹配结果将所述词集合中的词替换为对应的所述标准词。
6.根据权利要求1所述的意图分类模型的训练方法,其特征在于,所述获取训练样本,对所述训练样本进行第一标签标注处理,获得包含有第一标签的第一训练样本之后,以及所述对所述第一训练样本分别进行分词处理和特征提取处理之前,还包括:
对所述第一训练样本进行归一化处理、去重处理以及过滤处理。
7.根据权利要求1所述的意图分类模型的训练方法,其特征在于,所述意图分类模型为用于意图分类和实体识别的多任务结构模型。
8.一种意图分类模型的训练装置,其特征在于,包括:
标注模块,用于获取训练样本,对所述训练样本进行第一标签标注处理,获得包含有第一标签的第一训练样本;
分词及特征提取模块,用于对所述第一训练样本分别进行分词处理和特征提取处理,基于分词处理结果对所述第一训练样本进行第二标签标注处理,基于特征提取结果对所述第一训练样本进行第三标签标注处理,获得包含有所述第一标签、所述第二标签以及所述第三标签的第二训练样本;
获取模块,用于获取预构建的意图分类模型以及预设损失函数,所述意图分类模型至少包括:实体识别模块、掩码模块以及意图分类模块,所述预设损失函数为所述实体识别模块的损失函数、所述意图分类模块的损失函数以及所述掩码模块的损失函数之和;
训练模块,用于根据所述第二训练样本和所述预设损失函数对所述意图分类模型进行训练,调整所述预设损失函数直至所述预设损失函数收敛至最小,得到训练好的意图分类模型。
9.一种计算机设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-7任一项所述的意图分类模型的训练方法。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的意图分类模型的训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210937638.2A CN115292492A (zh) | 2022-08-05 | 2022-08-05 | 意图分类模型的训练方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210937638.2A CN115292492A (zh) | 2022-08-05 | 2022-08-05 | 意图分类模型的训练方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115292492A true CN115292492A (zh) | 2022-11-04 |
Family
ID=83828924
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210937638.2A Pending CN115292492A (zh) | 2022-08-05 | 2022-08-05 | 意图分类模型的训练方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115292492A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116468096A (zh) * | 2023-03-30 | 2023-07-21 | 之江实验室 | 一种模型训练方法、装置、设备及可读存储介质 |
-
2022
- 2022-08-05 CN CN202210937638.2A patent/CN115292492A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116468096A (zh) * | 2023-03-30 | 2023-07-21 | 之江实验室 | 一种模型训练方法、装置、设备及可读存储介质 |
CN116468096B (zh) * | 2023-03-30 | 2024-01-02 | 之江实验室 | 一种模型训练方法、装置、设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11403680B2 (en) | Method, apparatus for evaluating review, device and storage medium | |
US11586810B2 (en) | Generating responses in automated chatting | |
CN110674629B (zh) | 标点符号标注模型及其训练方法、设备、存储介质 | |
EP3125235B1 (en) | Learning templates generated from dialog transcripts | |
CN111125354A (zh) | 文本分类方法及装置 | |
CN110347802B (zh) | 一种文本分析方法及装置 | |
CN111599340A (zh) | 一种多音字读音预测方法、装置及计算机可读存储介质 | |
CN113268576B (zh) | 一种基于深度学习的部门语义信息抽取的方法及装置 | |
CN112101042A (zh) | 文本情绪识别方法、装置、终端设备和存储介质 | |
CN111241397A (zh) | 一种内容推荐方法、装置和计算设备 | |
CN111339772B (zh) | 俄语文本情感分析方法、电子设备和存储介质 | |
Nugraha et al. | Typographic-based data augmentation to improve a question retrieval in short dialogue system | |
CN113486174B (zh) | 模型训练、阅读理解方法、装置、电子设备及存储介质 | |
CN114281996A (zh) | 长文本分类方法、装置、设备及存储介质 | |
CN115292492A (zh) | 意图分类模型的训练方法、装置、设备及存储介质 | |
CN112349294B (zh) | 语音处理方法及装置、计算机可读介质、电子设备 | |
CN110969005A (zh) | 一种确定实体语料之间的相似性的方法及装置 | |
CN107783958B (zh) | 一种目标语句识别方法及装置 | |
Chen et al. | Learning the chinese sentence representation with LSTM autoencoder | |
CN114676699A (zh) | 实体情感分析方法、装置、计算机设备和存储介质 | |
CN111401070B (zh) | 词义相似度确定方法及装置、电子设备及存储介质 | |
CN115618968B (zh) | 新意图发现方法、装置、电子设备及存储介质 | |
CN110232328A (zh) | 一种征信报告解析方法、装置及计算机可读存储介质 | |
CN116842168B (zh) | 跨领域问题处理方法、装置、电子设备及存储介质 | |
CN113743126B (zh) | 一种基于用户情绪的智能交互方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |