CN114139548A - 基于模板匹配结合小样本深度模型的口语语言理解方法 - Google Patents
基于模板匹配结合小样本深度模型的口语语言理解方法 Download PDFInfo
- Publication number
- CN114139548A CN114139548A CN202111444295.8A CN202111444295A CN114139548A CN 114139548 A CN114139548 A CN 114139548A CN 202111444295 A CN202111444295 A CN 202111444295A CN 114139548 A CN114139548 A CN 114139548A
- Authority
- CN
- China
- Prior art keywords
- model
- bert
- intention
- task
- template matching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000012549 training Methods 0.000 claims abstract description 41
- 238000000605 extraction Methods 0.000 claims abstract description 16
- 230000000694 effects Effects 0.000 claims abstract description 8
- 238000002372 labelling Methods 0.000 claims description 5
- 239000013598 vector Substances 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 claims description 4
- 230000003068 static effect Effects 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 5
- 238000013136 deep learning model Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 239000000306 component Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 239000008358 core component Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了基于模板匹配结合小样本深度模型的口语语言理解方法,所述方法包括如下步骤:(1)建立了一种基于BERT+CRF模型的意图识别和语义槽填充联合建模,通过基于BERT+CRF的联合模型,利用BERT中特殊字符[CLS]在模型训练后代表着整句话的语义信息,因此将其作为意图识别的分类输入;(2)使用SOFTMAX分类器进行意图分类,在此联合模型中,槽位提取的任务则除了直接使用BERT各字符的输出结果进行序列标注以外,另外还接入一层CRF改善实验效果。通过该种方法更好应用SLU中意图识别和槽位提取的强相关性特点,更好的在用户较短的对话文本中准确理解用户意图,使用单模型做多任务可以学习提取到更好,更丰富的特征来提升SLU任务的效果。
Description
技术领域
本申请涉及人工智能技术领域,尤其是基于模板匹配结合小样本深度模型的口语语言理解方法。
背景技术
基于大数据和深度学习等领先的人工智能技术,越来越多的互联网公司搭建属于自己的智能客服系统,实现客服行业中大部分的业务办理,信息咨询,自主问答等应答需求,有效提升用户问题的解决效率。在智能客服系统中,口语语言理解(Spoken LanguageUnderstanding,SLU)作为任务型对话系统的核心组件,主要包含两个任务:意图识别任务和语义槽填充任务,让计算机如何准确的理解用户查询问题,对整个对话系统领域具有非常重要的意义。其中意图识别任务主要可以分为基于模板匹配的方法、基于统计机器学习的分类方法和基于深度学习的模型分类:基于模板匹配的方法主要通过将用户输入句子通过分词,词性标注,实体识别等处理后与已有意图模板进行匹配,如果满足匹配的意图模板达到一定的阈值,则可确认句子符合该意图;基于统计机器学习分类方法则是主要在已有标注数据集的情况下,通过人工提取n-gram、词性特征、实体类特征等文本特征,使用贝叶斯分类,支持向量机,逻辑回归等机器学习算法训练分类器完成意图识别的任务;基于深度学习的模型分类算法,则是通过神经网络自动提取文本特征,以及使用预训练模型的语义向量构建分类模型。传统的语义槽提取任务则主要当做序列标注任务进行处理,从传统的条件随机场(Conditional Random Field,CRF)以及长短时循环神经网络(Long Short-Term Memory,LSTM)等算法,都是当做对句子里面的词语进行更好的特征表示的词分类任务。
在整个对话系统领域中,SLU任务中意图和语义槽是紧密相关的,因为传统的方法一般将意图识别和语义槽填充作为两个独立的任务分别处理,这往往会忽略丢失意图和语义槽之间的关系以及共享信息。针对SLU任务中的意图识别任务中基于模板匹配的方法通常用于业务起步的冷启动策略,在实际应用中,基于模板匹配的方法做意图识别精确率较高,但是存在召回率低,识别效果不理想,需要大量人工参与指定规则模板,不易自动化,迁移成本高的局限性;其中基于统计机器学习的分类方法需要大量人工提取设计领域相关的特征,且统计机器学习特征强依赖于各特征的问题,由于用户聊天文本特殊性,该文本长度一般较短,通过传统机器学习方法构建特征的方式不能很好的学习到文本的深层语义信息;基于深度学习模型算法不仅需要大量的标注数据,而且实际各业务场景各意图下数据量少甚至没有的情况下,会存在数据样本不均衡的问题,这也给深度模型学习算法识别带来一定的困难。因此,针对上述问题提出基于模板匹配结合小样本深度模型的口语语言理解方法。
发明内容
在本实施例中提供了基于模板匹配结合小样本深度模型的口语语言理解方法用于解决现有的深度学习模型算法不仅需要大量的标注数据,而且实际各业务场景各意图下数据量少甚至没有的情况下,会存在数据样本不均衡的问题,这也给深度模型学习算法识别带来一定的困难的问题。
根据本申请的一个方面,提供了基于模板匹配结合小样本深度模型的口语语言理解方法,所述方法包括如下步骤;
(1)建立了一种基于BERT+CRF模型的意图识别和语义槽填充联合建模,通过基于BERT+CRF的联合模型,利用BERT中特殊字符[CLS]在模型训练后代表着整句话的语义信息,因此将其作为意图识别的分类输入;
(2)使用SOFTMAX分类器进行意图分类,在此联合模型中,槽位提取的任务则除了直接使用BERT各字符的输出结果进行序列标注以外,另外还接入一层CRF改善实验效果;
(3)使用PET,基于模版和词遮盖将文本分类任务转换为完形填空(cloze)任务的半监督训练,通过针对少量通用样本设计的描述模板结合当前句子生成的模板(pattern)作为提示信息,作为联合模型的输入,
(4)在具体的联合训练时,通过cross-entropy作为分类的损失函数,设置意图识别和槽位提取两个loss的权重占比为3:1。
进一步地,所述步骤(1)中,通过使用BERT模型预训练(Per-training)加精调(Fine-tuning)的架构克服了传统静态词向量无法解决一词多义的问题。
进一步地,所述步骤(1)中,添加CRF层,可以有效减少无效预测标签序列的数量,充分考虑语义槽标签之间的相互依赖关系,对语义槽标签进行全局优化以提升语义槽填充的性能。
进一步地,所述步骤(2)中,对于意图识别任务,BERT模型深度编码输入语句可以直接获得整个句子的语义表示。
进一步地,所述步骤(2)中,对于语义槽填充任务而言,BERT模型的多头注意力机制使得两个任务联合学习模型捕获到的语义信息更加全面。
进一步地,所述步骤(2)中,在BERT模型的基础上使用CRF作为语义槽填充任务的解码器,CRF层是为了选择预测得分最高的标签序列作为标注结果。
进一步地,所述步骤(3)中,通过从训练数据中学习,给待预测标签添加一些约束,确保识别的实体是有效的。
进一步地,所述步骤(4)中,共享模型的特征信息,使得模型的训练参数减少,性能得到提升。
进一步地,所述步骤(4)中,因为BERT经过预训练后,可以在接入下游任务进行finetune时,通常只需要非常小的学习率(10-5),就可以比较充分的拟合训练数据,所以如果接入的CRF层,如果同样使用较小的学习率,则此时的CRF层会存在训练不充分的问题,所以在此联合模型中通过对BERT和CRF设置不同层的学习率。
进一步地,所述步骤(4)中,在使用模板匹配意图识别的时候,通过设置各意图的优先级,以及给各意图的槽位设置权重属性,最后联合计算模板匹配到的意图和意图槽位的个数及权重占比来确认意图。
通过本申请上述实施例,通过该种方法改进意图识别和语义槽填充联合学习模型存在对语义信息捕获不全面、充分利用上下文信息的问题,使用PET方式,在联合模型中引入pattern作为提示信息,充分利用预训练模型的结构和语义信息提取优势。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本申请流程图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本申请中,术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本申请及其实施例,并非用于限定所指示的装置、元件或组成部分必须具有特定方位,或以特定方位进行构造和操作。
并且,上述部分术语除了可以用于表示方位或位置关系以外,还可能用于表示其他含义,例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言,可以根据具体情况理解这些术语在本申请中的具体含义。
此外,术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如,可以是固定连接,可拆卸连接,或整体式构造;可以是机械连接,或电连接;可以是直接相连,或者是通过中间媒介间接相连,又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
实施例一
请参阅图1所示,基于模板匹配结合小样本深度模型的口语语言理解方法,所述方法包括如下步骤;
(1)建立了一种基于BERT+CRF模型的意图识别和语义槽填充联合建模,通过基于BERT+CRF的联合模型,利用BERT中特殊字符[CLS]在模型训练后代表着整句话的语义信息,因此将其作为意图识别的分类输入;
(2)使用SOFTMAX分类器进行意图分类,在此联合模型中,槽位提取的任务则除了直接使用BERT各字符的输出结果进行序列标注以外,另外还接入一层CRF改善实验效果;
(3)使用PET,基于模版和词遮盖将文本分类任务转换为完形填空(cloze)任务的半监督训练,通过针对少量通用样本设计的描述模板结合当前句子生成的模板(pattern)作为提示信息,作为联合模型的输入,
(4)在具体的联合训练时,通过cross-entropy作为分类的损失函数,设置意图识别和槽位提取两个loss的权重占比为3:1。
进一步地,所述步骤(1)中,通过使用BERT模型预训练(Per-training)加精调(Fine-tuning)的架构克服了传统静态词向量无法解决一词多义的问题。
进一步地,所述步骤(1)中,添加CRF层,可以有效减少无效预测标签序列的数量,充分考虑语义槽标签之间的相互依赖关系,对语义槽标签进行全局优化以提升语义槽填充的性能。
进一步地,所述步骤(2)中,对于意图识别任务,BERT模型深度编码输入语句可以直接获得整个句子的语义表示。
进一步地,所述步骤(2)中,对于语义槽填充任务而言,BERT模型的多头注意力机制使得两个任务联合学习模型捕获到的语义信息更加全面。
进一步地,所述步骤(2)中,在BERT模型的基础上使用CRF作为语义槽填充任务的解码器,CRF层是为了选择预测得分最高的标签序列作为标注结果。
进一步地,所述步骤(3)中,通过从训练数据中学习,给待预测标签添加一些约束,确保识别的实体是有效的。
进一步地,所述步骤(4)中,共享模型的特征信息,使得模型的训练参数减少,性能得到提升。
进一步地,所述步骤(4)中,因为BERT经过预训练后,可以在接入下游任务进行finetune时,通常只需要非常小的学习率(10-5),就可以比较充分的拟合训练数据,所以如果接入的CRF层,如果同样使用较小的学习率,则此时的CRF层会存在训练不充分的问题,所以在此联合模型中通过对BERT和CRF设置不同层的学习率。
进一步地,所述步骤(4)中,在使用模板匹配意图识别的时候,通过设置各意图的优先级,以及给各意图的槽位设置权重属性,最后联合计算模板匹配到的意图和意图槽位的个数及权重占比来确认意图。
上述方法能够改进意图识别和语义槽填充联合学习模型存在对语义信息捕获不全面、充分利用上下文信息的问题,使用PET方式,在联合模型中引入pattern作为提示信息,充分利用预训练模型的结构和语义信息提取优势。
实施例二
请参阅图1所示,基于模板匹配结合小样本深度模型的口语语言理解方法,所述方法包括如下步骤;
(1)建立了一种基于BERT+CRF模型的意图识别和语义槽填充联合建模,通过基于BERT+CRF的联合模型,利用BERT中特殊字符[CLS]在模型训练后代表着整句话的语义信息,因此将其作为意图识别的分类输入;
(2)使用SOFTMAX分类器进行意图分类,在此联合模型中,槽位提取的任务则除了直接使用BERT各字符的输出结果进行序列标注以外,另外还接入一层CRF改善实验效果;
(3)使用PET,基于模版和词遮盖将文本分类任务转换为完形填空(cloze)任务的半监督训练,通过针对少量通用样本设计的描述模板结合当前句子生成的模板(pattern)作为提示信息,作为联合模型的输入,
(4)在具体的联合训练时,通过cross-entropy作为分类的损失函数,设置意图识别和槽位提取两个loss的权重占比为3:1。
进一步地,所述步骤(1)中,通过使用BERT模型预训练(Per-training)加精调(Fine-tuning)的架构克服了传统静态词向量无法解决一词多义的问题。
进一步地,所述步骤(1)中,添加CRF层,可以有效减少无效预测标签序列的数量,充分考虑语义槽标签之间的相互依赖关系,对语义槽标签进行全局优化以提升语义槽填充的性能。
进一步地,所述步骤(2)中,对于意图识别任务,BERT模型深度编码输入语句可以直接获得整个句子的语义表示。
进一步地,所述步骤(2)中,对于语义槽填充任务而言,BERT模型的多头注意力机制使得两个任务联合学习模型捕获到的语义信息更加全面。
进一步地,所述步骤(2)中,在BERT模型的基础上使用CRF作为语义槽填充任务的解码器,CRF层是为了选择预测得分最高的标签序列作为标注结果。
进一步地,所述步骤(3)中,通过从训练数据中学习,给待预测标签添加一些约束,确保识别的实体是有效的。
进一步地,所述步骤(4)中,共享模型的特征信息,使得模型的训练参数减少,性能得到提升。
进一步地,所述步骤(4)中,因为BERT经过预训练后,可以在接入下游任务进行finetune时,通常只需要非常小的学习率(10-5),就可以比较充分的拟合训练数据,所以如果接入的CRF层,如果同样使用较小的学习率,则此时的CRF层会存在训练不充分的问题,所以在此联合模型中通过对BERT和CRF设置不同层的学习率。
进一步地,所述步骤(4)中,在使用模板匹配意图识别的时候,通过设置各意图的优先级,以及给各意图的槽位设置权重属性,最后联合计算模板匹配到的意图和意图槽位的个数及权重占比来确认意图。
上述方法能够改进意图识别和语义槽填充联合学习模型存在对语义信息捕获不全面、充分利用上下文信息的问题,使用PET方式,在联合模型中引入pattern作为提示信息,充分利用预训练模型的结构和语义信息提取优势。
本申请的有益之处在于:
本发明通过该种方法能够更好应用SLU中意图识别和槽位提取的强相关性特点,更好的在用户较短的对话文本中准确理解用户意图,使用单模型做多任务可以学习提取到更好,更丰富的特征来提升SLU任务的效果。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.基于模板匹配结合小样本深度模型的口语语言理解方法,其特征在于:所述方法包括如下步骤:
(1)建立了一种基于BERT+CRF模型的意图识别和语义槽填充联合建模,通过基于BERT+CRF的联合模型,利用BERT中特殊字符[CLS]在模型训练后代表着整句话的语义信息,因此将其作为意图识别的分类输入;
(2)使用SOFTMAX分类器进行意图分类,在此联合模型中,槽位提取的任务则除了直接使用BERT各字符的输出结果进行序列标注以外,另外还接入一层CRF改善实验效果;
(3)使用PET,基于模版和词遮盖将文本分类任务转换为完形填空(cloze)任务的半监督训练,通过针对少量通用样本设计的描述模板结合当前句子生成的模板(pattern)作为提示信息,作为联合模型的输入,
(4)在具体的联合训练时,通过cross-entropy作为分类的损失函数,设置意图识别和槽位提取两个loss的权重占比为3:1。
2.根据权利要求1所述的基于模板匹配结合小样本深度模型的口语语言理解方法,其特征在于:所述步骤(1)中,通过使用BERT模型预训练(Per-training)加精调(Fine-tuning)的架构克服了传统静态词向量无法解决一词多义的问题。
3.根据权利要求1所述的基于模板匹配结合小样本深度模型的口语语言理解方法,其特征在于:所述步骤(1)中,添加CRF层,可以有效减少无效预测标签序列的数量,充分考虑语义槽标签之间的相互依赖关系,对语义槽标签进行全局优化以提升语义槽填充的性能。
4.根据权利要求1所述的基于模板匹配结合小样本深度模型的口语语言理解方法,其特征在于:所述步骤(2)中,对于意图识别任务,BERT模型深度编码输入语句可以直接获得整个句子的语义表示。
5.根据权利要求1所述的基于模板匹配结合小样本深度模型的口语语言理解方法,其特征在于:所述步骤(2)中,对于语义槽填充任务而言,BERT模型的多头注意力机制使得两个任务联合学习模型捕获到的语义信息更加全面。
6.根据权利要求1所述的基于模板匹配结合小样本深度模型的口语语言理解方法,其特征在于:所述步骤(2)中,在BERT模型的基础上使用CRF作为语义槽填充任务的解码器,CRF层是为了选择预测得分最高的标签序列作为标注结果。
7.根据权利要求1所述的基于模板匹配结合小样本深度模型的口语语言理解方法,其特征在于:所述步骤(3)中,通过从训练数据中学习,给待预测标签添加一些约束,确保识别的实体是有效的。
8.根据权利要求1所述的基于模板匹配结合小样本深度模型的口语语言理解方法,其特征在于:所述步骤(4)中,共享模型的特征信息,使得模型的训练参数减少,性能得到提升。
9.根据权利要求1所述的基于模板匹配结合小样本深度模型的口语语言理解方法,其特征在于:所述步骤(4)中,因为BERT经过预训练后,可以在接入下游任务进行finetune时,通常只需要非常小的学习率(10-5),就可以比较充分的拟合训练数据,所以如果接入的CRF层,如果同样使用较小的学习率,则此时的CRF层会存在训练不充分的问题,所以在此联合模型中通过对BERT和CRF设置不同层的学习率。
10.根据权利要求1所述的基于模板匹配结合小样本深度模型的口语语言理解方法,其特征在于:所述步骤(4)中,在使用模板匹配意图识别的时候,通过设置各意图的优先级,以及给各意图的槽位设置权重属性,最后联合计算模板匹配到的意图和意图槽位的个数及权重占比来确认意图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111444295.8A CN114139548A (zh) | 2021-11-30 | 2021-11-30 | 基于模板匹配结合小样本深度模型的口语语言理解方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111444295.8A CN114139548A (zh) | 2021-11-30 | 2021-11-30 | 基于模板匹配结合小样本深度模型的口语语言理解方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114139548A true CN114139548A (zh) | 2022-03-04 |
Family
ID=80390116
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111444295.8A Withdrawn CN114139548A (zh) | 2021-11-30 | 2021-11-30 | 基于模板匹配结合小样本深度模型的口语语言理解方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114139548A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115713307A (zh) * | 2022-11-17 | 2023-02-24 | 西安电子科技大学广州研究院 | 运营商智能定责方法及装置 |
CN115983282A (zh) * | 2023-03-21 | 2023-04-18 | 北京中科汇联科技股份有限公司 | 一种基于提示的高效率小样本对话语义理解方法 |
CN117973726A (zh) * | 2023-11-17 | 2024-05-03 | 华中科技大学 | 支持多模态信息的任务调度方法、智能服务台及介质 |
-
2021
- 2021-11-30 CN CN202111444295.8A patent/CN114139548A/zh not_active Withdrawn
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115713307A (zh) * | 2022-11-17 | 2023-02-24 | 西安电子科技大学广州研究院 | 运营商智能定责方法及装置 |
CN115713307B (zh) * | 2022-11-17 | 2024-02-06 | 西安电子科技大学广州研究院 | 运营商智能定责方法及装置 |
CN115983282A (zh) * | 2023-03-21 | 2023-04-18 | 北京中科汇联科技股份有限公司 | 一种基于提示的高效率小样本对话语义理解方法 |
CN117973726A (zh) * | 2023-11-17 | 2024-05-03 | 华中科技大学 | 支持多模态信息的任务调度方法、智能服务台及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108920622B (zh) | 一种意图识别的训练方法、训练装置和识别装置 | |
CN108874782B (zh) | 一种层次注意力lstm和知识图谱的多轮对话管理方法 | |
CN111488931B (zh) | 文章质量评估方法、文章推荐方法及其对应的装置 | |
CN111104498B (zh) | 一种任务型对话系统中的语义理解方法 | |
CN111062217B (zh) | 语言信息的处理方法、装置、存储介质及电子设备 | |
WO2023024412A1 (zh) | 基于深度学习模型的视觉问答方法及装置、介质、设备 | |
CN114139548A (zh) | 基于模板匹配结合小样本深度模型的口语语言理解方法 | |
CN110263323A (zh) | 基于栅栏式长短时记忆神经网络的关键词抽取方法及系统 | |
CN111709242B (zh) | 一种基于命名实体识别的中文标点符号添加方法 | |
CN108932342A (zh) | 一种语义匹配的方法、模型的学习方法及服务器 | |
CN113743119B (zh) | 中文命名实体识别模块、方法、装置及电子设备 | |
CN112115238A (zh) | 一种基于bert和知识库的问答方法和系统 | |
CN111125354A (zh) | 文本分类方法及装置 | |
CN109753565A (zh) | 知识产权智能服务方法及系统 | |
CN111859964A (zh) | 一种语句中命名实体的识别方法及装置 | |
CN115392264A (zh) | 一种基于rasa的任务型智能多轮对话方法及相关设备 | |
CN113326702B (zh) | 语义识别方法、装置、电子设备及存储介质 | |
CN110210036A (zh) | 一种意图识别方法及装置 | |
CN112699686A (zh) | 基于任务型对话系统的语义理解方法、装置、设备及介质 | |
CN114548099B (zh) | 基于多任务框架的方面词和方面类别联合抽取和检测方法 | |
CN110909144A (zh) | 问答对话方法、装置、电子设备及计算机可读存储介质 | |
WO2023178802A1 (zh) | 命名实体识别方法、装置、设备和计算机可读存储介质 | |
CN112183106A (zh) | 一种基于音素联想及深度学习的语义理解方法及装置 | |
CN110633475A (zh) | 基于计算机场景的自然语言理解方法、装置、系统和存储介质 | |
CN110046356A (zh) | 标签嵌入在微博文本情绪多标签分类中的应用研究 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20220304 |