CN113868380A - 一种少样本意图识别方法及装置 - Google Patents
一种少样本意图识别方法及装置 Download PDFInfo
- Publication number
- CN113868380A CN113868380A CN202111297314.9A CN202111297314A CN113868380A CN 113868380 A CN113868380 A CN 113868380A CN 202111297314 A CN202111297314 A CN 202111297314A CN 113868380 A CN113868380 A CN 113868380A
- Authority
- CN
- China
- Prior art keywords
- data
- training
- intention
- model
- language model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种少样本意图识别方法,利用领域无关的数据按概率随机掩码替换数据片段,得到预训练数据,预训练语言模型;针对每一个意图类别构建对应的提示模板;根据提示模板构造多意图识别模型的训练数据;在预训练语言模型基础上使用意图识别训练数据二次训练预训练模型。能够在不受限与人工构建大量规则,领域数据缺乏的情况下,以少量的领域意图识别训练数据得到性能接近大量领域意图识别训练数据得到的模型性能。解决了基于数据增强、元学习及预训练微调等方法中面临的需要大量的人力制定数据增强规则、依赖大量的相似任务数据以及需要一定量的微调数据等问题。
Description
技术领域
本发明涉及自然语言处理领域,尤其涉及一种少样本意图识别方法及装置。
背景技术
随着人工智能的发展,智能对话系统越来越受到人们的重视。能否准确识别用户的意图是衡量智能对话系统质量的重要指标。现有表现最好的意图识别方法基于深度学习方法, 这需要大量的意图识别语料训练模型,然而针对有些领域如医疗生物等领域,往往缺乏相关的数据。因而少样本意图识别方法对促进智能对话系统发展至关重要。
现有少样本意图识别方法主要有:基于数据增强的少样本意图识别、基于元学习的少样本意图识别和基于语言模型微调的少样本意图识别。
基于数据增强的少样本意图识别:现有的数据增强的方法大多采用回译和规则等方法来增加样本的数据量。基于规则的方法主要是对非关键词进行增删改等操作,对于关键词采用正则匹配等方式对样本中的关键词进行同义词替换,以此来增加样本的个数。回译则是通过把中文数据文本翻译成第三方语言文本,然后再翻译成中文文本,保持标签不变,从而增加数据量。当数据量达到要求后就可以采用传统的文本分类方法实现意图识别功能。然而,这种方法需要花费大量的人力来设计增删改的规则,同时也严重依赖回译软件的质量。
基于元学习的少样本意图识别方法:基于元学习的少样本意图识别大体上有基于度量的学习、基于模型的学习和基于优化的学习。目的是通过构建一系列的相似任务,让模型学习这些相似任务,从而让模型学会学习能力,最终应用在目标任务上。为了学会学习的能力,基于元学习的方法则需要收集大量的任务相关的数据,在某些领域上这些数据往往也比较缺乏,很难获取。
基于语言模型微调的方法:这种方法首先在海量领域无关的无监督数据中,自动的构建有监督的数据,然后预训练一个语言模型。通过大量的领域无关数据有监督学习到一些通用知识,最后在预训练语言模型基础上使用领域相关的数据进行微调。基于预训练微调的方法,由于需要在预训练模型基础上构建一个分类层,增加了大量新的参数,因此也需要一定量的领域数据进行微调。
综上所述,现有的基于数据增强的方法存在受限于需要大量人力设计数据增强规则的问题;基于元学习的方法存在需要构建大量的相似任务时,有些任务的数据存在很难获取问题;基于语言模型预训练微调的方法存在由于新增了一个分类层,增加了大量新的参数,需要一定量的领域数据进行微调,而在某些领域,这些数据往往无法获取的问题。
发明内容
本发明的目的在于提供一种少样本意图识别方法及装置,用于解决现有基于数据增强、元学习方法和基于语言模型预训练微调等方法中存在的问题。
为达到上述目的,本发明实施例提供了一种少样本意图识别方法,包括:
A、采集领域无关的数据;
B、对领域无关的数据,按概率进行掩码或随机替换操作得到预训练数据;
C、基于语言模型和预训练数据预测被掩码和替换的数据片段,预训练语言模型;
D、针对每一个意图类别构建对应的提示模板;
E、根据提示模板构造多意图识别模型的训练数据;
F、在预训练语言模型基础上使用意图识别训练数据二次训练预训练模型,获得意图识别模型。
作为进一步优化,所述步骤A包括:
利用数据采集工具采集大量领域无关的各种数据,用于预训练语言模型。
作为进一步优化,所述步骤B包括:
对领域无关的数据进行片段分割,使得数据转换为基于片段序列的数据;
对分割后的片段序列数据的每个数据片段按照概率选择掩码和随机替换两种中的一种进行操作,得到预训练数据。
作为进一步优化,所述步骤C包括:
使用预训练数据作为语言模型的输入,前向传播预测被掩码或替换的数据片段;
使用反向传播算法更新语言模型的参数。
作为进一步优化,所述步骤D包括:
根据每一个意图类别的语义,构造一个意图类别语义字典,key为是否表达意图类别语义信息的某个分割单元,value为对应的意图类别;
根据意图语义字典和意图类别语义信息,对每类意图构建提示模板。
作为进一步优化,所述步骤E包括:
对意图识别训练数据进行片段分割,使得数据转换为基于片段的序列数据;
对每个序列片段数据进行如下操作N次,形成N份数据:对序列片段数据中的每个片段按照概率选择掩码和随机替换两种中一种进行操作;
对N份数据的每份数据,串接意图类别的提示模板,获得N倍的训练数据。
作为进一步优化,所述步骤F包括:
使用N倍的训练数据作为预训练语言模型输入,预测被掩码或替换的数据片段;
使用反向传播算法更新预训练模型的参数。
本发明实施例提供的另一种少样本意图识别的设备,包括:
数据采集模块,用于采集领域无关的数据和领域相关的数据;
预训练数据处理模块,用于对领域无关的数据进行片段分割,以及进行掩码和随机替换等操作;
预训练模型训练模块,使用采集处理后的预训练数据,基于transformer预训练基础语言模型;
意图识别数据处理模块,构建意图提示模板,然后串接原始意图数据,按照概率选择掩码和随机替换两种中的一种操作构建N倍意图识别训练数据;
意图识别模型训练模块,使用构建的意图识别训练数据,基于预训练的语言模型进行二次训练。
本发明的有益效果是:
能够在不受限与人工构建大量规则,领域数据缺乏的情况下,以少量的领域意图识别训练数据得到性能接近大量领域意图识别训练数据得到的模型。
附图说明
图1为本发明提供的少样本意图识别方法流程图。
图2为本发明提供的少样本意图识别装置结构框图。
具体实施方式
下面将结合本发明实施例的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
图1示出了本发明一种少样本意图识别方法的实施例一的流程图,包括:
A、采集领域无关的数据
利用数据采集工具采集大量领域无关的各种数据,用于预训练语言模型。
具体的,通过收集公开的中文预训练数据和利用数据采集工具从百度百科、维基百科、微博以及头条等中文网站中采集文本信息等方法收集领域无关的数据。
B、对领域无关的数据,按概率进行掩码或随机替换操作得到预训练数据
对领域无关的数据进行片段分割,使得数据转换为基于片段序列的数据;对分割后的片段序列数据的每个数据片段按照概率选择掩码和随机替换两种中的一种进行操作,得到预训练数据。
具体的,进行数据片段分割时,对中文采用按字分割的方式,对英文单词按照BPE算法分割为sub-word。然后,对所有数据片段进行去重处理,构建数据片段字典。假设某个数据分割后的片段序列数据为W=[w0,w1,...,wi,...,wm],对wi生成一个0到1之间的均匀分布随机值p,根据概率值p进行以下操作:按如果p<v1选择掩码操作,即以特殊的掩码符替换;如果v1<=p<=v2选择随机替换操作,即从数据片段中随机选择一个数据片段替换wi;如果p>v2,则对wi不进行任何操作。
C、基于语言模型和预训练数据预测被掩码替换的数据片段,预训练语言模型
使用预训练数据作为语言模型的输入,前向传播预测被掩码或替换的数据片段;使用反向传播算法更新语言模型的参数。具体的,语言模型可以选择基于自编码的transformer,也可以选择基于自回归的GRU和LSTM,或者选择CNN。
D、针对每一个意图类别构建对应的提示模板
根据每一个意图类别的语义,构造一个意图类别语义字典,key为是否表达意图类别语义信息的某个分割单元,value为对应的意图类别;根据意图语义字典和意图类别语义信息,对每类意图构建提示模板。
具体的,意图类别语义字典的key可选择具体的表达“是否”语义的分割单元,也可以自定义的特殊符号替代,让模型自动的去学习特殊符号的语义。意图提示模板的语义为:是否表达了该意图。如针对“播放音乐意图”,提示模板可为:“_播放音乐”,当样本中的意图包含了播放音乐意图时用“是”替换“_”,否则用“非”替换。此外提示模板也可以用特殊符号序列如“w1w2w3w4”,让模型自动学习提示模板的语义。
根据提示模板构造多意图识别模型的训练数据
对意图识别训练数据进行片段分割,使得数据转换为基于片段的序列数据;对每个序列片段数据进行如下操作N次,形成N份数据:对序列片段数据中的每个片段按照概率选择掩码和随机替换两种中一种进行操作;对N份数据的每份数据,串接意图类别的提示模板,获得N倍的训练数据,N为大于或等于1的整数。
具体的,按照预训练数据处理方法重复N次,得到N倍的意图识别训练数据,然后对于多意图识别任务串接每个意图提示模板在训练样本前,最后掩码掉训练样本提示模板中包含意图类别语义字典key集合的分割片段。
在预训练语言模型基础上使用意图识别训练数据二次训练预训练模型,获得意图识别模型。
使用N倍的训练数据作为预训练语言模型输入,预测被掩码或替换的数据片段;使用反向传播算法更新预训练模型的参数。
根据本发明实施例提供的方法,能够在不受限与人工构建大量规则,领域数据缺乏的情况下,以少量的领域意图识别训练数据得到性能接近大量领域意图识别训练数据得到的模型性能。解决了基于数据增强、元学习及预训练微调等方法中面临的需要大量的人力制定数据增强规则、依赖大量的相似任务数据以及需要一定量的微调数据等问题。
实施例二
图2所示谓本发明一种少样本识别装置的结构示意图,包括:
数据采集模块,用于采集领域无关的数据;
具体的,通过收集公开的预训练语料以及使用数据采集工具从网络中采集等方式获取领域无关的数据。
预训练数据处理模块,用于对领域无关的数据进行分割,以及进行掩码,替换或保留等操作;
具体的,对中文汉字按字分割,对英文文本使用BPE算法分割为sub-word。然后对每个分割片段,随机生成一个符合均匀分布的随机概率值选择掩码和随机替换两种中的一种进行操作。
预训练模型训练模块,使用采集处理后的预训练数据预训练基础语言模型
具体的,预训练数据作为语言模型的输入,前向传播预测被掩码或替换的数据片段;使用反向传播算法更新语言模型的参数。
意图识别数据处理模块,构建意图提示模板,然后串接原始意图数据,按照概率选择掩码和随机替换两种中的一种操作构建N倍多意图识别训练数据,N为大于或等于1的整数。
具体的,首先,根据每一个意图类别的语义,构造一个意图类别语义字典。然后,根据意图语义字典和意图类别语义信息,对每类意图构建提示模板。然后,按照预训练数据处理方法重复N次,得到N倍的训练数据。最后串接意图提示模板到意图识别训练样本前。
意图识别模型训练模块,使用构建的意图识别训练数据,基于预训练的语言模型进行二次训练;
具体的,在预训练语言模型基础上,使用N倍的训练数据作为输入,预测被掩码或替换的数据片段。然后使用反向传播算法更新预训练模型的参数。
通过本发明实施例二提供的一种少样本意图识别装置,给定少量的领域意图识别训练数据能得到性能接近大量领域意图识别训练数据得到的模型。解决了基于数据增强、元学习及预训练微调等方法中面临的需要大量的人力制定数据增强规则、依赖大量的相似任务数据以及需要一定量的微调数据等问题。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。
Claims (8)
1.一种少样本意图识别方法,其特征在于,所述方法包括:
A、采集领域无关的数据;
B、对领域无关的数据,按概率进行掩码或随机替换操作得到预训练数据;
C、基于语言模型和预训练数据预测被掩码和替换的数据片段,预训练语言模型;
D、针对每一个意图类别构建对应的提示模板;
E、根据提示模板构造多意图识别模型的训练数据;
F、在预训练语言模型基础上使用意图识别训练数据二次训练预训练模型,获得意图识别模型。
2.如权利要求1所述的一种少样本意图识别方法,其特征在于,所述步骤A包括:
利用数据采集工具采集大量领域无关的各种数据,用于预训练语言模型。
3.如权利要求1所述的一种少样本意图识别方法,其特征在于,所述步骤B包括:
对领域无关的数据进行片段分割,使得数据转换为基于片段序列的数据;
对分割后的片段序列数据的每个数据片段按照概率选择掩码和随机替换两种中的一种进行操作,得到预训练数据。
4.如权利要求1所述的一种少样本意图识别方法,其特征在于,所述步骤C包括:
使用预训练数据作为语言模型的输入,前向传播预测被掩码和替换的数据片段;
使用反向传播算法更新语言模型的参数。
5.如权利要求1所述的一种少样本意图识别方法,其特征在于,所述步骤D包括:
根据每一个意图类别的语义,构造一个意图类别语义字典;
根据意图语义字典和意图类别语义信息,对每类意图构建提示模板。
6.如权利要求1所述的一种少样本意图识别方法,其特征在于,所述步骤E包括:
对意图识别训练数据进行片段分割,使得数据转换为基于片段的序列数据;
对每个序列片段数据进行如下操作N次,形成N份数据:对序列片段数据中的每个片段按照概率选择掩码或随机替换进行操作;
对N份数据的每份数据,串接意图类别的提示模板,获得N倍的训练数据;
N为大于或等于1的整数。
7.如权力要求1所述的一种少样本意图识别方法,其特征在于,所述步骤F包括:
将步骤E获得的训练数据作为预训练语言模型输入,预测被掩码或替换的数据片段;
使用反向传播算法更新预训练模型的参数。
8.一种少样本意图识别装置,其特征在于,包括:
数据采集模块,用于采集领域无关的数据;
预训练数据处理模块,用于对领域无关的数据进行分割,以及进行掩码和随机替换等处理,形成处理后的预训练数据;
预训练模型训练模块,其作用在于使用处理后的预训练数据预训练基础语言模型;
意图识别数据处理模块,其作用在于,构建意图提示模板,然后串接原始意图数据,按照概率选择掩码或随机替换对序列片段数据进行处理,构建意图识别训练数据;
意图识别模型训练模块,其作用在于,使用构建的意图识别训练数据,基于预训练的语言模型进行二次训练。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2021106828519 | 2021-06-21 | ||
CN202110682851 | 2021-06-21 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113868380A true CN113868380A (zh) | 2021-12-31 |
Family
ID=78986821
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111297314.9A Pending CN113868380A (zh) | 2021-06-21 | 2021-11-04 | 一种少样本意图识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113868380A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114492363A (zh) * | 2022-04-15 | 2022-05-13 | 苏州浪潮智能科技有限公司 | 一种小样本微调方法、系统及相关装置 |
CN114757176A (zh) * | 2022-05-24 | 2022-07-15 | 上海弘玑信息技术有限公司 | 一种获取目标意图识别模型的方法以及意图识别方法 |
WO2023229483A1 (ru) * | 2022-05-27 | 2023-11-30 | Публичное Акционерное Общество "Сбербанк России" | Способ и система классификации текста |
-
2021
- 2021-11-04 CN CN202111297314.9A patent/CN113868380A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114492363A (zh) * | 2022-04-15 | 2022-05-13 | 苏州浪潮智能科技有限公司 | 一种小样本微调方法、系统及相关装置 |
CN114757176A (zh) * | 2022-05-24 | 2022-07-15 | 上海弘玑信息技术有限公司 | 一种获取目标意图识别模型的方法以及意图识别方法 |
WO2023229483A1 (ru) * | 2022-05-27 | 2023-11-30 | Публичное Акционерное Общество "Сбербанк России" | Способ и система классификации текста |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111639171B (zh) | 一种知识图谱问答方法及装置 | |
US11501182B2 (en) | Method and apparatus for generating model | |
WO2021093755A1 (zh) | 问题的匹配方法及装置、问题的回复方法及装置 | |
CN111738004A (zh) | 一种命名实体识别模型的训练方法及命名实体识别的方法 | |
CN113868380A (zh) | 一种少样本意图识别方法及装置 | |
CN110826331A (zh) | 基于交互式与迭代式学习的地名标注语料库智能构建方法 | |
CN110807324A (zh) | 一种基于IDCNN-crf与知识图谱的影视实体识别方法 | |
CN112541337B (zh) | 一种基于递归神经网络语言模型的文档模板自动生成方法及系统 | |
CN112926345B (zh) | 基于数据增强训练的多特征融合神经机器翻译检错方法 | |
CN111553159B (zh) | 一种问句生成方法及系统 | |
CN116992005B (zh) | 基于大模型及本地知识库的智能对话方法、系统及设备 | |
CN113158674B (zh) | 一种人工智能领域文档关键信息抽取方法 | |
CN111143531A (zh) | 一种问答对构建方法、系统、装置及计算机可读存储介质 | |
Ribeiro et al. | Discovering IMRaD structure with different classifiers | |
CN115146062A (zh) | 融合专家推荐与文本聚类的智能事件分析方法和系统 | |
Wagh et al. | A novel approach of augmenting training data for legal text segmentation by leveraging domain knowledge | |
CN113901218A (zh) | 一种稽查业务基础规则抽取方法及装置 | |
CN116595170A (zh) | 一种基于软提示的医疗文本分类方法 | |
CN116049376A (zh) | 一种信创知识检索回复的方法、装置和系统 | |
CN115840815A (zh) | 基于指针关键信息的自动摘要生成方法 | |
Ehsan et al. | Finding topics in Urdu: A study of applicability of document clustering in Urdu language | |
CN115114915B (zh) | 短语识别方法、装置、设备和介质 | |
Shahade et al. | Deep learning approach-based hybrid fine-tuned Smith algorithm with Adam optimiser for multilingual opinion mining | |
CN116976290B (zh) | 一种基于自回归模型的多场景资讯摘要生成方法以及装置 | |
Tan et al. | An attention-based approach for mongolian news named entity recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |