CN116049349A - 基于多层次注意力和层次类别特征的小样本意图识别方法 - Google Patents

基于多层次注意力和层次类别特征的小样本意图识别方法 Download PDF

Info

Publication number
CN116049349A
CN116049349A CN202211452106.6A CN202211452106A CN116049349A CN 116049349 A CN116049349 A CN 116049349A CN 202211452106 A CN202211452106 A CN 202211452106A CN 116049349 A CN116049349 A CN 116049349A
Authority
CN
China
Prior art keywords
query
semantic
category
sample
phrase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211452106.6A
Other languages
English (en)
Inventor
张春霞
李雅菲
郭倞涛
徐天祥
薛晓军
牛振东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Publication of CN116049349A publication Critical patent/CN116049349A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于多层次注意力和层次类别特征的小样本意图识别方法,属于自然语言处理和问答系统技术领域。第一,引入词级、短语级、语义角色级别的三层注意力机制,从词频、反文档频率、类内分布均匀度、类间分布均匀度共四个角度融合层次类别特征,计算混合特征因子,充分挖掘不同层次、不同粒度、不同角度的文本特征,能够有效提升小样本意图识别的准确率。第二,不同于对样本表示取均值生成类别表示的方法,本发明基于胶囊网络中动态路由的思想,学习样本表示和类别表示之间的非线性映射关系,提高从样本中归纳学习类别表示的能力。

Description

基于多层次注意力和层次类别特征的小样本意图识别方法
技术领域
本发明涉及一种基于多层次注意力和层次类别特征的小样本意图识别方法,属于自然语言处理和问答系统技术领域。
背景技术
意图识别旨在识别用户需求,即将用户的查询(Query)分类到意图类别中。意图识别可以看作是一种文本分类问题。意图识别广泛应用于信息检索、情感分析以及对话机器人等领域。小样本意图识别的目的是,在训练集上学习获得意图分类器,面对新类别时,即使只有少量的标注样本,也能够识别出测试样本的意图类别,并达到良好的性能。
小样本学习方法可以大致分为四类:(1)基于优化的方法,基于梯度下降的参数更新算法,通过少量的迭代步骤捕获优化算法的泛化能力;(2)基于模型的方法:在模型结构设计的角度上快速更新参数,直接建立输入值和预测值之间的映射函数;(3)基于度量的方法:该类方法学习度量样本间距离的函数,通过计算待测试的实例和标注数据之间的距离来对测试实例进行分类;(4)基于数据增强的方法,该类方法的主要思想是通过增加数据来扩充数据集或者通过添加特征来进行特征增强。
小样本学习可以分为两种含义。第一种是标准的小样本学习。假设给定基类集合,每个类别具有足量标注样本;给定另一新类集合,每个类别只有少量标注样本,基类集合和新类集合的交集为空集。一般将基类集合中的类别称为已知意图类别,新类集合中的类别称为未知意图类别。在基类类别上进行训练得到分类器,然后在新类类别的样本上进行测试。第二种是广义的小样本学习,即在测试时,不仅包含新类类别中的样本,还包括基类类别中的样本。本发明提出针对广义小样本的意图识别方法。
目前,小样本意图识别方法主要存在如下问题:(1)难以挖掘文本多粒度语义信息和较少引入文本自身的统计特征。现有的小样本意图识别方法通常将词向量或句向量作为输入特征。然而,在小样本情境下,由于样本数量较少,只使用词向量或句向量的输入特征,则难以挖掘文本的深层语义信息。另外,现有的意图识别方法忽略了文本数据自身所具有的统计特征。(2)缺乏从样本表示到类别表示的建模。基于度量学习的小样本意图识别方法通常采用对样本嵌入表示取均值的方式来生成类别表示,缺乏从样本表示到类别表示的建模,导致小样本意图识别模型易受噪音的影响。
发明内容
本发明的目的是为了解决小样本意图识别任务中难以挖掘文本多粒度语义信息和较少引入文本自身统计特征,缺乏从样本表示到类别表示的建模问题,提出一种基于多层次注意力和层次类别特征的小样本意图识别方法。
本发明的小样本意图识别方法的特点是:第一,引入词级、短语级、语义角色级别的三层注意力机制,融合词频、反文档频率、类内分布均匀度、类间分布均匀度共四种层次类别特征计算混合特征因子,充分挖掘不同层次、不同粒度、不同角度的文本特征,能够有效提升小样本意图识别的准确率。第二,不同于对样本表示取均值生成类别表示的方法,本发明基于胶囊网络中动态路由的思想,学习样本和类别表示之间的非线性映射关系,提高从样本中归纳学习类别表示的能力。
为了达到上述目的,本发明采取如下技术方案:
基于多层次注意力和层次类别特征的小样本意图识别方法,该方法的步骤包括:
步骤1:构建支撑集和查询集;
设由词语构成的文本xi=(xi1,xi2,xi3,...,xit),xik为词语,其中,i和t为自然数,k=1,2,3,...,t。文本xi对应的意图类别标签为yi
Figure BDA0003951978440000021
其中,
Figure BDA0003951978440000022
为意图类别集合,Nc为意图类别数量。一组(xi,yi)构成一个样本,数据集D={(x1,y1),(x2,y2),...,(xm,ym)}共有m条样本;
在数据集D基础上,构建小样本数据集,进而构建支撑集和查询集。
小样本意图识别任务通常由若干元任务构成;一个元任务T通常包含两个部分:支撑集和查询集,即T={S,Q},其中,S表示支撑集,Q表示查询集;支撑集S由NS个标注样本组成,即支撑集
Figure BDA0003951978440000031
其中
Figure BDA0003951978440000032
为文本,
Figure BDA0003951978440000033
依次为这些文本的意图类别标签;查询集Q由NQ个未标注样本组成,即查询集
Figure BDA0003951978440000034
其中,
Figure BDA0003951978440000035
是文本,
Figure BDA0003951978440000036
是需要预测的意图类别标签。
步骤2:获得步骤1中构建的支撑集和查询集中文本的句法短语标签序列,生成短语标签嵌入矩阵;
首先,使用句法分析器对文本中句子s进行句法分析,获得短语标签序列;
设句子s=(w1,w2,...,wn),其中,w1,w2,...,wn表示词语,n为该句子s的词语数目。
然后,构造支撑集和查询集的短语标签字典PhraseDict和短语标签表PhraseList;短语标签字典PhraseDict为所有短语标签的集合,短语标签表PhraseList由每个句子的短语标签序列构成;对于短语标签字典中的所有短语标签使用Word2vec生成短语标签嵌入矩阵
Figure BDA0003951978440000037
其中,np表示短语标签字典的标签个数,d表示短语标签嵌入的维度。
步骤3:获得步骤1中构建的支撑集和查询集中文本的语义角色标签序列,生成语义角色标签嵌入矩阵;
首先,对于句子s,使用语义角色标注工具对文本句子s进行语义角色标注,获得语义角色标签序列。
然后,构造该支撑集和查询集的语义角色标签字典SrlDict和语义角色表SrlList。语义角色字典SrlDict为所有语义角色标签的集合,语义角色表SrlList由每个句子的语义角色标签序列构成。
对于字典中的所有语义角色标签,使用Word2vec生成语义角色标签嵌入矩阵
Figure BDA0003951978440000041
其中,nsrl表示语义角色标签字典的标签个数,d表示嵌入维度。
步骤4:生成支撑集和查询集中文本的词级别的语义特征向量;
首先,使用预训练模型BERT对文本句子进行编码,生成词向量;具体地,对于句子s,经过BERT编码后获得特征向量w,如公式(1)所示:
w=BERT(s),                        (1)
在句子中,不同的词语对句子的语义表示通常产生不同程度的关联或贡献,构建词级别的语义特征向量sw,如公式(2)、(3)和(4)所示:
uw=tanh(Wwwt+bw),                    (2)
αw=exp(uw)/∑texp(uw),                (3)
sw=∑tαwuw,                         (4)
其中,tanh(·)为双曲正切函数,Ww为初始化权重,在训练中更新Ww,wt表示句子的第t个词,bw表示初始化偏置值,αw表示注意力权重,exp表示以e为底的指数函数。
步骤5:生成支撑集和查询集中文本的短语级别的语义特征向量;
根据步骤2中得到的短语标签嵌入矩阵和短语标签表得到短语标签序列的初始化嵌入,使用双向长短期记忆网络(Bidirectional long-short term memory,简称Bi-LSTM)编码生成深层次特征。引入自注意力机制,构建短语级别的语义特征向量。
具体地,根据步骤2中得到的短语标签嵌入矩阵Wp和短语标签表PhraseList,得到句子短语标签序列的初始化嵌入
Figure BDA0003951978440000042
其中,
Figure BDA0003951978440000043
表示句子中的短语标签向量,Np为句子包含的短语标签个数;
采用双向长短期记忆网络Bi-LSTM对短语标签序列的初始化嵌入进行编码,隐藏层维度设置为128维;句子中不同短语对句子的语义表示产生不同程度的关联或贡献;计算短语级别的注意力权重,进而构建短语级别的语义特征向量sp,如公式(5)、(6)和(7)所示:
up=tanh(Wpp′t+bp),                      (5)
αp=exp(up)/∑texp(up),                  (6)
sp=∑tαpup,                           (7)
其中,tanh(·)为双曲正切函数,Wp为初始化权重,在训练中不断更新,pt′表示第t个短语标签,bp表示初始化偏置值,αp表示注意力权重,exp表示以e为底的指数函数。
步骤6:生成支撑集和查询集中文本的语义角色级别的语义特征向量;
根据步骤3中得到的语义角色嵌入矩阵和语义角色表,构建语义角色标签序列的初始化嵌入,使用双向长短期记忆网络模型Bi-LSTM编码生成深层次特征。引入自注意力机制,构建语义角色级别的语义特征向量。
具体地,根据步骤3中得到的语义角色标签嵌入矩阵Wsrl和语义角色表SrlList,得到语义角色标签序列的初始化嵌入
Figure BDA0003951978440000051
其中,rolez表示句子中的语义角色标签向量,z=1,2,...,Nr,Nr为句子包含的语义角色标签个数;
采用双向长短期记忆网络模型Bi-LSTM对语义角色标签序列的初始化嵌入进行编码;隐藏层维度设置为128维,将正反两个方向的向量进行拼接得到最终的向量表示r′,其维度为256维;
计算语义角色级别的注意力权重,并构建语义角色级别的语义特征向量sr,如公式(8)、(9)和(10)所示:
ur=tanh(Wrrt′+br),                   (8)
αr=exp(ur)/∑texp(ur),               (9)
sr=∑tαrur,                        (10)
其中,tanh(·)为双曲正切函数,Wr为初始化权重,在训练中更新,rt′表示第t个语义角色标签,br表示初始化偏置值,αr表示注意力权重,exp表示以e为底的指数函数。
步骤7:生成支撑集和查询集中文本的混合语义特征向量即样本向量,生成查询问句的混合语义特征向量即查询向量;
将步骤4生成的词级别的语义特征向量、步骤5生成的短语级别的语义特征向量、步骤6生成的语义角色级别的语义特征向量进行拼接,得到最终的样本和查询问句的混合语义特征向量。
具体地,为了得到句子的语义特征向量s,将句子s的词语级别的语义特征向量sw、短语级别的语义特征向量sp,以及语义角色级别的语义特征向量sr,进行拼接:
s=concat(sw,sp,sr),                   (11)
支撑集中的样本经过步骤7生成样本的混合语义特征向量,作为样本向量。查询集中的查询问句样本经过步骤7生成查询问句的混合语义特征向量,作为查询向量。
步骤8:将支撑集中样本的混合语义特征向量映射为意图类别表示;
首先,将支撑集中的样本向量sju输入到胶囊网络之后,使用转换权重Ws对其进行维度变换:
Figure BDA0003951978440000061
其中,样本向量sju为意图类别j支撑集中的第u个样本向量;对于该支撑集里的所有样本向量,转换权重Ws是共享的;转换权重Ws会在训练中不断更新;加权求和得到类别j的预测类向量
Figure BDA0003951978440000062
Figure BDA0003951978440000063
其中,dju称为耦合系数;
其次,使用挤压(Squash)函数来代替激活函数:
Figure BDA0003951978440000071
其中,x是任一变量;
然后,通过非线性挤压函数,可以将预测意图类向量
Figure BDA0003951978440000072
缩放到0~1之间得到意图类向量cj
Figure BDA0003951978440000073
计算意图类向量cj与各个样本
Figure BDA0003951978440000074
的内积;
最后,更新耦合系数(Coupling coefficient)dju
Figure BDA0003951978440000075
dju=softmax(bju),                     (17)
在第一次迭代时bju初始化为0,说明每个样本对于类别表示的影响是相同的,在训练过程中更新耦合系数dju和bju,以改变不同样本对类别表示产生的影响。该支撑集中每个样本的耦合系数之和为1,其实表示抽象含义“每个部分按照不同的比例构成了一个整体”。在多次迭代之后,与类别表示相关性较大的样本信息会增加,而与类别表示相关性较小的样本信息则会被过滤掉,基于动态路由的思想,与对样本向量求均值等方法相比较,具有更好的健壮性和有效性。
步骤9:基于点积相似度方法计算查询问句和意图类别表示的相似度;
计算从步骤7中获得的查询向量q与从步骤8中获得的各个意图类别表示cj的相似度:
score1=SIM(q,cj),                      (18)
其中,SIM(·)表示采用点积计算相似度。
步骤10:计算词语的层次类别特征;
对于数据集中的标注数据,设共有H个意图类别;首先去除掉停用词,统计其词汇总数M,并给每个特征词a编号,转换成特征词词典DW;对于词典DW中的每一个特征词a,计算其混合特征因子θ,构成混合特征因子字典
Figure BDA0003951978440000076
计算特征词词频、反文档频率、类别频率因子、类内分布均匀因子,相乘后获得所有特征词的混合特征因子,并构建混合特征因子字典;
首先,特征词词频的计算方法如公式(19)所示:
Figure BDA0003951978440000081
其中,f(a,cj)表示在类别cj(j=1,2,3,...,H,H为意图类别数量)中特征词a出现的次数;f(cj)表示在类别cj中所有的词条总数;
其次,反文档频率的计算方法如公式(20)所示:
Figure BDA0003951978440000082
其中,N1表示训练集中样本总数,N2表示所有意图类别中包含特征词t的样本数;
然后,类别频率因子β的计算方法如公式(21)所示:
Figure BDA0003951978440000083
其中,N(a,cj)表示在类别cj中包含特征词a的样本数,N(cj)表示类别cj中包含的样本总数,N(a,co)表示在除了类别cj之外的其他类别样本集中,包含特征词a的样本数;
最后,类内分布均匀因子γ的计算方法如公式(22)所示:
Figure BDA0003951978440000084
其中,f(a,cjm)表示在类别cj中第m个样本中特征词a的词频,
Figure BDA0003951978440000085
为类别cj中样本总数,
Figure BDA0003951978440000086
表示在类别ci中特征词α的平均词频,ε是一个较小的常数;混合特征因子的计算方法如公式(23)所示:
θ=TF*IDF*β*γ,                            (23)
步骤11:计算基于层次类别特征的查询问句和意图类别的相似度;
对于类别cj中的所有支撑集样本,根据混合特征因子字典
Figure BDA0003951978440000091
构建样本的混合特征因子序列,取均值后作为该类别的表示
Figure BDA0003951978440000092
对于待分类的查询问句,计算其混合特征因子序列qθ,与各个类别表示
Figure BDA0003951978440000093
计算相似度:
Figure BDA0003951978440000094
其中,SIM(·)表示采用点积计算相似度;
步骤12:生成查询问句所属意图类别的概率分布;
融合步骤9中的相似度分数和步骤12中的相似度分数,经过softmax函数后,获得一个查询问句属于每个类别的最终概率分布。
具体地,对于意图待分类的查询问句,在步骤9中获得相似度分数score1,在步骤12中获得相似度分数score2
融合两个相似度分数,获得查询问句与各个类别的意图最终相似度分数score:
score=score1+λscore2,                   (25)
其中,λ为平衡因子。
经过softmax函数后,得到该查询问句属于每个类别的概率分布fE
fE=softmax(score).                       (26)
有益效果
本发明采用一种基于多层次注意力和层次类别特征的小样本意图识别方法,对查询问句进行意图分类。与现有的相关方法相比,该方法的特点是:
(1)针对现有的意图识别方法没有充分利用文本语义信息和统计特征的问题,本方法提出了多层次注意力机制和特征词的层次类别特征,充分挖掘词语、短语和语义角色不同层次特征,从词频、反文档频率、类内分布均匀度、类间分布均匀度四个方面利用文本统计特征,捕获同一类别内、不同类别之间的特征词统计特征,能够有效提升小样本意图识别的准确率。
(2)针对现有的意图识别方法缺少从样本表示到类别表示的建模的问题,本方法提出了基于动态路由的类别归纳方法。该方法基于胶囊网络中动态路由的思想,学习样本表示和类别表示之间的非线性映射关系,过滤掉与分类无关的特征,减少噪音词语对意图识别的影响。
(3)所述方法在公开数据集进行实验,实验结果表明了该发明方法的有效性和优越性。所述方法在问答系统、信息检索和对话机器人等领域具有广阔的应用前景。
附图说明
图1为本发明一种基于多层次注意力和层次类别特征的小样本意图识别的流程示意图。
具体实施方式
基于本发明的小样本意图识别方法以PyTorch为开发工具,Python为开发语言。下面结合实施例对本发明一种基于多层次注意力和层次类别特征的小样本意图识别的优选实施方式进行详细说明。
实施例
基于多层次注意力和层次类别特征的小样本意图识别方法,如图1所示,包括如下步骤:
步骤1:构建支撑集和查询集;
设由词语构成的文本xi=(xi1,xi2,xi3,...,xit),xik为词语,其中,i和t为自然数,k=1,2,3,...,t。文本xi对应的意图类别标签为yi
Figure BDA0003951978440000101
其中,
Figure BDA0003951978440000102
为意图类别集合,Nc为意图类别数量。一组(xi,yi)构成一个样本,数据集D={(x1,y1),(x2,y2),...,(xm,ym)}共有m条样本;
在数据集D基础上,构建小样本数据集,进而构建支撑集和查询集。
小样本意图识别任务通常由若干元任务构成;一个元任务T通常包含两个部分:支撑集和查询集,即T={S,Q},其中,S表示支撑集,Q表示查询集;支撑集S由NS个标注样本组成,即支撑集
Figure BDA0003951978440000103
其中
Figure BDA0003951978440000111
为文本,
Figure BDA0003951978440000112
依次为这些文本的意图类别标签;查询集Q由NQ个未标注样本组成,即查询集
Figure BDA0003951978440000113
其中,
Figure BDA0003951978440000114
是文本,
Figure BDA0003951978440000115
是需要预测的意图类别标签。
例如,意图类别为“PlayMusic”的一个支撑集有3个样本:{(play some seventiesmusic on Netflix,PlayMusic),(play music from 2015,PlayMusic),(play the songjingle bells,PlayMusic)}。现有一查询集样本为“play the song iheart”,小样本意图识别任务是预测该查询集样本的意图类别标签。
步骤2:获得步骤1中构建的支撑集和查询集中文本的句法短语标签序列,生成短语标签嵌入矩阵;
首先,使用句法分析器对文本句子s进行句法分析,获得短语标签序列;
设句子s=(w1,w2,...,wn),其中,w1,w2,...,wn表示词语,n为该句子s的词语数目。
然后,构造支撑集和查询集的短语标签字典PhraseDict和短语标签表PhraseList;短语标签字典PhraseDict为所有短语标签的集合,短语标签表PhraseList由每个句子的短语标签序列构成;对于短语标签字典中的所有短语标签使用Word2vec生成短语标签嵌入矩阵
Figure BDA0003951978440000116
其中,np表示短语标签字典的标签个数,d表示短语标签嵌入的维度。在本实施例中,短语标签嵌入的维度设置为200维。
例如,对于文本“I want to book a restaurant not far from our college”,使用斯坦福句法分析器获得该文本的句法短语标签序列为“('NP','VP','VP','VP','NP','NP','ADVP','ADVP','PP','NP','NP)”。
步骤3:获得步骤1中构建的支撑集和查询集中文本的语义角色标签序列,生成语义角色标签嵌入矩阵;
首先,对于句子s,使用语义角色标注工具对文本句子s进行语义角色标注,获得语义角色标签序列。
然后,构造该支撑集和查询集的语义角色标签字典SrlDict和语义角色表SrlList。语义角色字典SrlDict为所有语义角色标签的集合,语义角色表SrlList由每个句子的语义角色标签序列构成。
对于字典中的所有语义角色标签,使用Word2vec生成语义角色标签嵌入矩阵
Figure BDA0003951978440000121
其中,nsrl表示语义角色标签字典的标签个数,d表示嵌入维度。
在本实施例中,语义角色标签嵌入的维度设置为200维。例如,对于句子“I wantto book a restaurant not far from our college”,使用语义角色标注工具HanLP获得该文本的语义角色标签序列为“('ARG0','PRED','ARG1','ARG1','ARG1','ARG1','ARG1','ARG1','ARG1','ARG1','ARG1')”。
步骤4:生成支撑集和查询集中文本的词级别的语义特征向量;
首先,使用预训练模型BERT对文本句子进行编码,生成词向量;具体地,对于句子s,经过BERT编码后获得特征向量w,如公式(1)所示:
w=BERT(s),                        (1)
在句子中,不同的词语对句子的语义表示通常产生不同程度的关联或贡献,构建词级别的语义特征向量sw,如公式(2)、(3)和(4)所示:
uw=tanh(Wwwt+bw),                    (2)
αw=exp(uw)/∑texp(uw),                (3)
sw=∑tαwuw,                        (4)
其中,tanh(·)为双曲正切函数,Ww为初始化权重,在训练中更新Ww,wt表示句子的第t个词,bw表示初始化偏置值,αw表示注意力权重,exp表示以e为底的指数函数。
步骤5:生成支撑集和查询集中文本的短语级的语义特征向量;
根据步骤2中得到的短语标签嵌入矩阵和短语标签表得到短语标签序列的初始化嵌入,使用双向长短期记忆网络(Bidirectional long-short term memory,简称Bi-LSTM)编码生成深层次特征。引入自注意力机制,构建短语级别的语义特征向量。
具体地,根据步骤2中得到的短语标签嵌入矩阵Wp和短语标签表PhraseList,得到句子短语标签序列的初始化嵌入
Figure BDA0003951978440000131
其中,
Figure BDA0003951978440000132
表示句子中的短语标签向量,Np为句子包含的短语标签个数;
采用双向长短期记忆网络Bi-LSTM对短语标签序列的初始化嵌入进行编码,隐藏层维度设置为128维;句子中不同短语对句子的语义表示产生不同程度的关联或贡献;计算短语级别的注意力权重,进而构建短语级别的语义特征向量sp,如公式(5)、(6)和(7)所示:
up=tanh(Wpp′t+bp),                      (5)
αp=exp(up)/∑texp(up),                  (6)
sp=∑tαpup,                           (7)
其中,tanh(·)为双曲正切函数,Wp为初始化权重,在训练中不断更新,pt′表示第t个短语标签,bp表示初始化偏置值,αp表示注意力权重,exp表示以e为底的指数函数。
步骤6:生成支撑集和查询集中文本的语义角色级别的语义特征向量;
根据步骤3中得到的语义角色嵌入矩阵和语义角色表,构建语义角色标签序列的初始化嵌入,使用双向长短期记忆网络模型Bi-LSTM编码生成深层次特征。引入自注意力机制,构建语义角色级别的语义特征向量。
具体地,根据步骤3中得到的语义角色标签嵌入矩阵Wsrl和语义角色表SrlList,得到语义角色标签序列的初始化嵌入
Figure BDA0003951978440000133
其中,rolez表示句子中的语义角色标签向量,z=1,2,...,Nr,Nr为句子包含的语义角色标签个数;
采用双向长短期记忆网络模型Bi-LSTM对语义角色标签序列的初始化嵌入进行编码;隐藏层维度设置为128维,将正反两个方向的向量进行拼接得到最终的向量表示r′,其维度为256维;
计算语义角色级别的注意力权重,并构建语义角色级别的语义特征向量sr,如公式(8)、(9)和(10)所示:
ur=tanh(Wrrt′+br),                      (8)
αr=exp(ur)/∑texp(ur),                  (9)
sr=∑tαrur,                          (10)
其中,tanh(·)为双曲正切函数,Wr为初始化权重,在训练中更新,rt′表示第t个语义角色标签,br表示初始化偏置值,αr表示注意力权重,exp表示以e为底的指数函数。
步骤7:生成支撑集和查询集中文本的混合语义特征向量即样本向量,生成查询问句的混合语义特征向量即查询向量;
将步骤4生成的词级别的语义特征向量、步骤5生成的短语级别的语义特征向量、步骤6生成的语义角色级别的语义特征向量进行拼接,得到最终的样本和查询问句的混合语义特征向量。
具体地,为了得到句子的语义特征向量s,将句子s的词语级别的语义特征向量sw、短语级别的语义特征向量sp,以及语义角色级别的语义特征向量sr,进行拼接:
s=concat(sw,sp,sr),                    (11)
支撑集中的样本经过步骤7生成样本的混合语义特征向量,作为样本向量。查询集中的查询问句样本经过步骤7生成查询问句的混合语义特征向量,作为查询向量。
步骤8:将支撑集中样本的混合语义特征向量映射为意图类别表示;
首先,将支撑集中的样本向量sju输入到胶囊网络之后,使用转换权重Ws对其进行维度变换:
Figure BDA0003951978440000141
其中,样本向量sju为意图类别j支撑集中的第u个样本向量;对于该支撑集里的所有样本向量,转换权重Ws是共享的;转换权重Ws会在训练中不断更新;加权求和得到类别j的预测类向量
Figure BDA0003951978440000151
Figure BDA0003951978440000152
其中,dju称为耦合系数;
其次,使用挤压(Squash)函数来代替激活函数:
Figure BDA0003951978440000153
其中,x是任一变量;
然后,通过非线性挤压函数,可以将预测意图类向量
Figure BDA0003951978440000154
缩放到0~1之间得到意图类向量cj
Figure BDA0003951978440000155
计算意图类向量cj与各个样本
Figure BDA0003951978440000156
的内积;
最后,更新耦合系数(Coupling coefficient)dj
Figure BDA0003951978440000157
dju=softmax(bju),                      (17)
在第一次迭代时bju初始化为0,说明每个样本对于类别表示的影响是相同的,在训练过程中更新耦合系数dju和bju,以改变不同样本对类别表示产生的影响。该支撑集中每个样本的耦合系数之和为1,其实表示抽象含义“每个部分按照不同的比例构成了一个整体”。在多次迭代之后,与类别表示相关性较大的样本信息会增加,而与类别表示相关性较小的样本信息则会被过滤掉,基于动态路由的思想,与对样本向量求均值等方法相比较,具有更好的健壮性和有效性。
例如,意图类别为“PlayMusic”的一个支撑集有3个样本:“play some seventiesmusic on netflix”、“play music from 2015”和“play the song jingle bells”。通过上述步骤以后,便可以得到“PlayMusic”类的类别表示。
步骤9:基于点积相似度方法计算查询问句和意图类别表示的相似度;
计算从步骤7中获得的查询向量q与从步骤8中获得的各个意图类别表示cj的相似度:
score1=SIM(q,cj),                     (18)
其中,SIM(·)表示采用点积计算相似度。
步骤10:获取词语的层次类别特征;
对于数据集中的标注数据,设共有H个意图类别;首先去除掉停用词,统计其词汇总数M,并给每个特征词a编号,转换成特征词词典DW;对于词典DW中的每一个特征词a,计算其混合特征因子θ,构成混合特征因子字典
Figure BDA0003951978440000161
计算特征词词频、反文档频率、类别频率因子、类内分布均匀因子,相乘后获得所有特征词的混合特征因子,并构建混合特征因子字典;
首先,特征词词频的计算方法如公式(19)所示:
Figure BDA0003951978440000162
其中,f(a,cj)表示在类别cj(j=1,2,3,...,H,H为意图类别数量)中特征词a出现的次数;f(cj)表示在类别cj中所有的词条总数;
其次,反文档频率的计算方法如公式(20)所示:
Figure BDA0003951978440000163
其中,N1表示训练集中样本总数,N2表示所有意图类别中包含特征词t的样本数;
然后,类别频率因子β的计算方法如公式(21)所示:
Figure BDA0003951978440000164
其中,N(a,cj)表示在类别cj中包含特征词a的样本数,N(cj)表示类别cj中包含的样本总数,N(a,co)表示在除了类别cj之外的其他类别样本集中,包含特征词a的样本数;
最后,类内分布均匀因子γ的计算方法如公式(22)所示:
Figure BDA0003951978440000171
其中,f(a,cjm)表示在类别cj中第m个样本中特征词a的词频,
Figure BDA0003951978440000172
为类别cj中样本总数,
Figure BDA0003951978440000173
表示在类别ci中特征词α的平均词频,ε是一个较小的常数;混合特征因子的计算方法如公式(23)所示:
θ=TF*IDF*β*γ,                    (23)
步骤11:计算基于层次类别特征的查询问句和意图类别的相似度;
对于类别cj中的所有支撑集样本,根据混合特征因子字典
Figure BDA0003951978440000174
构建样本的混合特征因子序列,取均值后作为该类别的表示
Figure BDA0003951978440000175
对于待分类的查询问句,计算其混合特征因子序列qθ,与各个类别表示
Figure BDA0003951978440000176
计算相似度:
Figure BDA0003951978440000177
其中,SIM(·)表示采用点积计算相似度;
步骤12:生成查询问句所属意图类别的概率分布;
融合步骤9中的相似度分数和步骤12中的相似度分数,经过softmax函数后,获得一个查询问句属于每个类别的概率分布。
具体地,对于待分类意图的查询问句,在步骤9中获得相似度分数score1,在步骤12中得到了相似度分数score2
融合两个相似度分数,得到查询问句与各个类别的意图最终相似度分数score:
score=score1+λscore2                  (25)
其中,λ为平衡因子。
经过softmax函数后,获得该查询问句属于每个类别的最终概率分布fE
fE=softmax(score),                     (26)
为说明本发明的小样本意图识别效果。本实验是在同等条件下,以相同的训练集和测试集分别采用三种方法进行比较。
第一种方法是基于预训练模型BERT的条件文本生成方法,第二种方法是基于对比预训练和微调模型的方法。第三种是本发明的基于多层次注意力机制和层次类别特征的小样本意图识别方法。
采用的评测指标为正确率。对于已知意图类别的识别,第一种方法的正确率为98.30%。对于未知意图类别的识别,第一种方法的正确率为82.94%。对于已知意图类别的识别,第二种方法的正确率为98.73%。对于未知意图类别的识别,第二种方法的正确率为82.61%。对于已知意图类别的识别,本发明的基于多层次注意力机制和层次类别特征的小样本意图识别方法的正确率为98.79%。对于未知意图类别的识别,本发明方法的正确率为83.79%。实验结果表明,本发明提出的基于多层次注意力机制和层次类别特征的小样本意图识别方法的性能优于另外两种方法的性能,即表明了本发明方法的有效性。
以上所述为本发明的较佳实施例而已,本发明不应局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改,都落入本发明保护的范围。

Claims (10)

1.基于多层次注意力和层次类别特征的小样本意图识别方法,其特征在于该方法的步骤包括:
步骤1:构建支撑集和查询集;
步骤2:获得步骤1中构建的支撑集和查询集中文本的句法短语标签序列,生成短语标签嵌入矩阵;
步骤3:获得步骤1中构建的支撑集和查询集中文本的语义角色标签序列,生成语义角色标签嵌入矩阵;
步骤4:生成支撑集和查询集中文本的词级别的语义特征向量;
步骤5:生成支撑集和查询集中文本的短语级别的语义特征向量;
步骤6:生成支撑集和查询集中文本的语义角色级别的语义特征向量;
步骤7:生成支撑集和查询集中文本的混合语义特征向量即样本向量,生成查询问句的混合语义特征向量即查询向量;
步骤8:将支撑集中样本的混合语义特征向量映射为意图类别表示;
步骤9:基于点积相似度方法计算查询问句和意图类别表示的相似度;
步骤10:获取词语的层次类别特征;
步骤11:计算基于层次类别特征的查询问句和意图类别的相似度;
步骤12:生成查询问句所属意图类别的概率分布。
2.根据权利要求1所述的基于多层次注意力和层次类别特征的小样本意图识别方法,其特征在于:
步骤1中,构建支撑集和查询集的方法为:
设由词语构成的文本xi=(xi1,xi2,xi3,...,xit),xik为词语,其中,i和t为自然数,k=1,2,3,...,t。文本xi对应的意图类别标签为yi
Figure FDA0003951978430000011
其中,
Figure FDA0003951978430000012
为意图类别集合,Nc为意图类别数量。一组(xi,yi)构成一个样本,数据集D={(x1,y1),(x2,y2),...,(xm,ym)}共有m条样本;
在数据集D基础上,构建小样本数据集,进而构建支撑集和查询集;
小样本意图识别任务通常由若干元任务构成;一个元任务T通常包含两个部分:支撑集和查询集,即T={S,Q},其中,S表示支撑集,Q表示查询集;支撑集S由NS个标注样本组成,即支撑集
Figure FDA0003951978430000021
其中
Figure FDA0003951978430000022
为文本,
Figure FDA0003951978430000023
依次为这些文本的意图类别标签;查询集Q由NQ个未标注样本组成,即查询集
Figure FDA0003951978430000024
其中,
Figure FDA0003951978430000025
是文本,
Figure FDA0003951978430000026
是需要预测的意图类别标签。
3.根据权利要求2所述的基于多层次注意力和层次类别特征的小样本意图识别方法,其特征在于:
步骤2中,获得步骤1中构建的支撑集和查询集中文本的句法短语标签序列,生成短语标签嵌入矩阵的方法为:
首先,使用句法分析器对文本句子s进行句法分析,获得短语标签序列;
设句子s=(w1,w2,...,wn),其中,w1,w2,...,wn表示词语,n为该句子s的词语数目;
然后,构造支撑集和查询集的短语标签字典PhraseDict和短语标签表PhraseList;短语标签字典PhraseDict为所有短语标签的集合,短语标签表PhraseList由每个句子的短语标签序列构成;对于短语标签字典中的所有短语标签使用Word2vec生成短语标签嵌入矩阵
Figure FDA0003951978430000027
其中,np表示短语标签字典的标签个数,d表示短语标签嵌入的维度。
4.根据权利要求3所述的基于多层次注意力和层次类别特征的小样本意图识别方法,其特征在于:
步骤3中,获得步骤1中构建的支撑集和查询集中文本的语义角色标签序列,生成语义角色标签嵌入矩阵的方法为:
首先,对于句子s,使用语义角色标注工具对文本句子s进行语义角色标注,获得语义角色标签序列;
然后,构造该支撑集和查询集的语义角色标签字典SrlDict和语义角色表SrlList;语义角色字典SrlDict为所有语义角色标签的集合,语义角色表SrlList由每个句子的语义角色标签序列构成;
对于字典中的所有语义角色标签,使用Word2vec生成语义角色标签嵌入矩阵
Figure FDA0003951978430000031
其中,nsrl表示语义角色标签字典的标签个数,d表示嵌入维度。
5.根据权利要求4所述的基于多层次注意力和层次类别特征的小样本意图识别方法,其特征在于:
步骤4中,生成支撑集和查询集文本的词级别的语义特征向量的方法为:
首先,使用预训练模型BERT对文本句子进行编码,生成词向量;具体地,对于句子s,经过BERT编码后获得特征向量w,如公式(1)所示:
w=BERT(s),                       (1)
在句子中,不同的词语对句子的语义表示通常产生不同程度的关联或贡献,构建词级别的语义特征向量sw,如公式(2)、(3)和(4)所示:
uw=tanh(Wwwt+bw),                 (2)
αw=exp(uw)/∑texp(uw),              (3)
sw=∑tαwuw,                      (4)
其中,tanh(·)为双曲正切函数,Ww为初始化权重,在训练中更新Ww,wt表示句子的第t个词,bw表示初始化偏置值,αw表示注意力权重,exp表示以e为底的指数函数。
6.根据权利要求5所述的基于多层次注意力和层次类别特征的小样本意图识别方法,其特征在于:
步骤5中,生成支撑集和查询集文本的短语级别的语义特征向量的方法为:
根据步骤2中得到的短语标签嵌入矩阵Wp和短语标签表PhraseList,得到句子短语标签序列的初始化嵌入
Figure FDA0003951978430000032
其中,
Figure FDA0003951978430000033
表示句子中的短语标签向量,Np为句子包含的短语标签个数;
采用双向长短期记忆网络模型Bi-LSTM对短语标签序列的初始化嵌入进行编码,隐藏层维度设置为128维;句子中不同短语对句子的语义表示产生不同程度的关联或贡献;计算短语级别的注意力权重,进而构建短语级别的语义特征向量sp,如公式(5)、(6)和(7)所示:
up=tanh(Wpp′t+bp),                      (5)
αp=exp(up)/∑texp(up),                  (6)
sp=∑tαpup,                           (7)
其中,tanh(·)为双曲正切函数,Wp为初始化权重,在训练中不断更新,p′t表示第t个短语标签,bp表示初始化偏置值,αp表示注意力权重,exp表示以e为底的指数函数。
7.根据权利要求6所述的基于多层次注意力和层次类别特征的小样本意图识别方法,其特征在于:
步骤6中,生成支撑集和查询集文本的语义角色级别的语义特征向量的方法为:
根据步骤3中得到的语义角色标签嵌入矩阵Wsrl和语义角色表SrlList,得到语义角色标签序列的初始化嵌入
Figure FDA0003951978430000041
其中,rolez表示句子中的语义角色标签向量,z=1,2,...,Nr,Nr为句子包含的语义角色标签个数;
采用双向长短期记忆网络模型Bi-LSTM对语义角色标签序列的初始化嵌入进行编码;隐藏层维度设置为128维,将正反两个方向的向量进行拼接得到最终的向量表示r′,其维度为256维;
计算语义角色级别的注意力权重,并构建语义角色级别的语义特征向量sr,如公式(8)、(9)和(10)所示:
ur=tanh(Wrr′t+br),                  (8)
αr=exp(ur)/∑texp(ur),              (9)
sr=∑tαrur,                       (10)
其中,tanh(·)为双曲正切函数,Wr为初始化权重,在训练中更新,rt′表示第t个语义角色标签,br表示初始化偏置值,αr表示注意力权重,exp表示以e为底的指数函数。
8.根据权利要求7所述的基于多层次注意力和层次类别特征的小样本意图识别方法,其特征在于:
步骤7中,生成支撑集和查询集文本的混合语义特征向量的方法为:将步骤4生成的句子s的词语级别的语义特征向量sw、步骤5生成的短语级别的语义特征向量sp,以及步骤6生成的语义角色级别的语义特征向量sr,进行拼接:
concat(sw,sp,sr),      (11)
支撑集中的样本经过步骤7生成样本的混合语义特征向量,作为样本向量;查询集中的查询问句样本经过步骤7生成查询问句的混合语义特征向量,作为查询向量。
9.根据权利要求8所述的基于多层次注意力和层次类别特征的小样本意图识别方法,其特征在于:
步骤8中,将支撑集中的样本语义特征向量映射为意图类别表示的方法为:
首先,将支撑集中的样本向量sju输入到胶囊网络之后,使用转换权重Ws对其进行维度变换:
Figure FDA0003951978430000051
其中,样本向量sju为意图类别j支撑集中的第u个样本向量;对于该支撑集里的所有样本向量,转换权重Ws是共享的;转换权重Ws会在训练中不断更新;加权求和得到类别j的预测类向量
Figure FDA0003951978430000052
Figure FDA0003951978430000053
其中,dju称为耦合系数;
其次,使用挤压(Squash)函数来代替激活函数:
Figure FDA0003951978430000054
其中,x是任一变量;
然后,通过非线性挤压函数,可以将预测意图类向量
Figure FDA0003951978430000061
缩放到0~1之间得到意图类向量cj
Figure FDA0003951978430000062
计算意图类向量cj与各个样本
Figure FDA0003951978430000063
的内积;
最后,更新耦合系数(Coupling coefficient)dju
Figure FDA0003951978430000064
dju=softmax(bju),                      (17)
步骤9:计算查询向量和查询类别表示的相似度;
计算从步骤7中获得的查询向量q与从步骤8中获得的各个意图类别表示cj的相似度:
score1=SIM(q,cj),                     (18)
其中,SIM(·)表示采用点积计算相似度。
10.根据权利要求9所述的基于多层次注意力和层次类别特征的小样本意图识别方法,其特征在于:
步骤10中,计算词语的层次类别特征的方法为:
对于数据集中的标注数据,设共有H个意图类别;首先去除掉停用词,统计其词汇总数M,并给每个特征词t编号,转换成特征词词典DW;对于词典DW中的每一个特征词a,计算其混合特征因子θ,并构建混合特征因子字典
Figure FDA0003951978430000065
计算特征词词频、反文档频率、类别频率因子、类内分布均匀因子,相乘后获得所有特征词的混合特征因子,并构建混合特征因子字典;
首先,特征词词频的计算方法如公式(19)所示:
Figure FDA0003951978430000066
其中,f(a,cj)表示在类别cj(i=1,2,3,...,H,H为意图类别数量)中特征词a出现的次数;f(cj)表示在类别cj中所有的词条总数;
其次,反文档频率的计算方法如公式(20)所示:
Figure FDA0003951978430000071
其中,N1表示训练集中样本总数,N2表示所有意图类别中包含特征词t的样本数;
然后,类别频率因子β的计算方法如公式(21)所示:
Figure FDA0003951978430000072
其中,N(a,cj)表示在类别cj中包含特征词a的样本数,N(cj)表示类别cj中包含的样本总数,N(a,co)表示在除了类别cj之外的其他类别样本集中,包含特征词a的样本数;
最后,类内分布均匀因子γ的计算方法如公式(22)所示:
Figure FDA0003951978430000073
其中,f(a,cjm)表示在类别cj中第m个样本中特征词a的词频,
Figure FDA0003951978430000074
为类别cj中样本总数,
Figure FDA0003951978430000075
表示在类别ci中特征词α的平均词频,ε是一个较小的常数;混合特征因子的计算方法如公式(23)所示:
θ=TF*IDF*β*γ,                            (23)
步骤11中,计算基于层次类别特征的查询问句和意图类别的相似度的方法为:
对于类别cj中的所有支撑集样本,根据混合特征因子字典
Figure FDA0003951978430000076
构建样本的混合特征因子序列,取均值后作为该类别的表示
Figure FDA0003951978430000077
对于待分类的查询问句,计算其混合特征因子序列qθ,与各个类别表示
Figure FDA0003951978430000078
计算相似度:
Figure FDA0003951978430000079
其中,SIM(·)表示采用点积计算相似度;
步骤12中,生成查询问句所属类别的概率分布的方法为:融合步骤9中的相似度分数和步骤12中的相似度分数,经过softmax函数后,获得一个查询问句属于每个类别的最终概率分布;
对于意图待分类的查询问句,在步骤9中获得相似度分数score1,在步骤12中获得相似度分数score2
融合两个相似度分数,获得查询问句与各个类别的意图最终相似度分数score:
score=score1+λscore2,                   (25)
其中,λ为平衡因子;
经过softmax函数后,得到该查询问句属于每个类别的概率分布fE
fE=softmax(score).                      (26)。
CN202211452106.6A 2022-05-11 2022-11-21 基于多层次注意力和层次类别特征的小样本意图识别方法 Pending CN116049349A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2022105108074 2022-05-11
CN202210510807 2022-05-11

Publications (1)

Publication Number Publication Date
CN116049349A true CN116049349A (zh) 2023-05-02

Family

ID=86124650

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211452106.6A Pending CN116049349A (zh) 2022-05-11 2022-11-21 基于多层次注意力和层次类别特征的小样本意图识别方法

Country Status (1)

Country Link
CN (1) CN116049349A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116994076A (zh) * 2023-09-28 2023-11-03 中国海洋大学 一种基于双分支相互学习特征生成的小样本图像识别方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116994076A (zh) * 2023-09-28 2023-11-03 中国海洋大学 一种基于双分支相互学习特征生成的小样本图像识别方法
CN116994076B (zh) * 2023-09-28 2024-01-19 中国海洋大学 一种基于双分支相互学习特征生成的小样本图像识别方法

Similar Documents

Publication Publication Date Title
CN110245229B (zh) 一种基于数据增强的深度学习主题情感分类方法
Araque et al. A semantic similarity-based perspective of affect lexicons for sentiment analysis
Logeswaran et al. Sentence ordering and coherence modeling using recurrent neural networks
Spithourakis et al. Numeracy for language models: Evaluating and improving their ability to predict numbers
CN111738003B (zh) 命名实体识别模型训练方法、命名实体识别方法和介质
CN110192203A (zh) 用于多个自然语言处理(nlp)任务的联合多任务神经网络模型
Azpiazu et al. Multiattentive recurrent neural network architecture for multilingual readability assessment
CN107967318A (zh) 一种采用lstm神经网络的中文短文本主观题自动评分方法和系统
Yang et al. Hierarchical human-like deep neural networks for abstractive text summarization
CN108062388A (zh) 人机对话的回复生成方法和装置
CN111966917A (zh) 一种基于预训练语言模型的事件检测与摘要方法
CN108446271A (zh) 基于汉字部件特征的卷积神经网络的文本情感分析方法
CN112905736B (zh) 一种基于量子理论的无监督文本情感分析方法
CN111222318A (zh) 基于双通道双向lstm-crf网络的触发词识别方法
CN111368082A (zh) 一种基于层次网络的领域自适应词嵌入的情感分析方法
CN113761190A (zh) 文本识别方法、装置、计算机可读介质及电子设备
CN112000778A (zh) 一种基于语义识别的自然语言处理方法、装置和系统
CN112131345A (zh) 文本质量的识别方法、装置、设备及存储介质
CN110309515B (zh) 实体识别方法及装置
Obied et al. Bert multilingual and capsule network for arabic sentiment analysis
Li et al. Unifying model explainability and robustness for joint text classification and rationale extraction
Supraja et al. Regularized phrase-based topic model for automatic question classification with domain-agnostic class labels
CN116049349A (zh) 基于多层次注意力和层次类别特征的小样本意图识别方法
Zhang et al. Description-Enhanced Label Embedding Contrastive Learning for Text Classification
CN113990420A (zh) 一种电子病历命名实体识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination