CN113468869A - 一种语义分析模型生成方法、语义分析方法、装置及设备 - Google Patents
一种语义分析模型生成方法、语义分析方法、装置及设备 Download PDFInfo
- Publication number
- CN113468869A CN113468869A CN202110786562.3A CN202110786562A CN113468869A CN 113468869 A CN113468869 A CN 113468869A CN 202110786562 A CN202110786562 A CN 202110786562A CN 113468869 A CN113468869 A CN 113468869A
- Authority
- CN
- China
- Prior art keywords
- data
- trained
- classification
- prototype
- semantic analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种语义分析模型生成方法、语义分析方法、装置及设备,预训练生成编码器,将该编码器作为原型网络的编码器,并将第一待训练数据集输入原型网络,利用原型网络中的编码器获得各个第一待训练数据的编码向量,根据每个分类对应的第一待训练数据的编码向量获得该分类对应的原型向量。将第二待训练数据集合中的第二待训练数据输入原型网络,获得第二待训练数据与各分类的原型向量之间的距离。根据第二待训练数据与各分类之间的距离以及第二待训练数据对应的分类标签对原型网络进行训练,获得语义分析模型。即,在训练生成语义分析模型时,对模型中的编码器进行预先训练,使得该编码器获得先验知识,提高编码的准确性。
Description
技术领域
本申请涉及计算机处理技术,具体涉及一种语义分析模型生成方法、语义分析方法、装置及设备。
背景技术
意图理解是对话任务的重要模块,在新业务初期,由于每个意图往往只有几个或几十个样本,使得意图理解遇到冷启动问题。现有的小样本模型都是针对数据稀缺匮乏的小样本问题进行研究,但是真实业务场景的小样本数据集可能存在意图复杂且数据中各个意图的数量不均衡的情况。如何解决现有小样本模型在意图不均衡的复杂小样本数据上能够进行准确的语义分析是急需解决的技术问题。
发明内容
有鉴于此,本申请实施例提供一种语义分析模型生成方法、语义分析方法、装置及设备,以提高语义分析的准确性。
为实现上述目的,本申请实施例提供的技术方案如下:
在本申请实施例第一方面,提供了一种语义分析模型生成方法,所述方法包括:
获取第一待训练数据集和第二待训练数据集,所述第一待训练数据集包括多个第一待训练数据,所述第二待训练数据集包括多个第二待训练数据,所述多个第一待训练数据对应的多个分类与所述多个第二待训练数据对应的多个分类相同,所述分类用于表示所述第一待训练数据或所述第二待训练数据的语义;
将所述第一待训练数据集输入原型网络,利用所述原型网络中的编码器获得每个分类对应的原型向量;
针对任一第二待训练数据,将该第二待训练数据输入所述原型网络,获得所述第二待训练数据与各分类的原型向量之间的距离;
根据所述第二待训练数据与各分类的原型向量之间的距离以及所述第二待训练数据对应的分类标签对所述原型网络进行训练,获得语义分析模型。
在本申请实施例第二方面,提供了一种语义分析方法,所述方法包括:
获取待处理数据;
将所述待处理数据输入语义分析模型,获得所述待处理数据对应的编码向量与各分类的原型向量之间的距离,所述语义分析模型是根据第一方面所述的语义分析模型生成方法训练获得的;
将与所述待处理数据距离最小的原型向量对应的分类确定为所述待处理数据对应的分类;
根据所述待处理数据对应的分类获取所述待处理数据的语义。
在本申请实施例第三方面,提供了一种语义分析模型生成装置,所述装置包括:
第一获取单元,用于获取第一待训练数据集和第二待训练数据集,所述第一待训练数据集包括多个第一待训练数据,所述第二待训练数据集包括多个第二待训练数据,所述多个第一待训练数据对应的多个分类与所述多个第二待训练数据对应的多个分类相同,所述分类用于表示所述第一待训练数据或所述第二待训练数据的语义;
第二获取单元,用于将所述第一待训练数据集输入原型网络,利用所述原型网络中的编码器获得每个分类对应的原型向量;
第三获取单元,用于针对任一第二待训练数据,将该第二待训练数据输入所述原型网络,获得所述第二待训练数据与各分类的原型向量之间的距离;
第四获取单元,用于根据所述第二待训练数据与各分类的原型向量之间的距离以及所述第二待训练数据对应的分类标签对所述原型网络进行训练,获得语义分析模型。
在本申请实施例第四方面,提供了一种语义分析装置,所述装置包括:
第五获取单元,用于获取待处理数据;
第六获取单元,用于将所述待处理数据输入语义分析模型,获得所述待处理数据对应的编码向量与各分类的原型向量之间的距离,所述语义分析模型是根据第一方面所述的语义分析模型生成方法训练获得的;
确定单元,用于将与所述待处理数据距离最小的原型向量对应的分类确定为所述待处理数据对应的分类;
第七获取单元,用于根据所述待处理数据对应的分类获取所述待处理数据的语义。
在本申请实施例第五方面,提供了一种电子设备,所述设备包括:处理器和存储器;
所述存储器,用于存储指令或计算机程序;
所述处理器,用于执行所述存储器中的所述指令或计算机程序,以使得所述电子设备执行第一方面所述的方法,或者执行第二方面所述的方法。
在本申请实施例第六方面,提供了一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行以上第一方面所述的方法,或者执行第二方面所述的方法。
由此可见,本申请实施例具有如下有益效果:
在本申请实施例中,首先预训练生成编码器,并将该编码器作为原型网络的编码器,在获得第一待训练数据集后,将第一待训练数据集输入原型网络,利用原型网络中的编码器获得第一待训练数据集中各个第一待训练数据的编码向量,进而根据每个分类所对应的第一待训练数据的编码向量获得该分类对应的原型向量。对于第二待训练数据集合,将第二待训练数据集合中的第二待训练数据输入原型网络,获得第二待训练数据与各分类的原型向量之间的距离。根据第二待训练数据与各分类之间的距离以及第二待训练数据对应的分类标签对原型网络进行训练,获得语义分析模型。也就是,本申请实施例在训练生成语义分析模型时,对模型中的编码器进行预先训练,使得该编码器获得先验知识,从而提高编码器编码的准确性。
附图说明
图1为本申请实施例提供的一种语义分析模型生成方法流程图;
图2为本申请实施例提供的一种语义分析方法流程图;
图3为本申请实施例提供的一种语义分析模型框架示意图;
图4为本申请实施例提供的一种语义分析模型生成装置结构示意图;
图5为本申请实施例提供的一种语义分析装置结构图;
图6为本申请实施例提供的一种电子设备结构图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请实施例作进一步详细的说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,并非对本申请的限定。另外,还需要说明的是,为便于描述,附图中仅示出了与本申请相关的部分,并非全部结构。
为便于理解本申请实施例提供的技术方案,下面将先对本申请所涉及的技术进行说明。
目前针对数据稀缺匮乏的小样本问题主要采用小样本学习模型进行解决,然而在真实的业务场景中小样本数据可能存在意图复杂且不同意图对应的数据样本不均衡的情况,对于该种数据集,如果数据量较少,小样本学习模型的分类结果比基于Transformer的双向编码器表示(Bidirectional Encoder Representations from Transformers,BERT)模型的分类结果较好,而数据量较多时,小样本学习模型的分类效果不如BERT模型的分类效果。小样本学习(few-shot learning,FSL)是一种机器学习,主要利用先验知识快速泛化至仅包含少量具备监督信息的样本的训练任务中。
基于此,本申请实施例提供了一种基于原型网络的两阶段语义分析模型的生成方法,第一阶段首先训练编码器。在获得编码器后,将该编码器作为原型网络的编码器,并利用获得的第一待训练数据集和第二待训练数据集对原型网络进行训练,获得语义分析模型。在实际应用时,将待处理数据输入原型网络,利用原型网络中的编码器对输入的待处理数据进行编码获得编码向量,计算该编码向量与各个分类对应的原型向量的距离,进而根据该距离确定待处理数据的分类,进而根据该分类结果确定待处理数据的语义。
为便于理解,下面将结合附图对本申请实施例提供的技术方案进行说明。
参见图1,该图为本申请实施例提供的一种语义分析模型生成方法流程图,如图1所示,该方法可以包括:
S101:获取第一待训练数据集和第二待训练数据集。
本实施例中,首先获取训练数据集,从训练数据集中随机抽取N个分类,并从每个分类里面抽取M条数据生成第一待训练数据集、再从每个分类里面抽取K条数据生成第二待训练数据集。其中,第一待训练数据集中所包括的M条数据与第二待训练数据集中所包括K条数据不同。其中,分类表示数据的语义。其中,第一待训练数据集可以为支撑集、第二待训练数据可以为查询集。
S102:将第一待训练数据集输入原型网络,利用原型网络中的编码器获得每个分类对应的原型向量。
在获得第一待训练数据集后,将第一待训练数据集输入原型网络,利用原型网络中编码器对各第一待训练数据进行编码获得编码向量,进而根据属于同一分类的各第一待训练数据对应的编码向量获得该分类的原型向量。其中,原型网络的编码器是预先训练生成的,在预训练时,可以以类别相似的样本在嵌入空间中的编码表示得越近、类别相异的样本在嵌入空间中的编码表示越远为目标训练生成编码器。其中,编码器可以为BERT模型,
其中,将第一待训练数据集输入原型网络,获得每个分类对应的原型向量,包括:利用编码器对该第一待训练数据进行编码,获得第一编码向量集合,该第一编码向量集合包括多个第一编码向量;针对任一分类,根据该分类对应的多个第一编码向量获得该分类对应的原型向量。也就是,利用原型网络中预先训练的编码器对第一待训练数据集中的各个第一待训练数据进行编码获得各个第一待训练数据对应的编码向量。然后,利用属于同一分类的各第一待训练数据的编码向量获得该分类对应的原型向量。具体地,可以将该分类对应的多个第一编码向量的均值作为该分类对应的原型向量。或者,将分类对应的多个第一编码向量以及各第一编码向量对应的权重进行加权求和获得该分类对应的原型向量。其中,权重可以通过注意力机制不断更新,
S103:针对任一第二待训练数据,将该待训练数据输入原型网络,获得第二待训练数据与各分类的原型向量之间的距离。
在获得不同分类对应的原型向量后,将任一第二待训练数据输入原型网络,获得该第二待训练数据与各分类的原型向量之间的距离。具体为,将第二待训练数据集输入原型网络,通过原型网络中的编码器对第二待训练数据集中的第二待训练数据进行编码,获得第二编码向量集合,该第二编码向量集合中包括多个第二编码向量。对于任一第二编码向量,计算该第二编码向量与各分类的原型向量之间的距离。
S104:根据第二待训练数据与各分类的原型向量之间的距离以及第二待训练数据对应的分类标签对原型网络进行训练,获得语义分析模型。
在获得待训练数据与各分类的原型向量之间的距离后,根据该第二待训练数据与各分类的原型向量之间的距离以及第二待训练数据对应的分类标签对原型网络进行训练,获得语义分析模型。其中,第二待训练数据对应的分类标签为实际分类结果。
具体地,根据第二待训练数据与各分类的原型向量之间的距离确定第二待训练数据属于分类标签所指示的分类的概率;根据该概率构建损失函数,以提高原型网络的准确率和最小化损失函数为目标对原型网络进行训练,获得语义分析模型。其中,准确率表示被正确预测的样本数量与总样本数量的比值,损失函数用于评价模型的预测值与真实值的差异程度,损失函数越小,表明差异越小,模型的性能越好。
关于损失函数的构建,具体可以参见以下公式:
针对任一第二待训练数据,在获得第二待训练数据属于各个类别的概率后,选择概率最大的类别作为该第二待训练数据的分类结果。在获得所有第二待训练数据的分类结果后,根据各第二待训练数据的分类结果以及其对应的真实分类结果确定该原型网络的预测准确率。例如,第二待训练数据集合包括100条第二待训练数据,其中,20条第二待训练数据的预测分类结果与真实分类结果相同,则准确率为20/100=0.2。通过提高准确率来优化原型网络的超参数。其中超参数可以包括原型网络初始化时给定初始值的参数,例如学习率、深度神经网络隐藏层数等。
当某一第二待训练数据对应的真实分类为m时,则构建损失函数,该损失函数用于评价模型的预测值与真实值的差异程度,损失函数越小,模型的预测性能越好,损失函数如下:
其中,损失函数最小,相当于最大化log,即最大化x被正确分类的概率,通过最小化损失函数,优化原型网络中的编码器。
可见,通过上述方法,首先预训练生成编码器,该编码器是以类别相似的样本在度量空间中的编码表示越近、类别相异的样本在度量空间中的编码表示越远为目标预先训练生成的。将该编码器作为原型网络的编码器,在获得第一待训练数据集后,将第一待训练数据集输入原型网络,利用原型网络中的编码器获得第一待训练数据集中各个第一待训练数据的编码向量,进而根据每个分类所对应的第一待训练数据的编码向量获得该分类对应的原型向量。对于第二待训练数据集合,将第二待训练数据集合中的第二待训练数据输入原型网络,获得第二待训练数据与各分类的原型向量之间的距离。根据第二待训练数据与各分类之间的距离以及第二待训练数据对应的分类标签对原型网络进行训练,获得语义分析模型。也就是,本申请实施例在训练生成语义分析模型时,对模型中的编码器进行预先训练,使得该编码器获得先验知识,以实现类别相似的数据对应的编码表示越相近、类别相异的样本对应的编码表示越远,从而提高编码器编码的准确性。
需要说明的是,训练原型网络可以包括以下步骤:
(1)、假设当前的数据集D,其内部的样本的表示形式为x为当前样本的向量表示,y表示当前样本的意图的分类标签。
(2)、从数据集中随机sample N个类,从每个类里sample M条数据生成支撑集S,再sample K条数据生成查询集Q。对于每一个样本x,有这样一个编码表达用这个预训练获得的编码器对每一个样本进行编码,获得每一个样本的编码向量表示。
(3)、为每个类计算prototype。参照集成学习的思想引入attention机制,根据特征对分类的影响为不同的特征(就是样本对应的编码向量)赋予不同的权重α,并通过注意力(attention)机制让权重参数值不断更新,通过这种方式获得的prototype会更加典型。
其中,分类误差即为损失函数,通过最小化损失函数,优化原型网络中编码器;通过提高准确率来调整原型网络的超参数。
在通过对原型网络训练获得语义分析模型后,在实际应用时,可以利用该语义分析模型对新的数据进行分类。为便于理解,下面将结合附图进行说明。
参见图2,该图为本申请实施例提供的一种语义分析方法流程图,如图2所示,该方法可以包括:
S201:获取待处理数据。
S202:将待处理数据输入语义分析模型,获得待处理数据对应的编码向量与各分类的原型向量之间的距离。
本实施例中,对于新出现的样本数据,即待处理数据,为确定该待处理数据的意图,将该待处理数据属于语义分析模型,获得待处理数据对应的编码向量,并根据该待处理数据对应的编码向量与每个分类的原型向量进行距离度量。即,将待处理数据输入语义分析模型,利用该语义分析模型中的编码器对待处理数据进行编码,获得该待处理数据对应的编码向量。由于在训练阶段,已经获得每个分类的原型向量,在获得待处理数据对应的编码向量后,计算该编码向量与每个分类的原型向量之间的距离。
S203:将与待处理数据距离最小的原型向量对应的分类确定为待处理数据对应的分类。
在获得待处理数据的编码向量与各分类的原型向量之间的距离后,选择与待处理数据距离最小的原型向量的分类作为该待处理数据的类别。
S204:根据待处理数据对应的分类获取该待处理数据的语义。
在确定出待处理数据对应的分类后,根据该分类获取该待处理数据的语义,从而实现对待处理数据的意图理解。
通过上述描述可知,利用预先训练生成的语义分析模型可以对待处理数据进行准确编码和分类,提供意图理解的准确性。
为便于理解本申请实施例所提出的语义分析模型生成和语义分析模型的使用,参见图3所示的原型网络架构图,在该图中以训练数据包括3个分类为例进行说明。首先,将支撑集中类别1、类别2和类别3各自对应的训练数据输入编码器,利用该编码器对训练数据进行编码,获得各个类别对应的多个编码向量。针对任一类别,利用该类别对应的多个编码向量进行加权求和获得该类别对应的原型向量。再利用查询集中的训练数据对原型网络的编码器参数和原型网络的超参数进行训练,直至原型网络的损失函数最小、准确率最高,获得语义分析模型。对于新的样本数据,即待处理数据输入语义分析模型中编码器,利用该编码器对该待处理数据进行编码,获得编码向量。计算编码向量与各个类别的原型向量之间的距离,该编码向量与某一类别的原型向量之间的距离越小,所确定的待处理数据属于该类别的概率越大。通过计算结果可知,待处理数据对应的分类结果为类别1。
基于上述方法实施例,本申请实施例提供了一种语义分析模型生成装置和语义分析装置,下面将结合附图进行说明。
参见图4,该图为本申请实施例提供的一种语义分析模型生成装置结构图,如图4所述,该装置400可以包括:第一获取单元401、第二获取单元402、第三获取单元403和第四获取单元404。
第一获取单元401,用于获取第一待训练数据集和第二待训练数据集,所述第一待训练数据集包括多个第一待训练数据,所述第二待训练数据集包括多个第二待训练数据,所述多个第一待训练数据对应的多个分类与所述多个第二待训练数据对应的多个分类相同,所述分类用于表示所述第一待训练数据或所述第二待训练数据的语义;
第二获取单元402,用于将所述第一待训练数据集输入原型网络,利用所述原型网络中的编码器获得每个分类对应的原型向量;
第三获取单元403,用于针对任一第二待训练数据,将该第二待训练数据输入所述原型网络,获得所述第二待训练数据与各分类的原型向量之间的距离;
第四获取单元404,用于根据所述第二待训练数据与各分类的原型向量之间的距离以及所述第二待训练数据对应的分类标签对所述原型网络进行训练,获得语义分析模型。
在一种可能的实现方式中,所述第二获取单元402,具体用于利用所述编码器对所述第一待训练数据集中的各个所述第一待训练数据进行编码,获得第一编码向量集合,所述第一编码向量集合中包括多个第一编码向量;针对任一分类,根据将该分类对应的多个第一编码向量获得所述分类对应的原型向量。
在一种可能的实现方式中,所述第二获取单元402,具体用于将所述分类对应的多个第一编码向量的均值作为所述分类对应的原型向量。
在一种可能的实现方式中,所述第二获取单元402,具体用于将所述分类对应的多个第一编码向量以及各第一编码向量对应的权重进行加权求和获得所述分类对应的原型向量。
在一种可能的实现方式中,所述第一编码向量对应的权重是基于注意力机制确定的。
在一种可能的实现方式中,所述第四获取单元404,具体用于根据所述第二待训练数据与各分类的原型向量之间的距离确定所述第二待训练数据属于所述分类标签所指示的分类的概率;根据所述概率构建损失函数和所述原型网络的准确率,以提高所述准确率和最小化所述损失函数为目标对所述原型网络进行训练,获得语义分析模型。
在一种可能的实现方式中,所述编码器是以类别相似的样本在嵌入空间中的编码表示得越近、类别相异的样本在嵌入空间中的编码表示越远为目标预先训练生成的。
在一种可能的实现方式中,所述编码器为BERT模型。
需要说明的是,本实施例中各个单元的实现可以参见上述方法实施例,本实施例在此不再赘述。
参见图5,该图为本申请实施例提供的一种语义分析装置结构图,如图5所示,该装置500可以包括:第五获取单元501、第六获取单元502、确定单元503和第七获取单元504。
第五获取单元501,用于获取待处理数据;
第六获取单元502,用于将所述待处理数据输入语义分析模型,获得所述待处理数据对应的编码向量与各分类的原型向量之间的距离,所述语义分析模型是根据所述的语义分析模型生成方法训练获得的;
确定单元503,用于将与所述待处理数据距离最小的原型向量对应的分类确定为所述待处理数据对应的分类;
第七获取单元504,用于根据所述待处理数据对应的分类获取所述待处理数据的语义。
需要说明的是,本实施例中各个单元的实现可以参见上述方法实施例,本实施例在此不再赘述。
参考图6,其示出了适于用来实现本公开实施例的电子设备的结构示意图。本公开实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端,也可以包括服务器设备。图6示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图6所示,电子设备600可以包括处理装置(例如中央处理器、图形处理器等)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储装置606加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有电子设备操作所需的各种程序和数据。处理装置601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
通常,以下装置可以连接至I/O接口605:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置606;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置607;包括例如磁带、硬盘等的存储装置608;以及通信装置609。通信装置609可以允许电子设备与其他设备进行无线或有线通信以交换数据。虽然图6示出了具有各种装置的电子设备,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置609从网络上被下载和安装,或者从存储装置608被安装,或者从ROM 602被安装。在该计算机程序被处理装置601执行时,执行本公开实施例的方法中限定的上述功能。
根据本公开的一个或多个实施例,提供了一种语义分析模型生成方法,所述方法包括:
获取第一待训练数据集和第二待训练数据集,所述第一待训练数据集包括多个第一待训练数据,所述第二待训练数据集包括多个第二待训练数据,所述多个第一待训练数据对应的多个分类与所述多个第二待训练数据对应的多个分类相同,所述分类用于表示所述第一待训练数据或所述第二待训练数据的语义;
将所述第一待训练数据集输入原型网络,利用所述原型网络中的编码器获得每个分类对应的原型向量;
针对任一第二待训练数据,将该第二待训练数据输入所述原型网络,获得所述第二待训练数据与各分类的原型向量之间的距离;
根据所述第二待训练数据与各分类的原型向量之间的距离以及所述第二待训练数据对应的分类标签对所述原型网络进行训练,获得语义分析模型。
根据本公开的一个或多个实施例,所述将所述第一待训练数据集输入原型网络,利用所述原型网络的编码器获得每个分类对应的原型向量,包括:
利用所述编码器对所述第一待训练数据集中的各个所述第一待训练数据进行编码,获得第一编码向量集合,所述第一编码向量集合中包括多个第一编码向量;
针对任一分类,根据将该分类对应的多个第一编码向量获得所述分类对应的原型向量。
根据本公开的一个或多个实施例,所述针对任一分类,根据该分类对应的多个第一编码向量获得所述分类对应的原型向量,包括:
将所述分类对应的多个第一编码向量的均值作为所述分类对应的原型向量。
根据本公开的一个或多个实施例,所述针对任一分类,根据该分类对应的多个第一编码向量获得所述分类对应的原型向量,包括:
将所述分类对应的多个第一编码向量以及各第一编码向量对应的权重进行加权求和获得所述分类对应的原型向量。
根据本公开的一个或多个实施例,所述第一编码向量对应的权重是基于注意力机制确定的。
根据本公开的一个或多个实施例,所述根据所述第二待训练数据与各分类的原型向量之间的距离以及所述第二待训练数据对应的分类标签对原型网络进行训练,获得语义分析模型,包括:
根据所述第二待训练数据与各分类的原型向量之间的距离确定所述第二待训练数据属于所述分类标签所指示的分类的概率;
根据所述概率构建损失函数和所述原型网络的准确率,以提高所述准确率和最小化所述损失函数为目标对所述原型网络进行训练,获得语义分析模型。
根据本公开的一个或多个实施例,所述编码器是以类别相似的样本在嵌入空间中的编码表示得越近、类别相异的样本在嵌入空间中的编码表示越远为目标预先训练生成的。
根据本公开的一个或多个实施例,所述编码器为BERT模型。
根据本公开的一个或多个实施例,一种语义分析方法,所述方法包括:
获取待处理数据;
将所述待处理数据输入语义分析模型,获得所述待处理数据对应的编码向量与各分类的原型向量之间的距离,所述语义分析模型是根据所述的语义分析模型生成方法训练获得的;
将与所述待处理数据距离最小的原型向量对应的分类确定为所述待处理数据对应的分类;
根据所述待处理数据对应的分类获取所述待处理数据的语义。
根据本公开的一个或多个实施例,一种语义分析模型生成装置,所述装置包括:
第一获取单元,用于获取第一待训练数据集和第二待训练数据集,所述第一待训练数据集包括多个第一待训练数据,所述第二待训练数据集包括多个第二待训练数据,所述多个第一待训练数据对应的多个分类与所述多个第二待训练数据对应的多个分类相同,所述分类用于表示所述第一待训练数据或所述第二待训练数据的语义;
第二获取单元,用于将所述第一待训练数据集输入原型网络,利用所述原型网络中的编码器获得每个分类对应的原型向量;
第三获取单元,用于针对任一第二待训练数据,将该第二待训练数据输入所述原型网络,获得所述第二待训练数据与各分类的原型向量之间的距离;
第四获取单元,用于根据所述第二待训练数据与各分类的原型向量之间的距离以及所述第二待训练数据对应的分类标签对所述原型网络进行训练,获得语义分析模型。
根据本公开的一个或多个实施例,所述第二获取单元,具体用于利用所述编码器对所述第一待训练数据集中的各个所述第一待训练数据进行编码,获得第一编码向量集合,所述第一编码向量集合中包括多个第一编码向量;针对任一分类,根据将该分类对应的多个第一编码向量获得所述分类对应的原型向量。
根据本公开的一个或多个实施例,所述第二获取单元,具体用于将所述分类对应的多个第一编码向量的均值作为所述分类对应的原型向量。
根据本公开的一个或多个实施例,所述第二获取单元,具体用于将所述分类对应的多个第一编码向量以及各第一编码向量对应的权重进行加权求和获得所述分类对应的原型向量。
根据本公开的一个或多个实施例,所述第一编码向量对应的权重是基于注意力机制确定的。
根据本公开的一个或多个实施例,所述第四获取单元,具体用于根据所述第二待训练数据与各分类的原型向量之间的距离确定所述第二待训练数据属于所述分类标签所指示的分类的概率;根据所述概率构建损失函数和所述原型网络的准确率,以提高所述准确率和最小化所述损失函数为目标对所述原型网络进行训练,获得语义分析模型。
根据本公开的一个或多个实施例,所述编码器是以类别相似的样本在嵌入空间中的编码表示得越近、类别相异的样本在嵌入空间中的编码表示越远为目标预先训练生成的。
根据本公开的一个或多个实施例,所述编码器为BERT模型。
根据本公开的一个或多个实施例,一种语义分析装置,所述装置包括:
第五获取单元,用于获取待处理数据;
第六获取单元,用于将所述待处理数据输入语义分析模型,获得所述待处理数据对应的编码向量与各分类的原型向量之间的距离,所述语义分析模型是根据所述的语义分析模型生成方法训练获得的;
确定单元,用于将与所述待处理数据距离最小的原型向量对应的分类确定为所述待处理数据对应的分类;
第七获取单元,用于根据所述待处理数据对应的分类获取所述待处理数据的语义。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统或装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (13)
1.一种语义分析模型生成方法,其特征在于,所述方法包括:
获取第一待训练数据集和第二待训练数据集,所述第一待训练数据集包括多个第一待训练数据,所述第二待训练数据集包括多个第二待训练数据,所述多个第一待训练数据对应的多个分类与所述多个第二待训练数据对应的多个分类相同,所述分类用于表示所述第一待训练数据或所述第二待训练数据的语义;
将所述第一待训练数据集输入原型网络,利用所述原型网络中的编码器获得每个分类对应的原型向量;
针对任一第二待训练数据,将该第二待训练数据输入所述原型网络,获得所述第二待训练数据与各分类的原型向量之间的距离;
根据所述第二待训练数据与各分类的原型向量之间的距离以及所述第二待训练数据对应的分类标签对所述原型网络进行训练,获得语义分析模型。
2.根据权利要求1所述的方法,其特征在于,所述将所述第一待训练数据集输入原型网络,利用所述原型网络的编码器获得每个分类对应的原型向量,包括:
利用所述编码器对所述第一待训练数据集中的各个所述第一待训练数据进行编码,获得第一编码向量集合,所述第一编码向量集合中包括多个第一编码向量;
针对任一分类,根据将该分类对应的多个第一编码向量获得所述分类对应的原型向量。
3.根据权利要求2所述的方法,其特征在于,所述针对任一分类,根据该分类对应的多个第一编码向量获得所述分类对应的原型向量,包括:
将所述分类对应的多个第一编码向量的均值作为所述分类对应的原型向量。
4.根据权利要求2所述的方法,其特征在于,所述针对任一分类,根据该分类对应的多个第一编码向量获得所述分类对应的原型向量,包括:
将所述分类对应的多个第一编码向量以及各第一编码向量对应的权重进行加权求和获得所述分类对应的原型向量。
5.根据权利要求4所述的方法,其特征在于,所述第一编码向量对应的权重是基于注意力机制确定的。
6.根据权利要求1所述的方法,其特征在于,所述根据所述第二待训练数据与各分类的原型向量之间的距离以及所述第二待训练数据对应的分类标签对原型网络进行训练,获得语义分析模型,包括:
根据所述第二待训练数据与各分类的原型向量之间的距离确定所述第二待训练数据属于所述分类标签所指示的分类的概率;
根据所述概率构建损失函数和所述原型网络的准确率,以提高所述准确率和最小化所述损失函数为目标对所述原型网络进行训练,获得语义分析模型。
7.根据权利要求1所述的方法,其特征在于,所述编码器是以类别相似的样本在嵌入空间中的编码表示得越近、类别相异的样本在嵌入空间中的编码表示越远为目标预先训练生成的。
8.根据权利要求1所述的方法,其特征在于,所述编码器为BERT模型。
9.一种语义分析方法,其特征在于,所述方法包括:
获取待处理数据;
将所述待处理数据输入语义分析模型,获得所述待处理数据对应的编码向量与各分类的原型向量之间的距离,所述语义分析模型是根据权利要求1-8所述的语义分析模型生成方法训练获得的;
将与所述待处理数据距离最小的原型向量对应的分类确定为所述待处理数据对应的分类;
根据所述待处理数据对应的分类获取所述待处理数据的语义。
10.一种语义分析模型生成装置,其特征在于,所述装置包括:
第一获取单元,用于获取第一待训练数据集和第二待训练数据集,所述第一待训练数据集包括多个第一待训练数据,所述第二待训练数据集包括多个第二待训练数据,所述多个第一待训练数据对应的多个分类与所述多个第二待训练数据对应的多个分类相同,所述分类用于表示所述第一待训练数据或所述第二待训练数据的语义;
第二获取单元,用于将所述第一待训练数据集输入原型网络,利用所述原型网络中的编码器获得每个分类对应的原型向量;
第三获取单元,用于针对任一第二待训练数据,将该第二待训练数据输入所述原型网络,获得所述第二待训练数据与各分类的原型向量之间的距离;
第四获取单元,用于根据所述第二待训练数据与各分类的原型向量之间的距离以及所述第二待训练数据对应的分类标签对所述原型网络进行训练,获得语义分析模型。
11.一种语义分析装置,其特征在于,所述装置包括:
第五获取单元,用于获取待处理数据;
第六获取单元,用于将所述待处理数据输入语义分析模型,获得所述待处理数据对应的编码向量与各分类的原型向量之间的距离,所述语义分析模型是根据权利要求1-8所述的语义分析模型生成方法训练获得的;
确定单元,用于将与所述待处理数据距离最小的原型向量对应的分类确定为所述待处理数据对应的分类;
第七获取单元,用于根据所述待处理数据对应的分类获取所述待处理数据的语义。
12.一种电子设备,所述设备包括:处理器和存储器;
所述存储器,用于存储指令或计算机程序;
所述处理器,用于执行所述存储器中的所述指令或计算机程序,以使得所述电子设备执行权利要求1-8任一项所述的方法,或者执行权利要求9所述的方法。
13.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行以上权利要求1-8任一项所述的方法,或者执行权利要求9所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110786562.3A CN113468869A (zh) | 2021-07-12 | 2021-07-12 | 一种语义分析模型生成方法、语义分析方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110786562.3A CN113468869A (zh) | 2021-07-12 | 2021-07-12 | 一种语义分析模型生成方法、语义分析方法、装置及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113468869A true CN113468869A (zh) | 2021-10-01 |
Family
ID=77880125
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110786562.3A Pending CN113468869A (zh) | 2021-07-12 | 2021-07-12 | 一种语义分析模型生成方法、语义分析方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113468869A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114595329A (zh) * | 2022-03-07 | 2022-06-07 | 华泰证券股份有限公司 | 一种原型网络的少样本事件抽取系统及方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112200262A (zh) * | 2020-10-21 | 2021-01-08 | 中国空间技术研究院 | 支持多任务和跨任务的小样本分类训练方法及装置 |
CN112528677A (zh) * | 2020-12-22 | 2021-03-19 | 北京百度网讯科技有限公司 | 一种语义向量提取模型的训练方法、装置及电子设备 |
CN112699966A (zh) * | 2021-01-14 | 2021-04-23 | 中国人民解放军海军航空大学 | 基于深度迁移学习的雷达hrrp小样本目标识别预训练及微调方法 |
CN112989792A (zh) * | 2021-04-25 | 2021-06-18 | 中国人民解放军国防科技大学 | 事例检测方法和电子设备 |
CN112989813A (zh) * | 2021-03-08 | 2021-06-18 | 北京航空航天大学 | 一种基于预训练语言模型的科技资源关系抽取方法及装置 |
CN113298253A (zh) * | 2021-06-03 | 2021-08-24 | 清华大学 | 用于命名实体识别的模型训练方法、识别方法及装置 |
CN114861670A (zh) * | 2022-07-07 | 2022-08-05 | 浙江一山智慧医疗研究有限公司 | 基于已知标签学习未知标签的实体识别方法、装置及应用 |
-
2021
- 2021-07-12 CN CN202110786562.3A patent/CN113468869A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112200262A (zh) * | 2020-10-21 | 2021-01-08 | 中国空间技术研究院 | 支持多任务和跨任务的小样本分类训练方法及装置 |
CN112528677A (zh) * | 2020-12-22 | 2021-03-19 | 北京百度网讯科技有限公司 | 一种语义向量提取模型的训练方法、装置及电子设备 |
CN112699966A (zh) * | 2021-01-14 | 2021-04-23 | 中国人民解放军海军航空大学 | 基于深度迁移学习的雷达hrrp小样本目标识别预训练及微调方法 |
CN112989813A (zh) * | 2021-03-08 | 2021-06-18 | 北京航空航天大学 | 一种基于预训练语言模型的科技资源关系抽取方法及装置 |
CN112989792A (zh) * | 2021-04-25 | 2021-06-18 | 中国人民解放军国防科技大学 | 事例检测方法和电子设备 |
CN113298253A (zh) * | 2021-06-03 | 2021-08-24 | 清华大学 | 用于命名实体识别的模型训练方法、识别方法及装置 |
CN114861670A (zh) * | 2022-07-07 | 2022-08-05 | 浙江一山智慧医疗研究有限公司 | 基于已知标签学习未知标签的实体识别方法、装置及应用 |
Non-Patent Citations (1)
Title |
---|
BEI HUI ET AL.: "Few-shot relation classification by context attention-based prototypical networks with BERT", EURASIP JOURNAL ON WIRELESS COMMUNICATIONS AND NETWORKING, pages 1 - 17 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114595329A (zh) * | 2022-03-07 | 2022-06-07 | 华泰证券股份有限公司 | 一种原型网络的少样本事件抽取系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220121906A1 (en) | Task-aware neural network architecture search | |
CN109492772B (zh) | 生成信息的方法和装置 | |
US11144830B2 (en) | Entity linking via disambiguation using machine learning techniques | |
CN111428010B (zh) | 人机智能问答的方法和装置 | |
WO2018156942A1 (en) | Optimizing neural network architectures | |
KR20190007468A (ko) | 비교 세트를 사용한 입력 예시들 분류 | |
CN110781413B (zh) | 兴趣点确定方法及装置、存储介质、电子设备 | |
CN112149699B (zh) | 用于生成模型的方法、装置和用于识别图像的方法、装置 | |
CN113190702B (zh) | 用于生成信息的方法和装置 | |
WO2020154536A1 (en) | Compound model scaling for neural networks | |
CN112650841A (zh) | 信息处理方法、装置和电子设备 | |
CN115082920A (zh) | 深度学习模型的训练方法、图像处理方法和装置 | |
CN111291715B (zh) | 基于多尺度卷积神经网络的车型识别方法、电子设备及存储介质 | |
CN114579882A (zh) | 地址查询方法、获取地理编码预测模型的方法及对应装置 | |
CN113468869A (zh) | 一种语义分析模型生成方法、语义分析方法、装置及设备 | |
CN114120166A (zh) | 视频问答方法、装置、电子设备及存储介质 | |
CN113821588A (zh) | 文本处理方法、装置、电子设备及存储介质 | |
CN110889290B (zh) | 文本编码方法和设备、文本编码有效性检验方法和设备 | |
CN113836308B (zh) | 网络大数据长文本多标签分类方法、系统、设备及介质 | |
CN115470790A (zh) | 一种识别文件中的命名实体的方法和装置 | |
CN114579883A (zh) | 地址查询方法、获取地址向量表示模型的方法及对应装置 | |
CN110688508B (zh) | 图文数据扩充方法、装置及电子设备 | |
CN115700548A (zh) | 用户行为预测的方法、设备和计算机程序产品 | |
CN113239215A (zh) | 多媒体资源的分类方法、装置、电子设备及存储介质 | |
CN113515687A (zh) | 物流信息的获取方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |