CN113705222A - 槽识别模型训练方法及装置和槽填充方法及装置 - Google Patents
槽识别模型训练方法及装置和槽填充方法及装置 Download PDFInfo
- Publication number
- CN113705222A CN113705222A CN202111018750.8A CN202111018750A CN113705222A CN 113705222 A CN113705222 A CN 113705222A CN 202111018750 A CN202111018750 A CN 202111018750A CN 113705222 A CN113705222 A CN 113705222A
- Authority
- CN
- China
- Prior art keywords
- slot
- word
- recognition model
- label
- vectors
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 61
- 238000000034 method Methods 0.000 title claims abstract description 55
- 239000013598 vector Substances 0.000 claims abstract description 132
- 238000012545 processing Methods 0.000 claims abstract description 21
- 239000011159 matrix material Substances 0.000 claims description 17
- 238000013507 mapping Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 9
- 238000003491 array Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Character Discrimination (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种槽识别模型训练方法及装置和槽填充方法及装置,其中,槽识别模型训练方法包括:将训练样本的文本数据输入至预先构建的槽识别模型;槽识别模型对所述文本数据进行编码,得到所述文本数据中每个词的词向量;基于词向量进行粗标签分类,得到相应词的粗标签得分向量;其中,粗标签预先基于槽值的词性类别对槽进行分类得到;基于词向量以及词向量对应的粗标签得分向量,生成相应词的高级细标签得分向量;将高级细标签得分向量,输入至模型的条件随机场层处理,得到相应的细标签分类损失值;基于细标签分类损失值,调整模型的网络参数。采用本申请,能够实现零样本跨领域槽填充,且可以提高填充的准确性。
Description
技术领域
本发明涉及人工智能技术,特别是涉及一种槽识别模型训练方法及装置和槽填充方法及装置。
背景技术
随着深度学习技术的进步,任务型人机对话方面也有了长足的发展。任务型对话的目的是在特定领域通过多轮对话,协助用户完成某些具体的任务。任务型对话有两种研究方式,一种是流水线型设计(pipeline),包括自然语言理解(NLU)、对话管理、自然语言生成三个模块;另一种是端到端形式(end to end),这种形式是将文本输入送入端到端的模型,直接得到文本输出。相对于端到端形式,流水线型设计是一种更成熟的框架。其中,自然语言理解模块中最关键的一步是将用户的语义信息转换成预先定义好的槽,该过程称为槽填充。
图1为一槽填充结果示意图。如图1所示,在订机票意图中,预先定义了三个槽:日期(date)、出发地(from)和目的地(to),当用户发出订机票的请求后,需要进行槽填充,以识别出这三个槽所具有的槽值,即date:明天、from:上海、to:北京。由于每个槽值在句子中的长度不固定,对于槽值的第一个字(英文中为第一个词),使用的槽标签为B标签,表示起始(begin),对于槽值的其余部分,使用的槽标签为I标签,表示中间(Intermediate),对于不属于槽值的部分,使用的槽标签为O标签,表示其他(Other)标签。
槽填充需要基于大量领域内的标注数据进行训练。然而,在实际应用中,由于应用的新领域层出不穷,对新领域内数据的标注,以及不断训练新模型将产生巨大开销。为此,需要提出一种零样本跨领域的模型,来解决上述问题。具体而言,零样本是指新领域内没有标注数据,只有新领域的槽名、槽名描述、部分槽值信息,以及一些外部先验知识(比如领域的背景知识、不同领域之间的关系)等。跨领域模型是指:利用源领域数据训练的模型,在新领域上也能够快速拓展使用,也就是说,训练好的模型不受限于某一领域的应用,当应用于新领域时,不需要重新进行训练模型,或者只需要少量新领域数据对原有模型进行训练(即在一个训练好的模型上,加入少量的新领域数据去重新训练模型,模型能够很快收敛),也能够在新的领域上进行槽填充时取得不错的结果。
利用标签嵌入(label embedding)模型进行槽填充,是目前已提出的一种零样本跨领域槽填充技术。label embedding模型的特点是利用槽名、槽描述等目标领域内槽的信息作为先验知识,并且编码成为向量,再将编码向量与单词的表示做相似度的计算,从而确定每一个单词所属的槽,这种方式的可拓展性比较强,而且所需的数据资源较少,模型结构也简单。
发明人在实现本发明的过程中,通过研究发上述基于label embedding模型实现的槽填充容易发生错误,具体原因如下:
由于上述label embedding模型属于单任务模型,使得label embedding模型与源领域(即模型训练时的样本数据所属领域)会存在过拟合。也就是说,label embedding模型对源领域槽信息的依赖性过高,如此,就会导致模型很容易把新领域的槽值识别为源领域的槽,从而导致槽填充容易发生错误。
发明内容
有鉴于此,本发明的主要目的在于提供一种槽识别模型训练方法及装置和槽填充方法及装置,有利于实现零样本跨领域槽填充,且可以提高填充的准确性。
为了达到上述目的,本发明实施例提出的技术方案为:
一种槽识别模型训练方法,包括:
将训练样本的文本数据输入至预先构建的槽识别模型;
所述槽识别模型对所述文本数据进行编码,得到所述文本数据中每个词的词向量;
基于所述词向量,进行粗标签分类,得到相应词的粗标签得分向量;其中,所述粗标签预先基于槽值的词性类别对槽进行分类得到;
基于所述词向量以及词向量对应的所述粗标签得分向量,生成相应词的高级细标签得分向量;
将所述高级细标签得分向量,输入至所述槽识别模型的条件随机场CRF层处理,得到相应的细标签分类损失值;
基于所述细标签分类损失值,对所述槽识别模型的网络参数进行调整。
较佳地,所述粗标签包括:人名、地名、数量词、方位词、个性化名词、常见词和/或其他类型,所述其他类型由不属于人名、地名、数量词、方位词、个性化名词和常见词的槽组成。
较佳地,所述基于所述词向量以及词向量对应的所述粗标签得分向量,生成相应词的高级细标签得分向量包括:
对于每个所述词向量,将该词向量与相应的所述粗标签得分向量拼接;
将所述拼接的结果和新领域中每个槽的槽描述信息向量,输入至所述槽识别模型的相似度处理层处理,得到每个所述词的初级细标签得分向量;所述初级细标签得分向量由相应词与每个槽的相似度得分组成;
基于所述粗标签得分向量、所述初级细标签得分向量以及粗标签与槽的映射关系,按照加权计算方式,确定每个所述词的高级细标签得分向量。
较佳地,所述确定每个所述词的高级细标签得分向量包括:
计算Ef=Z+λEcM,得到所述高级细标签得分向量;
其中,Ef为由所有词的所述高级细标签得分向量组成的矩阵;
Ec为由所有词的所述粗标签得分向量组成的矩阵;
Z为由所有词的所述初级细标签得分向量组成的矩阵;
M为基于所述映射关系生成的映射矩阵;
λ为预设的权重系数。
本发明实施例还提供一种槽填充方法,包括:
将槽填充的目标文本数据输入至预先训练的槽识别模型处理,以对所述目标文本数据进行槽识别;其中,所述槽识别模型基于如上所述的槽识别模型训练方法得到;
基于所述槽识别的结果,生成所述目标文本数据的槽填充结果。
本发明实施例还提供了一种槽识别模型训练装置,包括:
数据输入单元,用于将训练样本的文本数据输入至预先构建的槽识别模型;
编码单元,用于利用所述槽识别模型对所述文本数据进行编码,得到所述文本数据中每个词的词向量;
粗标签分类单元,用于基于所述词向量,进行粗标签分类,得到相应词的粗标签得分向量;其中,所述粗标签预先基于槽值的词性类别对槽进行分类得到;
细标签分类单元,用于基于所述词向量以及词向量对应的所述粗标签得分向量,生成相应词的高级细标签得分向量;
损失函数计算单元,用于将所述高级细标签得分向量,输入至所述槽识别模型的条件随机场CRF层处理,得到相应的细标签分类损失值;
模型调整单元,用于基于所述细标签分类损失值,对所述槽识别模型的网络参数进行调整。
本发明实施例还提供了一种槽填充装置,包括:
槽识别单元,用于将槽填充的目标文本数据输入至预先训练的槽识别模型处理,以对所述目标文本数据进行槽识别;其中,所述槽识别模型基于上述槽识别模型训练方法得到;
槽填充单元,用于基于所述槽识别的结果,生成所述目标文本数据的槽填充结果。
本发明实施例还提供了一种槽识别模型训练的电子设备,包括处理器和存储器;
所述存储器中存储有可被所述处理器执行的应用程序,用于使得所述处理器执行如上所述的槽识别模型训练方法。
本发明实施例还提供了一种计算机可读存储介质,其中存储有计算机可读指令,该计算机可读指令用于执行如上所述的槽识别模型训练方法。
本发明实施例还提供了一种槽填充的电子设备,包括处理器和存储器;
所述存储器中存储有可被所述处理器执行的应用程序,用于使得所述处理器执行如上所述的槽填充方法。
综上所述,本发明提出的槽识别模型训练方法及装置和槽填充方法及装置,预先基于槽值的词性类别对所有槽进行分类得到粗标签,在进行槽识别模型训练时,并先对训练样本中每个词进行粗粒度标签分类(即粗标签分类),再利用粗标签分类结果(即粗标签得分向量),生成每个词的高级细标签得分向量(即与新领域各槽的匹配得分)。如此,通过利用粗粒度标签分类结果获得与领域无关的共性信息,进行细粒度标签分类,可以充分利用粗粒度标签中获得的可重用特征,增强模型的泛化性,使得模型的应用不再受限于训练样本的源领域。这样,将采用上述实施例训练得到的槽识别模型应用于新领域(即不是训练样本的源领域)时,不需要再利用新领域的样本数据对模型进行训练,仍然可以对新领域的槽进行准确识别,从而可以实现跨领域的零样本槽填充,且准确性高。
附图说明
图1为现有的槽填充结果示意图;
图2为本发明实施例的槽识别模型训练方法流程示意图;
图3为本发明实施例的槽填充方法流程示意图;
图4为本发明实施例的槽识别模型训练装置结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明作进一步地详细描述。
发明人在实现本申请的过程中发现:在对模型进行领域迁移时,领域无关的槽识别信息与领域间不同槽的相似性,对领域迁移是非常有价值的;同时,槽所属范畴的粒度越大,共性越大,从而越有利于找到不同领域的共性信息,但是,要准确定位新领域的槽,还需要具有细粒度相似度的槽间关系。基于此,本申请实施例中,将预先基于槽值的词性类别对所有槽进行分类得到粗粒度标签(即粗标签),以通过粗粒度标签获取领域无关的共性信息,并在进行模型训练时,结合粗粒度标签的分类结果,获得细粒度标签的分类结果(即进行槽识别的结果),从而可以充分利用粗粒度标签中获得的可重用特征,增强模型的泛化性、提高模型对新槽的识别能力以及提高槽填充的准确性,实现跨领域的零样本槽填充。
图2为本发明实施例的槽识别模型训练方法流程示意图,如图2所示,该实施例主要包括:
步骤201、将训练样本的文本数据输入至预先构建的槽识别模型。
考虑到本申请的槽识别模型不仅需要进行槽的识别,还需要进行槽所属粗标签的识别,相应的,在预先生成训练样本时,需要对训练样本进行两种标签的标注,即不仅要为训练样本标注槽标签(即细标签),还需要标注粗标签,以便在后续步骤中,基于训练样本的标签,对槽识别模型的网络参数进行调整。
步骤202、所述槽识别模型对所述文本数据进行编码,得到所述文本数据中每个词的词向量。
步骤203、基于所述词向量,进行粗标签分类,得到相应词的粗标签得分向量,其中,所述粗标签预先基于槽值的词性类别对槽进行分类得到。
需要说明的是,发明人在实现本申请的过程中发现:仅仅基于槽名分类的方式建立模型,会带来槽名不能对齐的问题。所谓槽名不能对齐是指相同槽值具有不同槽名的情况,即相同槽值对应的槽名不一致,例如,槽名from和槽名depart都具有“离开地点”的意思,因此,两者对应的槽值相同,但是from和depart在模型里会被认为意思不同,故槽名没有对齐。而槽值与槽值之间的联系比槽名与槽名之间联系要更加紧密,用槽值样例可以起到隐式对齐的作用。故,在本实施例中,为了充分利用槽值的信息,在模型中设计了一个基于槽值先验的粗分类任务,即预先基于槽值的词性类别,对槽进行分类得到粗标签,在模型训练时,对样本数据的每个词进行粗标签分类。这样,可以利用粗标签找到不同领域的共性信息加入到模型中。相应的,在后续步骤中,可以利用本步骤的粗标签分类结果,将不同领域的共性信息加入到模型中,使得模型能够学习到领域无关的共性特征,从而使得模型不受限于训练样本对应的源领域,有效增强了模型的泛化性,提高了模型对新领域槽的识别能力。
在实际应用中,对于粗标签,可以采用对槽的槽值进行聚类得到。如此,对于每一个槽,都能唯一指定它的粗粒度槽标签。故,一个槽会对应一个粗标签和一个细标签,该粗标签是通过对其槽值的词性进行聚类得到,该细标签即槽名。具体地,可以使用自然语言处理工具(如spacy)的标记器(如POS)对槽值进行标记,将POS标记结果作为粗标签;或者,可以使用编码器(如Bert)对槽值编码,将编码后的槽值表示进行Kmeans聚类,聚成的类簇即为粗标签。
在一种实施方式中,可以基于现有的任务型对话数据集(如multiwoz,snips等),得到所述粗标签,具体包括:人名、地名、数量词、方位词、个性化名词、常见词和/或其他类型。其中,对于不属于人名、地名、数量词、方位词、个性化名词和常见词的槽,被归为其他类型。
步骤204、基于所述词向量以及词向量对应的所述粗标签得分向量,生成相应词的高级细标签得分向量。
本步骤用于生成高级细标签得分向量,该高级细标签得分向量将在后续步骤用于生成细标签分类损失值。
这里需要说明的是,对于多任务训练的损失值loss,通常表现为loss=λ1loss1+λ2loss2+…+λnlossn的形式,然而发明人发现对于本申请而言,这种形式并不能完全利用好粗、细标签分类的关联性,实际应用结果显示这种loss会使得模型在两个任务上分别达到各自的最优,但是粗分类的效果对细分类的作用并不明显。为此,本申请实施例中,对细标签分类的CRF层的输入进行了改进,在细标签分类的CRF层中,加入粗标签分类的发射得分。实际应用结果显示,如此,可以使得模型能够将粗标签分类的特征更好地融入到细标签分类网络中。
在一种实施方式中,步骤204具体可以采用下述方法基于所述词向量以及词向量对应的所述粗标签得分向量,生成相应词的高级细标签得分向量包括:
步骤2041、对于每个所述词向量,将该词向量与相应的所述粗标签得分向量拼接。
本步骤,用于生成模型的细标签分类网络的输入数据,以利用模型的细标签分类网络,进行槽细标签分类(即槽识别)。
本步骤,需要将每个词向量与相应的粗标签得分向量进行拼接,这样,模型的细标签分类网络的输入数据不仅包含了词向量特征,还包含了与领域无关的共性信息,从而可以使得模型的细标签分类网络能够学习到更多的先验信息,进而提高模型的泛化性,使得模型能够对新领域的槽进行准确识别。
步骤2042、将所述拼接的结果和新领域中每个槽的槽描述信息向量,输入至所述槽识别模型的相似度处理层处理,得到每个所述词的初级细标签得分向量;所述初级细标签得分向量由相应词与每个槽的相似度得分组成。
本步骤,用于将步骤2041得到的每个词对应的拼接结果输入至相似度处理层处理,以得到相应词的初级细标签得分向量,即相应词与训练样本所对应领域的槽集合中每个槽的相似度得分。
步骤2043、基于所述粗标签得分向量、所述初级细标签得分向量以及粗标签与槽的映射关系,按照加权计算方式,确定每个所述词的高级细标签得分向量。
本步骤中,为了建立粗粒度标签和细粒度标签之前的关系,将词的粗标签得分向量与初级细标签得分向量进行加权计算,以得到高级细标签得分向量,这样,在后续步骤205中将高级细标签得分,输入细标签分类的CRF层,得到细标签分类损失值,可以使得细标签分类能够利用粗标签分类的结果,而且由于细标签分类损失值的计算还依据初级细标签得分向量,因此,细标签分类的上限也不会完全受到粗标签分类结果的限制,从而使得模型具有可扩展性。
在一种实施方式中,步骤2043中具体可以通过计算Ef=Z+λEcM,得到所述高级细标签得分向量。
其中,Ef为由所有词的所述高级细标签得分向量组成的矩阵。
Ec为由所有词的所述粗标签得分向量组成的矩阵。
Z为由所有词的所述初级细标签得分向量组成的矩阵。
M为预先基于粗标签与槽(即细标签)的映射关系生成的相应映射矩阵; 是粗标签的集合,是细标签的集合,该映射矩阵M中,如果一个细标签f对应的粗标签是c,那么矩阵元素Mc,f=1,M的其余部分全为0。映射矩阵M,用于将由粗标签得分向量组成的矩阵Ec转化为EcM,该EcM与由初级细标签得分向量组成的矩阵Z具有相同维度,从而可以将粗标签得分向量与细标签得分向量(即初级细标签得分向量)融合在一起。
λ为预设的权重系数,该系数用于限定粗、细标签得分向量的权重,可由本领域技术人员根据经验设置,较佳地,λ的取值范围为大于等于2且小于等于5,但不限于此。
步骤205、将所述高级细标签得分向量,输入至所述槽识别模型的条件随机场(CRF)层处理,得到相应的细标签分类损失值。
本步骤中,输入至CRF层的是步骤104得到的高级细标签得分向量,而该高级细标签得分向量同时融合了粗标签得分向量和初级细标签得分向量。这样,通过在细标签分类的CRF层中,加入粗分类的发射得分(即粗标签得分向量),可以使得模型将粗分类的特征能够更好地融入到了槽识别模型的细分类网络中,从而可以提高模型的泛化性,即模型的应用领域不再受限于训练样本对应的领域。这样,将槽识别模型应用于新领域(即不是训练样本的源领域)时,不需要再利用新领域的样本数据对模型进行训练,仍然可以对新领域的槽进行准确识别,从而可以实现跨领域的零样本槽填充,且准确性高。
步骤206、基于所述细标签分类损失值,对所述槽识别模型的网络参数进行调整。
本步骤的具体实现方法为本领域技术人员所掌握,在此不再赘述。
基于上述槽识别模型训练方法实施例,本发明实施例还提供一种槽填充方法,如图3所示,包括:
步骤301、将槽填充的目标文本数据输入至预先训练的槽识别模型处理,以对所述目标文本数据进行槽识别。
其中,所述槽识别模型基于上述槽识别模型训练方法实施例得到。
步骤302、基于所述槽识别的结果,生成所述目标文本数据的槽填充结果。
上述槽填充方法实施例中,所使用的槽识别模型是基于上述槽识别模型训练方法实施例得到,如前文所述,该模型的泛化性好,不再受限于训练样本的源领域,因此,可以保障槽识别准确性,进而可以提高后续槽填充结果的准确性,从而可以实现跨领域的零样本槽填充。
基于上述槽识别模型训练方法实施例,本发明实施例还提供了一种槽识别模型训练装置,如图4所示,包括:
数据输入单元401,用于将训练样本的文本数据输入至预先构建的槽识别模型。
编码单元402,用于利用所述槽识别模型对所述文本数据进行编码,得到所述文本数据中每个词的词向量。
粗标签分类单元403,用于基于所述词向量,进行粗标签分类,得到相应词的粗标签得分向量;其中,所述粗标签预先基于槽值的词性类别对槽进行分类得到。
细标签分类单元404,用于基于所述词向量以及词向量对应的所述粗标签得分向量,生成相应词的高级细标签得分向量。
损失函数计算单元405,用于将所述高级细标签得分向量,输入至所述槽识别模型的条件随机场CRF层处理,得到相应的细标签分类损失值。
模型调整单元406,用于基于所述细标签分类损失值,对所述槽识别模型的网络参数进行调整。
基于上述槽填充方法实施例,本发明实施例还提供了一种槽填充装置,包括:
槽识别单元,用于将槽填充的目标文本数据输入至预先训练的槽识别模型处理,以对所述目标文本数据进行槽识别;其中,所述槽识别模型基于上述槽识别模型训练方法实施例得到;
槽填充单元,用于基于所述槽识别的结果,生成所述目标文本数据的槽填充结果。
基于上述槽识别模型训练方法实施例,本申请实施例实现了一种槽识别模型训练的电子设备,包括处理器和存储器;所述存储器中存储有可被所述处理器执行的应用程序,用于使得所述处理器执行如上所述的槽识别模型训练方法。具体地,可以提供配有存储介质的系统或者装置,在该存储介质上存储着实现上述实施例中任一实施方式的功能的软件程序代码,且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。此外,还可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作。还可以将从存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中,随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作,从而实现上述槽识别模型训练方法实施方式中任一实施方式的功能。
其中,存储器具体可以实施为电可擦可编程只读存储器(EEPROM)、快闪存储器(Flash memory)、可编程程序只读存储器(PROM)等多种存储介质。处理器可以实施为包括一或多个中央处理器或一或多个现场可编程门阵列,其中现场可编程门阵列集成一或多个中央处理器核。具体地,中央处理器或中央处理器核可以实施为CPU或MCU。
基于上述槽填充方法实施例,本申请实施例实现了一种槽填充的电子设备,包括处理器和存储器;所述存储器中存储有可被所述处理器执行的应用程序,用于使得所述处理器执行如上所述的槽填充方法。具体地,可以提供配有存储介质的系统或者装置,在该存储介质上存储着实现上述实施例中任一实施方式的功能的软件程序代码,且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。此外,还可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作。还可以将从存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中,随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作,从而实现上述槽填充方法实施方式中任一实施方式的功能。
其中,存储器具体可以实施为电可擦可编程只读存储器(EEPROM)、快闪存储器(Flash memory)、可编程程序只读存储器(PROM)等多种存储介质。处理器可以实施为包括一或多个中央处理器或一或多个现场可编程门阵列,其中现场可编程门阵列集成一或多个中央处理器核。具体地,中央处理器或中央处理器核可以实施为CPU或MCU。
需要说明的是,上述各流程和各结构图中不是所有的步骤和模块都是必须的,可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的,可以根据需要进行调整。各模块的划分仅仅是为了便于描述采用的功能上的划分,实际实现时,一个模块可以分由多个模块实现,多个模块的功能也可以由同一个模块实现,这些模块可以位于同一个设备中,也可以位于不同的设备中。
各实施方式中的硬件模块可以以机械方式或电子方式实现。例如,一个硬件模块可以包括专门设计的永久性电路或逻辑器件(如专用处理器,如FPGA或ASIC)用于完成特定的操作。硬件模块也可以包括由软件临时配置的可编程逻辑器件或电路(如包括通用处理器或其它可编程处理器)用于执行特定操作。至于具体采用机械方式,或是采用专用的永久性电路,或是采用临时配置的电路(如由软件进行配置)来实现硬件模块,可以根据成本和时间上的考虑来决定。
在本文中,“示意性”表示“充当实例、例子或说明”,不应将在本文中被描述为“示意性”的任何图示、实施方式解释为一种更优选的或更具优点的技术方案。为使图面简洁,各图中的只示意性地表示出了与本发明相关部分,而并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。在本文中,“一个”并不表示将本发明相关部分的数量限制为“仅此一个”,并且“一个”不表示排除本发明相关部分的数量“多于一个”的情形。在本文中,“上”、“下”、“前”、“后”、“左”、“右”、“内”、“外”等仅用于表示相关部分之间的相对位置关系,而非限定这些相关部分的绝对位置。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种槽识别模型训练方法,其特征在于,包括:
将训练样本的文本数据输入至预先构建的槽识别模型;
所述槽识别模型对所述文本数据进行编码,得到所述文本数据中每个词的词向量;
基于所述词向量,进行粗标签分类,得到相应词的粗标签得分向量;其中,所述粗标签预先基于槽值的词性类别对槽进行分类得到;
基于所述词向量以及词向量对应的所述粗标签得分向量,生成相应词的高级细标签得分向量;
将所述高级细标签得分向量,输入至所述槽识别模型的条件随机场CRF层处理,得到相应的细标签分类损失值;
基于所述细标签分类损失值,对所述槽识别模型的网络参数进行调整。
2.根据权利要求1所述的方法,其特征在于,所述粗标签包括:人名、地名、数量词、方位词、个性化名词、常见词和/或其他类型,所述其他类型由不属于人名、地名、数量词、方位词、个性化名词和常见词的槽组成。
3.根据权利要求1所述的方法,其特征在于,所述基于所述词向量以及词向量对应的所述粗标签得分向量,生成相应词的高级细标签得分向量包括:
对于每个所述词向量,将该词向量与相应的所述粗标签得分向量拼接;
将所述拼接的结果和每个槽的槽描述信息向量,输入至所述槽识别模型的相似度处理层处理,得到每个所述词的初级细标签得分向量;所述初级细标签得分向量由相应词与每个槽的相似度得分组成;
基于所述粗标签得分向量、所述初级细标签得分向量以及粗标签与槽的映射关系,按照加权计算方式,确定每个所述词的高级细标签得分向量。
4.根据权利要求3所述的方法,其特征在于,所述确定每个所述词的高级细标签得分向量包括:
计算Ef=Z+λEcM,得到所述高级细标签得分向量;
其中,Ef为由所有词的所述高级细标签得分向量组成的矩阵;
Ec为由所有词的所述粗标签得分向量组成的矩阵;
Z为由所有词的所述初级细标签得分向量组成的矩阵;
M为基于所述映射关系生成的映射矩阵;
λ为预设的权重系数。
5.一种槽填充方法,其特征在于,包括:
将槽填充的目标文本数据输入至预先训练的槽识别模型处理,以对所述目标文本数据进行槽识别;其中,所述槽识别模型基于权利要求1至4所述的任一槽识别模型训练方法得到;
基于所述槽识别的结果,生成所述目标文本数据的槽填充结果。
6.一种槽识别模型训练装置,其特征在于,包括:
数据输入单元,用于将训练样本的文本数据输入至预先构建的槽识别模型;
编码单元,用于利用所述槽识别模型对所述文本数据进行编码,得到所述文本数据中每个词的词向量;
粗标签分类单元,用于基于所述词向量,进行粗标签分类,得到相应词的粗标签得分向量;其中,所述粗标签预先基于槽值的词性类别对槽进行分类得到;
细标签分类单元,用于基于所述词向量以及词向量对应的所述粗标签得分向量,生成相应词的高级细标签得分向量;
损失函数计算单元,用于将所述高级细标签得分向量,输入至所述槽识别模型的条件随机场CRF层处理,得到相应的细标签分类损失值;
模型调整单元,用于基于所述细标签分类损失值,对所述槽识别模型的网络参数进行调整。
7.一种槽填充装置,其特征在于,包括:
槽识别单元,用于将槽填充的目标文本数据输入至预先训练的槽识别模型处理,以对所述目标文本数据进行槽识别;其中,所述槽识别模型基于权利要求1至4中任一项所述的槽识别模型训练方法得到;
槽填充单元,用于基于所述槽识别的结果,生成所述目标文本数据的槽填充结果。
8.一种槽识别模型训练的电子设备,其特征在于,包括处理器和存储器;
所述存储器中存储有可被所述处理器执行的应用程序,用于使得所述处理器执行如权利要求1至4中任一项所述的槽识别模型训练方法。
9.一种计算机可读存储介质,其特征在于,其中存储有计算机可读指令,该计算机可读指令用于执行如权利要求1至4中任一项所述的槽识别模型训练方法。
10.一种槽填充的电子设备,其特征在于,包括处理器和存储器;
所述存储器中存储有可被所述处理器执行的应用程序,用于使得所述处理器执行如权利要求5所述的槽填充方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111018750.8A CN113705222B (zh) | 2021-09-01 | 2021-09-01 | 槽识别模型训练方法及装置和槽填充方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111018750.8A CN113705222B (zh) | 2021-09-01 | 2021-09-01 | 槽识别模型训练方法及装置和槽填充方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113705222A true CN113705222A (zh) | 2021-11-26 |
CN113705222B CN113705222B (zh) | 2024-03-08 |
Family
ID=78658592
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111018750.8A Active CN113705222B (zh) | 2021-09-01 | 2021-09-01 | 槽识别模型训练方法及装置和槽填充方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113705222B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114036306A (zh) * | 2022-01-07 | 2022-02-11 | 四川大学 | 模型训练方法、装置、计算机设备及计算机可读存储介质 |
CN114428858A (zh) * | 2022-01-21 | 2022-05-03 | 平安科技(深圳)有限公司 | 基于分类模型的文本难度分类方法、装置及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111859983A (zh) * | 2020-07-23 | 2020-10-30 | 中国平安人寿保险股份有限公司 | 基于人工智能的自然语言标注方法及相关设备 |
GB202015736D0 (en) * | 2019-12-06 | 2020-11-18 | Adobe Inc | Slot filling with contextual information |
CN112883724A (zh) * | 2021-02-03 | 2021-06-01 | 虎博网络技术(上海)有限公司 | 文本数据增强处理方法、装置、电子设备和可读存储介质 |
CN112988960A (zh) * | 2021-02-09 | 2021-06-18 | 中国科学院自动化研究所 | 一种对话状态追踪方法、装置、设备及存储介质 |
-
2021
- 2021-09-01 CN CN202111018750.8A patent/CN113705222B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB202015736D0 (en) * | 2019-12-06 | 2020-11-18 | Adobe Inc | Slot filling with contextual information |
CN111859983A (zh) * | 2020-07-23 | 2020-10-30 | 中国平安人寿保险股份有限公司 | 基于人工智能的自然语言标注方法及相关设备 |
CN112883724A (zh) * | 2021-02-03 | 2021-06-01 | 虎博网络技术(上海)有限公司 | 文本数据增强处理方法、装置、电子设备和可读存储介质 |
CN112988960A (zh) * | 2021-02-09 | 2021-06-18 | 中国科学院自动化研究所 | 一种对话状态追踪方法、装置、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
成于思;施云涛;: "融合词典特征的Bi-LSTM-WCRF中文人名识别", 中文信息学报, no. 04 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114036306A (zh) * | 2022-01-07 | 2022-02-11 | 四川大学 | 模型训练方法、装置、计算机设备及计算机可读存储介质 |
CN114428858A (zh) * | 2022-01-21 | 2022-05-03 | 平安科技(深圳)有限公司 | 基于分类模型的文本难度分类方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113705222B (zh) | 2024-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109858030B (zh) | 双向的意图槽值交叉相关的任务型对话理解系统及方法 | |
JP5128629B2 (ja) | 品詞タグ付けシステム、品詞タグ付けモデルのトレーニング装置および方法 | |
CN106502985B (zh) | 一种用于生成标题的神经网络建模方法及装置 | |
CN111708882B (zh) | 基于Transformer的中文文本信息缺失的补全方法 | |
CN111950269A (zh) | 文本语句处理方法、装置、计算机设备和存储介质 | |
CN111897908A (zh) | 融合依存信息和预训练语言模型的事件抽取方法及系统 | |
CN110597961B (zh) | 一种文本类目标注方法、装置、电子设备及存储介质 | |
JP7204802B2 (ja) | 対話生成方法、装置、電子機器及び媒体 | |
CN113515632B (zh) | 基于图路径知识萃取的文本分类方法 | |
CN112100332A (zh) | 词嵌入表示学习方法及装置、文本召回方法及装置 | |
CN111143561A (zh) | 意图识别模型训练方法、装置及电子设备 | |
CN112101010B (zh) | 一种基于bert的电信行业oa办公自动化文稿审核的方法 | |
CN111581954B (zh) | 一种基于语法依存信息的文本事件抽取方法及装置 | |
CN115145551A (zh) | 一种面向机器学习应用低代码开发的智能辅助系统 | |
CN110428823A (zh) | 口语理解装置和使用该装置的口语理解方法 | |
CN112818698B (zh) | 一种基于双通道模型的细粒度的用户评论情感分析方法 | |
CN113705222A (zh) | 槽识别模型训练方法及装置和槽填充方法及装置 | |
CN114970503A (zh) | 一种基于预训练的字音字形知识增强的中文拼写纠正方法 | |
CN115952791A (zh) | 基于机器阅读理解的篇章级事件抽取方法、装置、设备及存储介质 | |
CN112699685A (zh) | 基于标签引导的字词融合的命名实体识别方法 | |
CN116151132A (zh) | 一种编程学习场景的智能代码补全方法、系统及储存介质 | |
Moeng et al. | Canonical and surface morphological segmentation for nguni languages | |
CN114281982B (zh) | 一种多模态融合技术的图书宣传摘要生成方法和系统 | |
US11822887B2 (en) | Robust name matching with regularized embeddings | |
CN118318235A (zh) | 建模注意力以改进分类并提供内在的可解释性 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |