CN114637848A - 语义分类方法及装置 - Google Patents
语义分类方法及装置 Download PDFInfo
- Publication number
- CN114637848A CN114637848A CN202210253764.6A CN202210253764A CN114637848A CN 114637848 A CN114637848 A CN 114637848A CN 202210253764 A CN202210253764 A CN 202210253764A CN 114637848 A CN114637848 A CN 114637848A
- Authority
- CN
- China
- Prior art keywords
- semantic
- corpus
- target
- model
- recognition model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 230000006870 function Effects 0.000 claims description 72
- 238000005457 optimization Methods 0.000 claims description 21
- 238000004422 calculation algorithm Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 12
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000002372 labelling Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 239000002699 waste material Substances 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 2
- 238000010420 art technique Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 206010027175 memory impairment Diseases 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及人工智能领域,提供一种语义分类方法及装置。所述方法包括:将语料样本输入第一语义识别模型,得到第一语义识别模型输出的语料样本的语义;其中,语料样本包括未进行语义标注的第一语料样本,以及进行了语义标注的第二语料样本;对语料样本的语义进行聚类,得到多个语义伪标签;根据语料样本、多个语义伪标签以及第二语料样本的语义标注对第一语义识别模型进行优化,得到优化参数,并根据优化参数以及第一语义识别模型得到目标语义模型;根据目标语料、目标语义模型以及多个语义伪标签确定目标语料的语义类型。本申请实施例提供的语义分类方法及装置可以有效节约资源并提高意图识别的准确性。
Description
技术领域
本申请涉及人工智能技术领域,具体涉及一种语义分类方法及装置。
背景技术
对话系统中对未知意图(即超出预定义意图集中的意图)的检测越来越受到研究人员的关注。
一种现有技术将发现新意图的过程视为无监督聚类过程,该类研究主要关注如何构造有效的伪监督信号来指导聚类过程,但是该现有技术需要大量的人工和专家知识进行人工语义标注。
另一种现有技术主要是在发现新意图的过程中利用带有标签数据中所蕴含的知识。然而该现有技术存在误导模型的情况,导致意图识别的准确性受影响。
发明内容
本申请旨在至少解决现有技术中存在的技术问题之一。为此,本申请提出一种语义分类方法,该方法可以有效节约资源并提高意图识别的准确性。
本申请还提出一种语义分类方法。
根据本申请第一方面实施例的语义分类方法,可以包括:
将语料样本输入第一语义识别模型,得到所述第一语义识别模型输出的语料样本的语义;其中,所述语料样本包括未进行语义标注的第一语料样本,以及进行了语义标注的第二语料样本;
对所述语料样本的语义进行聚类,得到多个语义伪标签;
根据所述语料样本、所述多个语义伪标签以及所述第二语料样本的语义标注对所述第一语义识别模型进行优化,得到优化参数,并根据所述优化参数以及所述第一语义识别模型得到目标语义模型;
根据目标语料、所述目标语义模型以及所述多个语义伪标签确定所述目标语料的语义类型。
本申请实施例提供的语义分类方法,通过根据无标签语料(未标注语义的语料)、无标签语料(标注了语义的语料)以及语义伪标签得到目标语义模型,可以使得目标语义模型综合学习到有标签语料的分类知识以及无标签语料的分类知识,从而一方面可以避免使用大量人工语义标注的语料带来的资源浪费,另一方面可以避免仅利用工语义标注的语料带来的意图识别不准的问题。因此,本申请实施例提供的语义分类方法可以有效节约资源并提高意图识别的准确性。
根据本申请的一个实施例,所述根据所述语料样本、所述多个语义伪标签以及所述第二语料样本的语义标注对所述第一语义识别模型进行优化,得到优化参数,包括:
根据所述语料样本、所述多个语义伪标签以及所述第一语义识别模型的参数构建第一函数;
根据所述第二语料样本、所述第一语义识别模型的参数以及所述第二语料样本的语义标注构建第二函数;
根据所述第一函数以及所述第二函数确定所述优化参数。
本申请实施例提供的语义分类方法,通过引入伪标签来构建优第一函数,并通过引入语义标注信息来构建第二函数,再结合第一函数与第二函数来对第一语义识别模型的参数进行优化,可以保证优化后的参数能综合体现出无标签语料与有标签语料的内在联系,从而提高目标语义模型的语义识别准确率。
根据本申请的一个实施例,所述根据所述第一函数以及所述第二函数确定所述优化参数,包括:
根据所述第一函数以及所述第二函数构建目标函数;
根据期望最大化EM算法对所述目标函数中的所述第一语义识别模型的参数进行优化,得到所述优化参数。
本申请实施例提供的语义分类方法,结合第一函数与第二函数来对第一语义识别模型的参数进行优化,可以保证优化后的参数能综合体现出无标签语料与有标签语料的内在联系,从而提高目标语义模型的语义识别准确率。
根据本申请的一个实施例,所述语义分类方法还包括:
重复所述得到所述第一语义识别模型输出的语料样本的语义的步骤、所述得到多个语义伪标签的步骤以及所述根据所述优化参数以及所述第一语义识别模型得到目标语义模型的步骤,直到所述EM算法收敛或者达到最大迭代次数。
本申请实施例提供的语义分类方法,通过多次循环模型更新步骤、标签确定步骤以及参数优化步骤,可以得到进一步优化的优化参数,使得最终的语义识别模型能够最大限度地学习到有标签语料的分类知识以及无标签语料的分类知识,从而提供最准确的语义分类效果。
根据本申请的一个实施例,所述第一语义识别模型是通过如下方式确定的:
根据所述第二语料以及所述第二语料的标签对初始语义识别模型进行训练,得到所述第一语义识别模型;
其中,所述第二语料的标签为所述第二语料的语义标注。
本申请实施例提供的语义分类方法,通过采用具有强大的语义识别功能的预训练语言模型,并根据第二语料对预训练语言模型进行有监督训练得到第一语义识别模型,可以使得第一语义识别模型能够准确识别出语料样本的语义。
根据本申请的一个实施例,所述初始语义识别模型为预训练语言模型。
根据本申请的一个实施例,所述根据目标语料、所述目标语义模型以及所述多个语义伪标签确定所述目标语料的语义类型,包括:
将所述目标语料输入所述目标语义模型,得到所述目标语义模型输出的所述目标语料的语义;
根据所述目标语料的语义,从所述多个语义伪标签中确定目标语义伪标签;
根据所述目标语义伪标签确定所述目标语料的语义类型。
本申请实施例提供的语义分类方法,通过根据目标语料、目标语义模型以及多个语义伪标签确定目标语料的语义类型,可以保证对目标语料的语义类型的准确分类。
根据本申请第二方面实施例的语义分类装置,可以包括:
模型更新模块,用于将语料样本输入第一语义识别模型,得到所述第一语义识别模型输出的语料样本的语义;其中,所述语料样本包括未进行语义标注的第一语料,以及进行了语义标注的第二语料;
标签确定模块,用于对所述语料样本的语义进行聚类,得到多个语义伪标签;
参数优化模块,用于根据所述语料样本、所述多个语义伪标签以及所述第二语料样本的语义标注对所述第一语义识别模型进行优化,得到优化参数,并根据所述优化参数以及所述第一语义识别模型得到目标语义模型;
分类确定模块,用于根据目标语料、所述目标语义模型以及所述多个语义伪标签确定所述目标语料的语义类型。
本申请实施例提供的语义分类装置,通过根据无标签语料(未标注语义的语料)、无标签语料(标注了语义的语料)以及语义伪标签得到目标语义模型,可以使得目标语义模型综合学习到有标签语料的分类知识以及无标签语料的分类知识,从而一方面可以避免使用大量人工语义标注的语料带来的资源浪费,另一方面可以避免仅利用工语义标注的语料带来的意图识别不准的问题。因此,本申请实施例提供的语义分类装置可以有效节约资源并提高意图识别的准确性。
根据本申请第三方面实施例的电子设备,包括:
存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的语义分类方法。
根据本申请第四方面实施例的非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的语义分类方法。
根据本申请第五方面实施例的计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的语义分类方法。
本申请实施例中的上述一个或多个技术方案,至少具有如下技术效果之一:
通过根据无标签语料(未标注语义的语料)、无标签语料(标注了语义的语料)以及语义伪标签得到目标语义模型,可以使得目标语义模型综合学习到有标签语料的分类知识以及无标签语料的分类知识,从而一方面可以避免使用大量人工语义标注的语料带来的资源浪费,另一方面可以避免仅利用工语义标注的语料带来的意图识别不准的问题。
本申请的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的语义分类方法的流程示意图;
图2是本申请实施例提供的语义分类方法的逻辑流程图;
图3是本申请实施例提供的语义分类装置的结构示意图;
图4是本申请实施例提供的电子设备的实体结构示意图。
具体实施方式
下面结合附图和实施例对本申请的实施方式作进一步详细描述。以下实施例用于说明本申请,但不能用来限制本申请的范围。
在本申请实施例的描述中,需要说明的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请实施例和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请实施例的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本申请实施例的描述中,需要说明的是,除非另有明确的规定和限定,术语“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请实施例中的具体含义。
在本申请实施例中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请实施例的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
在研发本申请的技术方案的过程中,发明人还考虑了如下技术方案:
方案一、将发现新意图的过程作为无监督聚类过程,重点构造有效的伪监督信号来指导聚类过程。
然而,该方案会忽略已知意图数据的使用,导致数据利用率很低。
方案二、将发现新意图的过程作为有监督聚类过程,重点利用带有标签数据中所蕴含的知识。
然而,该方案面临两个问题:首先,模型在意图发现的过程中,会经历灾难遗忘,即当用伪监督信号重新训练模型时,模型会遗忘之前精调阶段学习的蕴含在标签数据中的先验知识。再者,在标签空间很大的情况下,伪标签极易错误从而“误导”模型,更重要是伪标签不能提供有效的监督信号去探索无标签数据的内在结构,从而并不能提供意图的一般特征信号来进行意图发现。
现说明本申请实施例提供的语义分类方法的技术方案:
图1是本申请实施例提供的语义分类方法的流程示意图。参照图1,本申请实施例提供一种语义分类方法,可以包括:
步骤110:将语料样本输入第一语义识别模型,得到第一语义识别模型输出的语料样本的语义;其中,语料样本包括未进行语义标注的第一语料样本,以及进行了语义标注的第二语料样本;
步骤120:对语料样本的语义进行聚类,得到多个语义伪标签;
步骤130:根据语料样本、多个语义伪标签以及第二语料样本的语义标注对第一语义识别模型进行优化,得到优化参数,并根据优化参数以及第一语义识别模型得到目标语义模型;
步骤140:根据目标语料、目标语义模型以及多个语义伪标签确定目标语料的语义类型。
需要说明的是,本申请实施例提供的语义分类方法的执行主体可以是计算机设备,例如手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本或者个人数字助理(personaldigital assistant,PDA)等。
在步骤110中,可以将语料样本输入到第一语义识别模型中,得到第一语义识别模型输出的语料样本的语义。
其中,语料样本可以是来自需要进行语义识别的各种场景下的语料。例如,语料样本可以是智能对话场景下产生的语料样本、智能服务场景下产生的语料样本等。
语义识别模型可以是预先训练好的专用于语料样本的语义识别的模型,也可以是具有一般语义识别功能的语义识别模型。
第一语料可以是未进行语义标注的语料,即无标签语料。第二语料可以是进行了语义标注(可以是人工进行的语义标注)的语料,即有标签语料。
其中,第二语料样本占语料样本的比例可以是较小的值,例如1:50、2:50、4:50等,该比例的大小可以根据实际情况进行调整,本申请实施例对此不作具体限定。
可以理解的是,将第二语料样本占语料样本的比例设置成较小的值,可以减少进行语义标注的工作量,节省资源。另外,利用语义识别模型,可以很好的利用大量的无标签语料具备的天然语义信息,效果优秀,超过了不少同类型其他方法。
在步骤120中,可以对第一语义识别模型输出的语料样本的语义进行聚类,从而得到与第一语义识别模型输出的语料样本的语义对应的多个语义伪标签。该伪标签可以表示第一语义识别模型输出的语料样本的语义的分类。
在步骤130中,可以根据语料样本、多个语义伪标签以及第二语料样本的语义标注对第一语义识别模型进行优化,得到优化参数,然后将第一语义识别模型的参数更新为该优化参数,从而得到目标语义模型。
可以理解的是,通过将包含了未进行语义标注的第一语料、进行了语义标注的第二语料以及表示语料样本的语义分类的语义伪标签对第一语义识别模型进行优化得到目标语义模型,可以使得目标语义模型综合学习到无标签语料以及有标签语料的内在结构,从而可以借助有标签语料的知识对无标签语料进行准确的分类。
在步骤140中,可以根据目标语料、目标语义模型以及多个语义伪标签确定目标语料的语义类型。
在该步中,可以将目标语料输入到目标语义模型,得到目标语义模型输出的目标语料的语义,从而可以结合目标语料的语义以及语义伪标签确定目标语料的语义类型,进而完成目标语义的意图识别。
本申请实施例提供的语义分类方法,通过根据无标签语料(未标注语义的语料)、无标签语料(标注了语义的语料)以及语义伪标签得到目标语义模型,可以使得目标语义模型综合学习到有标签语料的分类知识以及无标签语料的分类知识,从而一方面可以避免使用大量人工语义标注的语料带来的资源浪费,另一方面可以避免仅利用工语义标注的语料带来的意图识别不准的问题。因此,本申请实施例提供的语义分类方法可以有效节约资源并提高意图识别的准确性。
在一个实施例中,第一语义识别模型可以通过如下方式确定:
根据第二语料以及第二语料的标签对初始语义识别模型进行训练,得到第一语义识别模型;其中,第二语料的标签为第二语料的语义标注。
其中,初始语义识别模型可以是例如BERT、RoBERTa、XLNet和ELECTRA等预训练语言模型系列中的任意模型。
可以将第二语料的语义标注作为第二语料的标签,再将第二语料以及第二语料的标签对初始语义识别模型进行训练,直到初始语义识别模型的损失函数收敛,从而得到第一语义识别模型。
初始语义模型的损失函数Lce如下:
其中,N表示第二语料总数;φ表示分类函数;zi表示第i个语料输入的特征向量;φ(zi)yi表示第i个语料能够被正确分类的分数;φ(zi)j表示第i个语料被分到j类的分值;K表示类别数量。
本申请实施例提供的语义分类方法,通过采用具有强大的语义识别功能的预训练语言模型,并根据第二语料对预训练语言模型进行有监督训练得到第一语义识别模型,可以使得第一语义识别模型能够准确识别出语料样本的语义。
在得到第一语义识别模型后,可以将语料样本输入到该模型中,得到该模型输出的语料样本的语义Z。
在一个实施例中,步骤120可以包括:
对语料样本的语义Z进行K-means聚类操作,得到多个聚簇,然后根据各聚簇中的语料样本数量进行筛选,得到最终的簇数k’,k’的计算方式如下:
在一个实施例中,根据语料样本、多个语义伪标签以及第二语料样本的语义标注对第一语义识别模型进行优化,得到优化参数,可以包括:
根据语料样本、多个语义伪标签以及第一语义识别模型的参数构建第一函数;
根据第二语料样本、第一语义识别模型的参数以及第二语料样本的语义标注构建第二函数;
根据第一函数以及第二函数确定优化参数。
可选地,可以根据期望最大化EM算法来实现上述步骤。
例如,可以基于EM算法中的E步骤(使用了对比学习方法,即不同类别视为负类,相同类别视为正类),根据语料样本、多个语义伪标签以及第一语义识别模型的参数构建第一函数。该第一函数如下:
其中,Dl表示第l个语料样本;θ表示第一语义识别模型的参数;Ck表示第k个伪标签;x+表示当前batch(参与某个训练步骤内的训练样本批次)内同聚簇样本;xp表示当前batch全部样本。
进一步地,为了防止遗忘语义标注信息,可以基于EM算法中的E步骤,根据第二语料样本、第一语义识别模型的参数以及第二语料样本的语义标注构建第二函数。该第二函数如下:
在确定第一函数以及第二函数之后,可以根据第一函数以及第二函数来确定第一语义识别模型的优化参数,从而对第一语义识别模型进行更新。
本申请实施例提供的语义分类方法,通过引入伪标签来构建优第一函数,并通过引入语义标注信息来构建第二函数,再结合第一函数与第二函数来对第一语义识别模型的参数进行优化,可以保证优化后的参数能综合体现出无标签语料与有标签语料的内在联系,从而提高目标语义模型的语义识别准确率。
在一个实施例中,根据第一函数以及第二函数确定优化参数,可以包括:
根据第一函数以及第二函数构建目标函数;
根据EM算法对目标函数中的第一语义识别模型的参数进行优化,得到优化参数。
在确定第一函数(公式(3))以及第二函数(公式(4))后,可以根据两者构建目标函数。本实施例的目标函数使用了目标后验分部的似然函数,其损失函数如下:
其中,P(Yl|Z,Dl;θ)表示第二函数,即公式(4);P(Z,Dl;θ)表示第一函数,即公式(3)。
可以根据EM算法中的M步骤,对公式(5)的θ进行优化,以得到优化参数θ’。
本申请实施例提供的语义分类方法,结合第一函数与第二函数来对第一语义识别模型的参数进行优化,可以保证优化后的参数能综合体现出无标签语料与有标签语料的内在联系,从而提高目标语义模型的语义识别准确率。
需要说明的是,在得到优化参数θ’后,即可将第一语义识别模型的参数θ更新为θ’,从而得到目标语义模型。
在一个实施例中,步骤140可以包括:
将目标语料输入目标语义模型,得到目标语义模型输出的目标语料的语义;
根据目标语料的语义,从多个语义伪标签中确定目标语义伪标签;
根据目标语义伪标签确定目标语料的语义类型。
可以理解的是,在实际应用中,可以将需要确定语义类型的目标语料输入到目标语义模型中,得到目标语义模型输出的目标语料的语义。
接下来,可以根据目标语料的语义,从多个语义伪标签中找到对应的目标语义伪标签;其中,“对应”指目标语料的语义,与目标语义伪标签(聚簇)所包含的语义的相似度超过相似度阈值。该相似度阈值的具体取值可以是例如99%、96%等,其大小可以根据实际需要进行调整,本申请实施例对此不做具体限定。
在确定目标语义伪标签后,即可根据目标语义伪标签的ID确定目标语料的语义类型;其中,目标语义伪标签的ID是在步骤120确定各语义伪标签后,分别对各语义伪标签分配ID时确定的。一个语义伪标签对应一个ID,一个ID对应一个语义类型。
本申请实施例提供的语义分类方法,通过根据目标语料、目标语义模型以及多个语义伪标签确定目标语料的语义类型,可以保证对目标语料的语义类型的准确分类。
在一个实施例中,本申请实施例提供的语义分类方法,还可以包括:
重复步骤110、步骤120以及步骤130,直到EM算法收敛或者达到最大迭代次数。
即,可以循环步骤110、步骤120以及步骤130,直到EM算法收敛或者达到最大迭代次数。
可以理解的是,通过一次EM算法,可以得到一次优化后的优化参数,即更新了第一语义识别模型,此时得到的目标语义模型相对于第一语义识别模型能够更好的学习到有标签语料的分类知识以及无标签语料的分类知识,从而提供更准确的语义分类效果。
而通过多次循环步骤110、步骤120以及步骤130,可以得到进一步优化的优化参数,使得最终的语义识别模型能够最大限度地学习到有标签语料的分类知识以及无标签语料的分类知识,从而提供最准确的语义分类效果。
图2为本申请实施例提供的语义分类方法的逻辑流程图。下面参照图2再次说明本申请实施例提供的语义分类方法的整体流程:
步骤210、从语料样本中确定第一语料样本以及第二语料样本;
步骤220、将语料样本输入第一语义识别模型,得到第一语义识别模型输出的语料样本的语义;
步骤230、对语料样本的语义进行聚类,得到多个语义伪标签;
步骤240、根据语料样本、多个语义伪标签以及第二语料样本的语义标注对第一语义识别模型进行优化,得到优化参数,并根据优化参数以及第一语义识别模型得到目标语义模型;
步骤250、判断算法收敛或者达到最大迭代次数;若是,则进入步骤260;若否,则重复步骤220至步骤250;
步骤260、根据目标语料、目标语义模型确定目标语料的语义,再根据目标语料的语义以及多个语义伪标签确定目标语料的语义类型。
其中,上述步骤210至步骤260的具体实施可以参考上述各实施例,在此不再赘述。
需要说明的是,申请实施例提供的语义分类方法在对公开的CLINC数据集进行意图识别时,其NMI指标、ARI指标、ACC指标分别达到了94.78、82.32、88.29;在对公开的BANKING数据集进行意图识别时,其NMI指标、ARI指标、ACC指标分别达到了83.13、60.15、70.82;在对公开的StackOverflow数据集进行意图识别时,其NMI指标、ARI指标、ACC指标分别达到了77.29、63.93、80.9。其在各种情况下的指标均优于现有的非监督以及半监督意图识别方法。
由此可见,本申请实施例提供的语义分类方法在意图识别效果上显著优于现有技术中的各种分类方法,具有十分广阔的应用前景。
综上所述,本申请实施例提供的语义分类方法可以有效节约人工标注语义的时间成本以及人工成本,并提高意图识别的准确性。
本申请实施例还提供一种语义分类装置,该装置与上文描述的语义分类可相互对应参照。
图3是本申请实施例提供的语义分类装置的结构示意图。参照图3,本申请实施例提供的语义分类装置可以包括:
模型更新模块310,用于将语料样本输入第一语义识别模型,得到所述第一语义识别模型输出的语料样本的语义;其中,所述语料样本包括未进行语义标注的第一语料,以及进行了语义标注的第二语料;
标签确定模块320,用于对所述语料样本的语义进行聚类,得到多个语义伪标签;
参数优化模块330,用于根据所述语料样本、所述多个语义伪标签以及所述第二语料样本的语义标注对所述第一语义识别模型进行优化,得到优化参数,并根据所述优化参数以及所述第一语义识别模型得到目标语义模型;
分类确定模块340,用于根据目标语料、所述目标语义模型以及所述多个语义伪标签确定所述目标语料的语义类型。
本申请实施例提供的语义分类装置,通过根据无标签语料(未标注语义的语料)、无标签语料(标注了语义的语料)以及语义伪标签得到目标语义模型,可以使得目标语义模型综合学习到有标签语料的分类知识以及无标签语料的分类知识,从而一方面可以避免使用大量人工语义标注的语料带来的资源浪费,另一方面可以避免仅利用工语义标注的语料带来的意图识别不准的问题。因此,本申请实施例提供的语义分类装置可以有效节约资源并提高意图识别的准确性。
在一个实施例中,参数优化模块330具体用于:
根据所述语料样本、所述多个语义伪标签以及所述第一语义识别模型的参数构建第一函数;
根据所述第二语料样本、所述第一语义识别模型的参数以及所述第二语料样本的语义标注构建第二函数;
根据所述第一函数以及所述第二函数确定所述优化参数。
在一个实施例中,所述第一语义识别模型是通过如下方式确定的:
根据所述第二语料以及所述第二语料的标签对初始语义识别模型进行训练,得到所述第一语义识别模型;
其中,所述第二语料的标签为所述第二语料的语义标注。
在一个实施例中,参数优化模块330具体用于:
根据所述第一函数以及所述第二函数构建目标函数;
根据期望最大化EM算法对所述目标函数中的所述第一语义识别模型的参数进行优化,得到所述优化参数。
在一个实施例中,所述初始语义识别模型为预训练语言模型。
在一个实施例中,分类确定模块340具体用于:
将所述目标语料输入所述目标语义模型,得到所述目标语义模型输出的所述目标语料的语义;
根据所述目标语料的语义,从所述多个语义伪标签中确定目标语义伪标签;
根据所述目标语义伪标签确定所述目标语料的语义类型。
在一个实施例中,本申请实施例提供的语义分类装置还包括循环模块(图中未示出),用于:
重复所述模型更新模块310、所述标签确定模块320以及所述参数优化模块330的步骤,直到所述EM算法收敛或者达到最大迭代次数。
图4示例了一种电子设备的实体结构示意图,如图4所示,该电子设备可以包括:处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令,以执行如下方法:
将语料样本输入第一语义识别模型,得到所述第一语义识别模型输出的语料样本的语义;其中,所述语料样本包括未进行语义标注的第一语料样本,以及进行了语义标注的第二语料样本;
对所述语料样本的语义进行聚类,得到多个语义伪标签;
根据所述语料样本、所述多个语义伪标签以及所述第二语料样本的语义标注对所述第一语义识别模型进行优化,得到优化参数,并根据所述优化参数以及所述第一语义识别模型得到目标语义模型;
根据目标语料、所述目标语义模型以及所述多个语义伪标签确定所述目标语料的语义类型。
此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
进一步地,本申请实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:
将语料样本输入第一语义识别模型,得到所述第一语义识别模型输出的语料样本的语义;其中,所述语料样本包括未进行语义标注的第一语料样本,以及进行了语义标注的第二语料样本;
对所述语料样本的语义进行聚类,得到多个语义伪标签;
根据所述语料样本、所述多个语义伪标签以及所述第二语料样本的语义标注对所述第一语义识别模型进行优化,得到优化参数,并根据所述优化参数以及所述第一语义识别模型得到目标语义模型;
根据目标语料、所述目标语义模型以及所述多个语义伪标签确定所述目标语料的语义类型。
另一方面,本申请实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的传输方法,例如包括:
将语料样本输入第一语义识别模型,得到所述第一语义识别模型输出的语料样本的语义;其中,所述语料样本包括未进行语义标注的第一语料样本,以及进行了语义标注的第二语料样本;
对所述语料样本的语义进行聚类,得到多个语义伪标签;
根据所述语料样本、所述多个语义伪标签以及所述第二语料样本的语义标注对所述第一语义识别模型进行优化,得到优化参数,并根据所述优化参数以及所述第一语义识别模型得到目标语义模型;
根据目标语料、所述目标语义模型以及所述多个语义伪标签确定所述目标语料的语义类型。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (10)
1.一种语义分类方法,其特征在于,包括:
将语料样本输入第一语义识别模型,得到所述第一语义识别模型输出的语料样本的语义;其中,所述语料样本包括未进行语义标注的第一语料样本,以及进行了语义标注的第二语料样本;
对所述语料样本的语义进行聚类,得到多个语义伪标签;
根据所述语料样本、所述多个语义伪标签以及所述第二语料样本的语义标注对所述第一语义识别模型进行优化,得到优化参数,并根据所述优化参数以及所述第一语义识别模型得到目标语义模型;
根据目标语料、所述目标语义模型以及所述多个语义伪标签确定所述目标语料的语义类型。
2.根据权利要求1所述的语义分类方法,其特征在于,所述根据所述语料样本、所述多个语义伪标签以及所述第二语料样本的语义标注对所述第一语义识别模型进行优化,得到优化参数,包括:
根据所述语料样本、所述多个语义伪标签以及所述第一语义识别模型的参数构建第一函数;
根据所述第二语料样本、所述第一语义识别模型的参数以及所述第二语料样本的语义标注构建第二函数;
根据所述第一函数以及所述第二函数确定所述优化参数。
3.根据权利要求2所述的语义分类方法,其特征在于,所述根据所述第一函数以及所述第二函数确定所述优化参数,包括:
根据所述第一函数以及所述第二函数构建目标函数;
根据期望最大化EM算法对所述目标函数中的所述第一语义识别模型的参数进行优化,得到所述优化参数。
4.根据权利要求3所述的语义分类方法,其特征在于,还包括:
重复所述得到所述第一语义识别模型输出的语料样本的语义的步骤、所述得到多个语义伪标签的步骤以及所述根据所述优化参数以及所述第一语义识别模型得到目标语义模型的步骤,直到所述EM算法收敛或者达到最大迭代次数。
5.根据权利要求1所述的语义分类方法,其特征在于,所述第一语义识别模型是通过如下方式确定的:
根据所述第二语料以及所述第二语料的标签对初始语义识别模型进行训练,得到所述第一语义识别模型;
其中,所述第二语料的标签为所述第二语料的语义标注。
6.根据权利要求5所述的语义分类方法,其特征在于,所述初始语义识别模型为预训练语言模型。
7.根据权利要求1所述的语义分类方法,其特征在于,所述根据目标语料、所述目标语义模型以及所述多个语义伪标签确定所述目标语料的语义类型,包括:
将所述目标语料输入所述目标语义模型,得到所述目标语义模型输出的所述目标语料的语义;
根据所述目标语料的语义,从所述多个语义伪标签中确定目标语义伪标签;
根据所述目标语义伪标签确定所述目标语料的语义类型。
8.一种语义分类装置,其特征在于,包括:
模型更新模块,用于将语料样本输入第一语义识别模型,得到所述第一语义识别模型输出的语料样本的语义;其中,所述语料样本包括未进行语义标注的第一语料,以及进行了语义标注的第二语料;
标签确定模块,用于对所述语料样本的语义进行聚类,得到多个语义伪标签;
参数优化模块,用于根据所述语料样本、所述多个语义伪标签以及所述第二语料样本的语义标注对所述第一语义识别模型进行优化,得到优化参数,并根据所述优化参数以及所述第一语义识别模型得到目标语义模型;
分类确定模块,用于根据目标语料、所述目标语义模型以及所述多个语义伪标签确定所述目标语料的语义类型。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述的语义分类方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一项所述的语义分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210253764.6A CN114637848A (zh) | 2022-03-15 | 2022-03-15 | 语义分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210253764.6A CN114637848A (zh) | 2022-03-15 | 2022-03-15 | 语义分类方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114637848A true CN114637848A (zh) | 2022-06-17 |
Family
ID=81948092
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210253764.6A Pending CN114637848A (zh) | 2022-03-15 | 2022-03-15 | 语义分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114637848A (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111062495A (zh) * | 2019-11-28 | 2020-04-24 | 深圳市华尊科技股份有限公司 | 机器学习方法及相关装置 |
CN111079445A (zh) * | 2019-12-27 | 2020-04-28 | 南京三百云信息科技有限公司 | 基于语义模型的训练方法、装置以及电子设备 |
CN111177374A (zh) * | 2019-12-13 | 2020-05-19 | 航天信息股份有限公司 | 一种基于主动学习的问答语料情感分类方法及系统 |
CN112052318A (zh) * | 2020-08-18 | 2020-12-08 | 腾讯科技(深圳)有限公司 | 一种语义识别方法、装置、计算机设备和存储介质 |
CN112131890A (zh) * | 2020-09-15 | 2020-12-25 | 北京慧辰资道资讯股份有限公司 | 一种会话意图智能识别模型的构建方法、装置及设备 |
CN112148877A (zh) * | 2020-09-23 | 2020-12-29 | 网易(杭州)网络有限公司 | 语料文本的处理方法、装置及电子设备 |
WO2021151296A1 (zh) * | 2020-07-22 | 2021-08-05 | 平安科技(深圳)有限公司 | 多任务分类方法、装置、计算机设备及存储介质 |
CN113887643A (zh) * | 2021-10-12 | 2022-01-04 | 西安交通大学 | 一种基于伪标签自训练和源域再训练的新对话意图识别方法 |
CN113901991A (zh) * | 2021-09-15 | 2022-01-07 | 天津大学 | 一种基于伪标签的3d点云数据半自动标注方法及装置 |
CN113918714A (zh) * | 2021-09-29 | 2022-01-11 | 北京百度网讯科技有限公司 | 一种分类模型训练方法、聚类方法及电子设备 |
-
2022
- 2022-03-15 CN CN202210253764.6A patent/CN114637848A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111062495A (zh) * | 2019-11-28 | 2020-04-24 | 深圳市华尊科技股份有限公司 | 机器学习方法及相关装置 |
CN111177374A (zh) * | 2019-12-13 | 2020-05-19 | 航天信息股份有限公司 | 一种基于主动学习的问答语料情感分类方法及系统 |
CN111079445A (zh) * | 2019-12-27 | 2020-04-28 | 南京三百云信息科技有限公司 | 基于语义模型的训练方法、装置以及电子设备 |
WO2021151296A1 (zh) * | 2020-07-22 | 2021-08-05 | 平安科技(深圳)有限公司 | 多任务分类方法、装置、计算机设备及存储介质 |
CN112052318A (zh) * | 2020-08-18 | 2020-12-08 | 腾讯科技(深圳)有限公司 | 一种语义识别方法、装置、计算机设备和存储介质 |
CN112131890A (zh) * | 2020-09-15 | 2020-12-25 | 北京慧辰资道资讯股份有限公司 | 一种会话意图智能识别模型的构建方法、装置及设备 |
CN112148877A (zh) * | 2020-09-23 | 2020-12-29 | 网易(杭州)网络有限公司 | 语料文本的处理方法、装置及电子设备 |
CN113901991A (zh) * | 2021-09-15 | 2022-01-07 | 天津大学 | 一种基于伪标签的3d点云数据半自动标注方法及装置 |
CN113918714A (zh) * | 2021-09-29 | 2022-01-11 | 北京百度网讯科技有限公司 | 一种分类模型训练方法、聚类方法及电子设备 |
CN113887643A (zh) * | 2021-10-12 | 2022-01-04 | 西安交通大学 | 一种基于伪标签自训练和源域再训练的新对话意图识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Song et al. | Feature selection using bare-bones particle swarm optimization with mutual information | |
Zhang et al. | Discovering new intents with deep aligned clustering | |
EP3227836B1 (en) | Active machine learning | |
CN110110062B (zh) | 机器智能问答方法、装置与电子设备 | |
WO2021089013A1 (zh) | 空间图卷积网络的训练方法、电子设备及存储介质 | |
CN112699247A (zh) | 一种基于多类交叉熵对比补全编码的知识表示学习框架 | |
CN110009030B (zh) | 基于stacking元学习策略的污水处理故障诊断方法 | |
Nezhadi et al. | Ontology alignment using machine learning techniques | |
CN110363230B (zh) | 基于加权基分类器的stacking集成污水处理故障诊断方法 | |
CN112597285B (zh) | 一种基于知识图谱的人机交互方法及系统 | |
CN111027292B (zh) | 一种限定采样文本序列生成方法及其系统 | |
CN110598869B (zh) | 基于序列模型的分类方法、装置、电子设备 | |
CN109191276A (zh) | 一种基于强化学习的p2p网络借贷机构风险评估方法 | |
CN114781611A (zh) | 自然语言处理方法、语言模型训练方法及其相关设备 | |
CN115577283A (zh) | 一种实体分类方法、装置、电子设备及存储介质 | |
US11948387B2 (en) | Optimized policy-based active learning for content detection | |
CN113869609A (zh) | 一种根因分析频繁子图置信度预测方法及系统 | |
US20220138425A1 (en) | Acronym definition network | |
CN115599918B (zh) | 一种基于图增强的互学习文本分类方法及系统 | |
CN114637848A (zh) | 语义分类方法及装置 | |
CN114510567A (zh) | 一种基于聚类的新意图发现方法、装置、设备和存储介质 | |
CN116450781A (zh) | 问答的处理方法及装置 | |
Shao et al. | Semi-supervised image annotation with parallel graph convolutional networks | |
CN116306917B (zh) | 任务处理方法、装置、设备和计算机存储介质 | |
CN116663516B (zh) | 表格机器学习模型训练方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |