CN117435738A - 一种基于深度学习的文本多意图分析方法与系统 - Google Patents
一种基于深度学习的文本多意图分析方法与系统 Download PDFInfo
- Publication number
- CN117435738A CN117435738A CN202311746436.0A CN202311746436A CN117435738A CN 117435738 A CN117435738 A CN 117435738A CN 202311746436 A CN202311746436 A CN 202311746436A CN 117435738 A CN117435738 A CN 117435738A
- Authority
- CN
- China
- Prior art keywords
- intention
- function value
- analysis model
- loss function
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 367
- 238000013135 deep learning Methods 0.000 title claims abstract description 37
- 230000006870 function Effects 0.000 claims abstract description 297
- 238000012549 training Methods 0.000 claims abstract description 165
- 239000013598 vector Substances 0.000 claims description 78
- 238000004364 calculation method Methods 0.000 claims description 22
- 238000000034 method Methods 0.000 claims description 21
- 230000008014 freezing Effects 0.000 claims description 7
- 238000007710 freezing Methods 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims description 4
- 230000000873 masking effect Effects 0.000 description 7
- 238000010606 normalization Methods 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 238000002360 preparation method Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010257 thawing Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于深度学习的文本多意图分析方法与系统,包括语义训练数据集训练预设的初始语义特征模型,得到目标语义特征模型,根据意图的总数构建包含多个初始单意图分析模型的初始多意图分析模型,根据意图训练数据集训练每个初始单意图分析模型,得到多意图损失函数值与单意图损失函数值,当多意图损失函数值达到第一函数阈值且每个单意图损失函数值均达到对应的第二函数阈值,得到目标多意图分析模型,通过多个独立的意图分析模型组成的多意图分析模型减少了多意图分析模型的训练周期,提升了数据拟合性能,通过目标语义特征模型和目标多意图分析模型对待预测文本进行预测,能够提高意图预测的准确性。
Description
技术领域
本发明涉及多意图分析相关技术领域,尤其是涉及一种基于深度学习的文本多意图分析方法与系统。
背景技术
目前,在对自然语言进行意图分析时最常见的方法就是将文本的意图分析问题转换为文本的二分类或多分类问题。如果一个文本中需要多个意图同时预测时,通过将该问题等价转化成多个二分类问题,且运行时也需要使用多个模型对同一文本进行推理后才能形成完整的意图分析结果;或者在单个模型中将模型输出结果转换为[1,0,1,0,1……]形式的一维向量,每个位置用0和1表示,代表一个意图,但需要训练多个二分类模型或无法较好的拟合数据,导致模型在实际推理过程中无法满足业务要求。
发明内容
本发明旨在至少解决现有技术中存在的技术问题。为此,本发明提出一种基于深度学习的文本多意图分析方法与系统,能够减少多意图分析模型的训练周期,提升数据拟合性能,提高意图预测的准确性。
本发明的第一方面,提供了一种基于深度学习的文本多意图分析方法,包括如下步骤:
获取待预测文本、语义训练数据集和意图训练数据集;
构建初始语义特征模型,根据所述语义训练数据集训练所述初始语义特征模型,得到目标语义特征模型;
根据意图的总数构建包含多个初始单意图分析模型的初始多意图分析模型,根据所述意图训练数据集训练每个初始单意图分析模型,得到初始多意图分析模型的多意图损失函数值与每个初始单意图分析模型对应的单意图损失函数值,当所述多意图损失函数值小于第一函数阈值且每个所述单意图损失函数值均小于对应的第二函数阈值,得到目标多意图分析模型,其中,每个初始单意图分析模型根据对应一个所述意图独立设置;
将所述待预测文本输入所述目标语义特征模型进行预测,得到所述待预测文本的语义特征向量;将所述语义特征向量输入所述目标多意图分析模型进行预测,得到所述待预测文本的多意图分析结果。
根据本发明实施例的控制方法,至少具有如下有益效果:
本方法通过语义训练数据集训练预设的初始语义特征模型,得到目标语义特征模型,根据意图的总数构建包含多个初始单意图分析模型的初始多意图分析模型,根据意图训练数据集训练每个初始单意图分析模型,得到初始多意图分析模型的多意图损失函数值与每个初始单意图分析模型对应的单意图损失函数值,当多意图损失函数值达到第一函数阈值且每个单意图损失函数值均达到对应的第二函数阈值,得到目标多意图分析模型,其中,每个初始单意图分析模型根据对应一个意图独立设置;通过多个独立的意图分析模型组成的多意图分析模型减少了多意图分析模型的训练周期,提升了数据拟合性能,通过目标语义特征模型和目标多意图分析模型对待预测文本进行预测,能够提高意图预测的准确性。
根据本发明的一些实施例,通过如下方式得到目标多意图分析模型,包括:
将所述意图训练数据集输入所述目标语义特征模型,得到数据集语义特征向量;
将所述数据集语义特征向量输入每个所述初始单意图分析模型进行训练,得到每个所述初始单意图分析模型的第一单意图分析结果、第一单意图损失函数值与第一多意图分析模型,其中,所述第一单意图损失函数值的计算公式为:
其中,为单意图损失函数值,/>为语义特征向量的批次大小,/>为第i个批次的实际标签值,/>为第i个批次的预测标签值;
将每个所述初始单意图分析模型的第一单意图分析结果按相同顺序进行连接,得到第一单意图一维数组;
根据所述第一单意图一维数组通过多分类交叉熵计算第一多意图损失函数值,其中,所述第一多意图损失函数值的计算公式为:
其中,为第一多意图损失函数值,B为语义特征向量的批次大小,F为第一单意图一维数组的长度,/>为第i个批次的第c个数据的实际标签值,/>为第i个批次的第c个数据的预测标签值;
当所述第一多意图损失函数值小于第一函数阈值,且每个所述初始单意图分析模型的第一单意图损失函数值均小于对应的第二函数阈值,将所述第一多意图分析模型作为所述目标多意图分析模型。
根据本发明的一些实施例,通过如下方式得到目标多意图分析模型,包括:
将所述意图训练数据集输入所述目标语义特征模型,得到数据集语义特征向量;
将所述数据集语义特征向量输入每个所述初始单意图分析模型进行训练,得到每个所述初始单意图分析模型的第一单意图分析结果、第一单意图损失函数值与第一多意图分析模型,其中,所述第一单意图损失函数值的计算公式为:
其中,为单意图损失函数值,/>为语义特征向量的批次大小,/>为第i个批次的实际标签值,/>为第i个批次的预测标签值;
将每个所述初始单意图分析模型的第一单意图分析结果按相同顺序进行连接,得到第一单意图一维数组;
根据所述第一单意图一维数组通过多分类交叉熵计算第一多意图损失函数值,其中,所述第一多意图损失函数值的计算公式为:
其中,为第一多意图损失函数值,B为语义特征向量的批次大小,F为第一单意图一维数组的长度,/>为第i个批次的第c个数据的实际标签值,/>为第i个批次的第c个数据的预测标签值;
当所述第一多意图损失函数值小于第一函数阈值,且存在至少一个初始单意图分析模型的第一单意图损失函数值大于第二函数阈值,冻结第一单意图损失函数值小于第二函数阈值的初始单意图分析模型,且令所述第一单意图损失函数值小于第二函数阈值的初始单意图分析模型为训练好的第一批次单意图分析模型;
筛选出第一单意图损失函数值大于第二函数阈值的初始单意图分析模型,得到第一个第二批次单意图分析模型,根据所述数据集语义特征向量与所述第一个第二批次单意图分析模型的第一单意图损失函数值对所述第一个第二批次单意图分析模型进行训练,得到第二个第二批次单意图分析模型与所述第二个第二批次单意图分析模型的第二单意图损失函数值,依次类推,直至第二批次单意图分析模型的每个单意图分析模型的单意图损失函数值小于对应的第二函数阈值,得到训练好的第二批次单意图分析模型;
组合所述训练好的第一批次单意图分析模型与所述训练好的第二批次单意图分析模型,得到所述目标多意图分析模型。
根据本发明的一些实施例,通过如下方式得到目标多意图分析模型,包括:
将所述意图训练数据集输入所述目标语义特征模型,得到数据集语义特征向量;
将所述数据集语义特征向量输入每个所述初始单意图分析模型进行训练,得到每个所述初始单意图分析模型的第一单意图分析结果、第一单意图损失函数值与第一多意图分析模型,其中,所述第一单意图损失函数值的计算公式为:
其中,为单意图损失函数值,/>为语义特征向量的批次大小,/>为第i个批次的实际标签值,/>为第i个批次的预测标签值;
将每个所述初始单意图分析模型的第一单意图分析结果按相同顺序进行连接,得到第一单意图一维数组;
根据所述第一单意图一维数组通过多分类交叉熵计算第一多意图损失函数值,其中,所述第一多意图损失函数值的计算公式为:
其中,为第一多意图损失函数值,B为语义特征向量的批次大小,F为第一单意图一维数组的长度,/>为第i个批次的第c个数据的实际标签值,/>为第i个批次的第c个数据的预测标签值;
当所述第一多意图损失函数值大于第一函数阈值,则根据所述第一多意图损失函数值与所述数据集语义特征向量输入所述第一多意图分析模型进行训练,得到第二多意图分析模型及其输出的第二多意图损失函数值,依次类推,直至第n次迭代的第n多意图损失函数值小于第一函数阈值,得到第n多意图分析模型,其中,n为自然数;
判断所述第n多意图分析模型中的每个单意图分析模型的第n单意图损失函数值是否小于对应的第二函数阈值,当每个所述单意图分析模型的第n单意图损失函数值均小于对应的第二函数阈值,则所述第n多意图分析模型为所述目标多意图分析模型。
根据本发明的一些实施例,所述根据所述语义训练数据集训练所述初始语义特征模型,得到目标语义特征模型,包括:
将所述语义训练数据集输入所述初始语义特征模型进行训练,得到第一语义特征模型与所述第一语义特征模型输出的第一负对数似然函数值,当所述第一负对数似然函数值小于预设的似然函数值,则所述第一语义特征模型为所述目标语义特征模型;
当所述第一负对数似然函数值大于所述似然函数值,则根据所述第一负对数似然函数值与所述语义训练数据集输入所述第一语义特征模型进行训练,得到第二语义特征模型与所述第二语义特征模型输出的第二负对数似然函数值,依次类推,直至第i次迭代的第i负对数似然函数值小于所述似然函数值,则第i语义特征模型为所述目标语义特征模型,其中,i为自然数。
根据本发明的一些实施例,通过如下方式获取语义训练数据集,包括:
根据意图的总数设置专业词、同义词、常见错误和通用文本;
将所述通用文本进行切分,得到切分后文本,其中,所述切分后文本的单行均不超过预设的文本最大长度;
根据所述专业词、同义词、常见错误、通用文本和所述切分后文本构建所述语义训练数据集。
根据本发明的一些实施例,通过如下方式获取意图训练数据集,包括:
根据意图的总数构建所述意图训练数据集,其中,所述意图训练数据集的意图至少包括预设的意图,所述意图训练数据集的文本长度不超过所述预设的文本最大长度。
本发明的第二方面,提供一种基于深度学习的文本多意图分析系统,所述基于深度学习的文本多意图分析系统包括:
数据获取模块,用于获取待预测文本、语义训练数据集和意图训练数据集;
语义特征模型训练模块,用于构建初始语义特征模型,根据所述语义训练数据集训练所述初始语义特征模型,得到目标语义特征模型;
多意图分析模型训练模块,用于根据意图的总数构建包含多个初始单意图分析模型的初始多意图分析模型,根据所述意图训练数据集训练每个初始单意图分析模型,得到初始多意图分析模型的多意图损失函数值与每个初始单意图分析模型对应的单意图损失函数值,当所述多意图损失函数值小于第一函数阈值且每个所述单意图损失函数值均小于对应的第二函数阈值,得到目标多意图分析模型,其中,每个初始单意图分析模型根据对应一个所述意图独立设置;
多意图分析结果输出模块,用于将所述待预测文本输入所述目标语义特征模型进行预测,得到所述待预测文本的语义特征向量;将所述语义特征向量输入所述目标多意图分析模型进行预测,得到所述待预测文本的多意图分析结果。
本系统通过语义训练数据集训练预设的初始语义特征模型,得到目标语义特征模型,根据意图的总数构建包含多个初始单意图分析模型的初始多意图分析模型,根据意图训练数据集训练每个初始单意图分析模型,得到初始多意图分析模型的多意图损失函数值与每个初始单意图分析模型对应的单意图损失函数值,当多意图损失函数值达到第一函数阈值且每个单意图损失函数值均达到对应的第二函数阈值,得到目标多意图分析模型,其中,每个初始单意图分析模型根据对应一个意图独立设置;通过多个独立的意图分析模型组成的多意图分析模型减少了多意图分析模型的训练周期,提升了数据拟合性能,通过目标语义特征模型和目标多意图分析模型对待预测文本进行预测,能够提高意图预测的准确性。
本发明的第三方面,提供了一种基于深度学习的文本多意图分析电子设备,包括至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器;所述存储器存储有可被所述至少一个控制处理器执行的指令,所述指令被所述至少一个控制处理器执行,以使所述至少一个控制处理器能够执行上述的基于深度学习的文本多意图分析方法。
本发明的第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行上述的基于深度学习的文本多意图分析方法。
需要注意的是,本发明的第二方面至第四方面与现有技术之间的有益效果与上述的一种基于深度学习的文本多意图分析系统与现有技术之间的有益效果相同,此处不再细述。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明一实施例的一种基于深度学习的文本多意图分析方法的流程图;
图2是本发明一实施例的一种基于深度学习的文本多意图分析方法的编码器结构图;
图3是本发明一实施例的一种基于深度学习的文本多意图分析方法的残差网络结构图;
图4是本发明一实施例的一种基于深度学习的文本多意图分析方法的整体流程图;
图5是本发明一实施例的一种基于深度学习的文本多意图分析系统的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,如果有描述到第一、第二等只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
在本发明的描述中,需要理解的是,涉及到方位描述,例如上、下等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
本发明的描述中,需要说明的是,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
目前,在对自然语言进行意图分析时最常见的方法就是将文本的意图分析问题转换为文本的二分类或多分类问题。如果一个文本中需要多个意图同时预测时,通过将该问题等价转化成多个二分类问题,且运行时也需要使用多个模型对同一文本进行推理后才能形成完整的意图分析结果;或者在单个模型中将模型输出结果转换为[1,0,1,0,1……]形式的一维向量,每个位置用0和1表示,代表一个意图,但需要训练多个二分类模型或无法较好的拟合数据,导致模型在实际推理过程中无法满足业务要求。
为了解决上述技术缺陷,参照图1与图4,本发明提供了一种基于深度学习的文本多意图分析方法,包括:
步骤S101、获取待预测文本、语义训练数据集和意图训练数据集。
步骤S102、构建初始语义特征模型,根据语义训练数据集训练初始语义特征模型,得到目标语义特征模型。
步骤S103、根据意图的总数构建包含多个初始单意图分析模型的初始多意图分析模型,根据意图训练数据集训练每个初始单意图分析模型,得到初始多意图分析模型的多意图损失函数值与每个初始单意图分析模型对应的单意图损失函数值,当多意图损失函数值小于第一函数阈值且每个单意图损失函数值均小于对应的第二函数阈值,得到目标多意图分析模型,其中,每个初始单意图分析模型根据对应一个意图独立设置。
步骤S104、将待预测文本输入目标语义特征模型进行预测,得到待预测文本的语义特征向量;将语义特征向量输入目标多意图分析模型进行预测,得到待预测文本的多意图分析结果。
本方法通过语义训练数据集训练预设的初始语义特征模型,得到目标语义特征模型,根据意图的总数构建包含多个初始单意图分析模型的初始多意图分析模型,根据意图训练数据集训练每个初始单意图分析模型,得到初始多意图分析模型的多意图损失函数值与每个初始单意图分析模型对应的单意图损失函数值,当多意图损失函数值达到第一函数阈值且每个单意图损失函数值均达到对应的第二函数阈值,得到目标多意图分析模型,其中,每个初始单意图分析模型根据对应一个意图独立设置;通过多个独立的意图分析模型组成的多意图分析模型减少了多意图分析模型的训练周期,提升了数据拟合性能,通过目标语义特征模型和目标多意图分析模型对待预测文本进行预测,能够提高意图预测的准确性。
在一些实施例中,通过如下方式得到目标多意图分析模型,包括:
将意图训练数据集输入目标语义特征模型,得到数据集语义特征向量。
将数据集语义特征向量输入每个初始单意图分析模型进行训练,得到每个初始单意图分析模型的第一单意图分析结果、第一单意图损失函数值与第一多意图分析模型,其中,第一单意图损失函数值的计算公式为:
其中,为单意图损失函数值,/>为语义特征向量的批次大小,/>为第i个批次的实际标签值,/>为第i个批次的预测标签值。
将每个初始单意图分析模型的第一单意图分析结果按相同顺序进行连接,得到第一单意图一维数组。
根据第一单意图一维数组通过多分类交叉熵计算第一多意图损失函数值,其中,第一多意图损失函数值的计算公式为:
其中,为第一多意图损失函数值,B为语义特征向量的批次大小,F为第一单意图一维数组的长度,/>为第i个批次的第c个数据的实际标签值,/>为第i个批次的第c个数据的预测标签值。
当第一多意图损失函数值小于第一函数阈值,且每个初始单意图分析模型的第一单意图损失函数值均小于对应的第二函数阈值,将第一多意图分析模型作为目标多意图分析模型。
在一些实施例中,通过如下方式得到目标多意图分析模型,包括:
将意图训练数据集输入目标语义特征模型,得到数据集语义特征向量。
将数据集语义特征向量输入每个初始单意图分析模型进行训练,得到每个初始单意图分析模型的第一单意图分析结果、第一单意图损失函数值与第一多意图分析模型,其中,第一单意图损失函数值的计算公式为:
其中,为单意图损失函数值,/>为语义特征向量的批次大小,/>为第i个批次的实际标签值,/>为第i个批次的预测标签值。
将每个初始单意图分析模型的第一单意图分析结果按相同顺序进行连接,得到第一单意图一维数组。
根据第一单意图一维数组通过多分类交叉熵计算第一多意图损失函数值,其中,第一多意图损失函数值的计算公式为:
其中,为第一多意图损失函数值,B为语义特征向量的批次大小,F为第一单意图一维数组的长度,/>为第i个批次的第c个数据的实际标签值,/>为第i个批次的第c个数据的预测标签值。
当第一多意图损失函数值小于第一函数阈值,且存在至少一个初始单意图分析模型的第一单意图损失函数值大于第二函数阈值,冻结第一单意图损失函数值小于第二函数阈值的初始单意图分析模型,且令第一单意图损失函数值小于第二函数阈值的初始单意图分析模型为训练好的第一批次单意图分析模型。
筛选出第一单意图损失函数值大于第二函数阈值的初始单意图分析模型,得到第一个第二批次单意图分析模型,根据数据集语义特征向量与第一个第二批次单意图分析模型的第一单意图损失函数值对第一个第二批次单意图分析模型进行训练,得到第二个第二批次单意图分析模型与第二个第二批次单意图分析模型的第二单意图损失函数值,依次类推,直至第二批次单意图分析模型的每个单意图分析模型的单意图损失函数值小于对应的第二函数阈值,得到训练好的第二批次单意图分析模型。
组合训练好的第一批次单意图分析模型与训练好的第二批次单意图分析模型,得到目标多意图分析模型。
在一些实施例中,通过如下方式得到目标多意图分析模型,包括:
将意图训练数据集输入目标语义特征模型,得到数据集语义特征向量。
将数据集语义特征向量输入每个初始单意图分析模型进行训练,得到每个初始单意图分析模型的第一单意图分析结果、第一单意图损失函数值与第一多意图分析模型,其中,第一单意图损失函数值的计算公式为:
其中,为单意图损失函数值,/>为语义特征向量的批次大小,/>为第i个批次的实际标签值,/>为第i个批次的预测标签值。
将每个初始单意图分析模型的第一单意图分析结果按相同顺序进行连接,得到第一单意图一维数组。
根据第一单意图一维数组通过多分类交叉熵计算第一多意图损失函数值,其中,第一多意图损失函数值的计算公式为:
其中,为第一多意图损失函数值,B为语义特征向量的批次大小,F为第一单意图一维数组的长度,/>为第i个批次的第c个数据的实际标签值,/>为第i个批次的第c个数据的预测标签值。
当第一多意图损失函数值大于第一函数阈值,则根据第一多意图损失函数值与数据集语义特征向量输入第一多意图分析模型进行训练,得到第二多意图分析模型及其输出的第二多意图损失函数值,依次类推,直至第n次迭代的第n多意图损失函数值小于第一函数阈值,得到第n多意图分析模型,其中,n为自然数。
判断第n多意图分析模型中的每个单意图分析模型的第n单意图损失函数值是否小于对应的第二函数阈值,当每个单意图分析模型的第n单意图损失函数值均小于对应的第二函数阈值,则第n多意图分析模型为目标多意图分析模型。
在一些实施例中,根据语义训练数据集训练初始语义特征模型,得到目标语义特征模型,包括:
将语义训练数据集输入初始语义特征模型进行训练,得到第一语义特征模型与第一语义特征模型输出的第一负对数似然函数值,当第一负对数似然函数值小于预设的似然函数值,则第一语义特征模型为目标语义特征模型。
当第一负对数似然函数值大于似然函数值,则根据第一负对数似然函数值与语义训练数据集输入第一语义特征模型进行训练,得到第二语义特征模型与第二语义特征模型输出的第二负对数似然函数值,依次类推,直至第i次迭代的第i负对数似然函数值小于似然函数值,则第i语义特征模型为目标语义特征模型,其中,i为自然数。
具体的,在一些实施例中,构建初始语义特征模型,包括:
文本嵌入层构建:
构建词典,词典内容包括可能涉及的字/词、保留词、标记词,标记词包括PAD(填充)、UNK(未知)与MASK(遮罩),词典构建后的长度为L。
文本嵌入层包括两部份,分别为文本向量和位置向量,两个向量相加后做为后续语义表示层的输入。
文本向量的输入为[“语料1”,“语料2”,“语料3”,…],输入向量的批次大小为B(B>0),通过尺寸为[L,H]的查找表(H表示语义向量长度)将文本输入转换为模型能理解的尺寸为[B,M,H]的向量。
位置向量的编码公式如下:
其中,2i为偶数位的位置向量编码公式,2i+1为奇数位的位置向量编码公式,pos为位置。
文本向量与位置向量相加后,归一化处理后加入随机丢弃单元后将尺寸为[B,M,H]输出向量。
参照图2,语义特征模型由K(K>1)个转换器模型(transformer)中的编码器模块叠加构建,编码器模块结构如图2所示。
多头注意力模块,多个“表示子空间”,可以使模型在不同位置上关注来自不同“表示子空间”的信息,使模型可以学习到更加丰富的语义特征信息。该模块由多个注意力模块连接构建,公式如下:
其中,Q、K、V分别表示输入的Query(查询)、Key(键)和Value(值),表示输出层的权重矩阵,h表示注意力头的数量,i表示第i个注意力头,/>表示K的维度,MultiHead代表多头注意力模块,Concat表示拼接操作,该操作将多个注意力模型的输出依次拼接为一个大的输出。
参照图3,残差和归一化模块里残差部份的作用是为了将语义信息能顺利的传递至更深层的网络并增强模型的拟合能力并有效的缓解梯度消失的问题,归一化模块是为了防止通过多层的计算后参数出现过大、过小、方差变大等现象,导致学习过程出现异常,模型训练时收敛非常慢的问题的出现。
对于每个样本的每个维度都计算出该维度的均值和标准差,然后将原值减去均值再除以标准差,得到归一化后的值;归一化模块对每个样本的数据进行归一化处理,计算方式如下:
其中,n代表数据个数,μ代表平均值,σ代表标准差,xi代表第i个数据,yi代表第i个数据归一化后的值。
前馈网络是全连接模块,由两个线性变换组成,中间有一个线性整流(ReLu)激活函数,对应的数学公式形式如下:
其中,x代表网络输入,FFN(x) 表示网络的输出,max表示取大最值,w和b都是模型中的模型构建时生成,训练时优化的参数。
取前述K个编码器的输出通过一个尺寸变换操作,将尺寸转换为[B,M,H]的向量做为整语义模型的输出确定语义层的损失函数,假设被 mask 的内容集合为 M,因为它是一个词典大小 |V| 上的多分类问题,所用的损失函数叫做负对数似然函数值(且是最小化,等价于最大化对数似然函数)。
在一些实施例中,通过如下方式获取语义训练数据集,包括:
根据意图的总数设置专业词、同义词、常见错误和通用文本。
将通用文本进行切分,得到切分后文本,其中,切分后文本的单行均不超过预设的文本最大长度。
根据专业词、同义词、常见错误、通用文本和切分后文本构建语义训练数据集。
具体的,在一些实施例中,获取语义训练数据集包括:
语义训练数据集准备:专业词:搜集相关的专业词,用于后续词上下文语义训练。
同义词:搜集专业词相关的同义词,用于后续词上下文语义训练。
常见错误:搜集常见的错误描述及正确表述,用于后续语义训练。
通用文本:搜集文本数据,包含书籍、文章、对话等文本信息。
语料处理:对搜索到的通用文本数据进行处理,处理方法为以单行不超过最大长度M(M>5)进行切分,切分时通过标点符号等为切分点,尽量保持单行语义完整。
在一些实施例中,通过如下方式获取意图训练数据集,包括:
根据意图的总数构建意图训练数据集,其中,意图训练数据集的意图至少包括预设的意图,意图训练数据集的文本长度不超过预设的文本最大长度。
具体的,在一些实施例中,获取意图训练数据集,包括:
意图训练数据集准备:意图数据集包含每个意图的正负样本语料,语料的长度不超过最大长度M。
参照表1,表1为语料标注的格式,语料标注时需要对总共S(S>1)个意图的每个进行标注,每个意图的取值为Ni(0<=i<S,Ni>=2)表示符合该意图,0表示该意图第一个取值,1表示第二个,依次类推。
表1 语料标注的格式
在一些实施例中,构建多意图分析模型,包括:
当意图总数为S(S>1)时,则分别构建S个独立的意图分析网络,每个意图分析网络由Ti(Ti>=1, 0<=i<S)个全连接网络模型叠加而成,在每个独立的意图分析网络最后增加一个归一化指数函数层(softmax)做为意图分析结果输出。
参照表2,表2为编码的维度取值,将输入训练数据的每个意图的标签转换为独热编码(One-Hot),编码的维度为该意图的具体取值数,例如多意图分析中其中一个意图为情感分析,取值为[正面,中性,负面]三个值,则对应的标签名、标签值、独热编码如下:
表2 编码的维度取值
将所有输入数据的意图的标签转换为独热编码后连接为一个一维数组,取每个独立的意图分析层的归一化指数函数层输出,并接标签连接的相同顺序将多个输出连接为一个一维数组,两个一维数组使用多分类交叉熵做为损失函数。
为每个独立的预测模型结构构建损失函数,如果该意图的取值大于二,则使用上述步骤中的多分类交叉熵做为损失函数,如果意图取值等二,则使用二分类交叉熵做为损失函数。
在一些实施例中,根据语义训练数据集训练语义特征模型,包括:
冻结语义模块之后的所有意图分析网络层,将每条输入数据中的G%(G的优先值为10)字符使用词典中的MASK标记词进行遮罩,训练模型根据上下文预测遮罩部份内容,训练时使用语义损失函数计算损失进行网络参数优化。
完成前述随机语义训练后,仍然冻结语义模块之后的所有意图分析网络层,将所有输入语料进行分词,随机将其中G%的词使用词典中MASK标记词进行遮罩,训练模型预测遮罩部份内容,该步骤增加模型对不完整描述的文本的语义分析能力。
完成前述上下文语义训练后,仍然冻结语义模块之后的所有意图分析网络层,将所有有同义词的输入语料使用同义词替换,有错别字表述的内容替换为错别字,训练模型预测该同义词或错别字,本步骤使模型能学习到相似表述或错误表述,提高后续意图分析的准度性。
在一些实施例中,根据意图数据集准备及语料标注训练多意图分析模型,还包括:
冻结所有语义表示层,解冻所有意图分析层,将所有意图语料做为输入快速训练所有语义分析层,本步骤让模型具有初步的意图分析能力。
冻结模型的全部网络,逐个解冻S个意图分析模型的每一个,且每次只使用单个意图相关的语料做为输入,对单个意图进行精细化训练,直至S个意图分析模型全部精细化训练完成,整个模型训练完成。
参照图4,具体的,为了便于本领域技术人员理解,以下提供一组最佳实施例:
图4中有多少个意图时则构建多少个全连接网络,图4中K为编码器数目,语义损失函数表示语义特征模型的负对数似然函数,意图初始化损失表示多意图分析模型的多意图损失函数,意图精细化损失表示单意图分析模型的单意图损失函数。
一、数据准备:
获取待预测文本、语义训练数据集和意图训练数据集,具体为:
根据意图的总数设置专业词、同义词、常见错误和通用文本。
将通用文本进行切分,得到切分后文本,其中,切分后文本的单行均不超过预设的文本最大长度。
根据专业词、同义词、常见错误、通用文本和切分后文本构建语义训练数据集。
根据意图的总数构建意图训练数据集,其中,意图训练数据集的意图至少包括预设的意图,意图训练数据集的文本长度不超过预设的文本最大长度。
二、语义特征模型训练:
构建初始语义特征模型,根据语义训练数据集训练初始语义特征模型,得到目标语义特征模型,具体为:
将语义训练数据集输入初始语义特征模型进行训练,得到第一语义特征模型与第一语义特征模型输出的第一负对数似然函数值,当第一负对数似然函数值小于预设的似然函数值,则第一语义特征模型为目标语义特征模型。
当第一负对数似然函数值大于似然函数值,则根据第一负对数似然函数值与语义训练数据集输入第一语义特征模型进行训练,得到第二语义特征模型与第二语义特征模型输出的第二负对数似然函数值,依次类推,直至第i次迭代的第i负对数似然函数值小于似然函数值,则第i语义特征模型为目标语义特征模型,其中,i为自然数。
三、多意图分析模型训练:
根据意图的总数构建包含多个初始单意图分析模型的初始多意图分析模型,根据意图训练数据集训练每个初始单意图分析模型,得到初始多意图分析模型的多意图损失函数值与每个初始单意图分析模型对应的单意图损失函数值,当多意图损失函数值小于第一函数阈值且每个单意图损失函数值均小于对应的第二函数阈值,得到目标多意图分析模型,具体为:
将意图训练数据集输入目标语义特征模型,得到数据集语义特征向量。
将数据集语义特征向量输入每个初始单意图分析模型进行训练,得到每个初始单意图分析模型的第一单意图分析结果、第一单意图损失函数值与第一多意图分析模型,其中,第一单意图损失函数值的计算公式为:
其中,为单意图损失函数值,/>为语义特征向量的批次大小,/>为第i个批次的实际标签值,/>为第i个批次的预测标签值。
将每个初始单意图分析模型的第一单意图分析结果按相同顺序进行连接,得到第一单意图一维数组。
根据第一单意图一维数组通过多分类交叉熵计算第一多意图损失函数值,其中,第一多意图损失函数值的计算公式为:
其中,为第一多意图损失函数值,B为语义特征向量的批次大小,F为第一单意图一维数组的长度,/>为第i个批次的第c个数据的实际标签值,/>为第i个批次的第c个数据的预测标签值。
当第一多意图损失函数值小于第一函数阈值,且每个初始单意图分析模型的第一单意图损失函数值均小于对应的第二函数阈值,将第一多意图分析模型作为目标多意图分析模型。
当第一多意图损失函数值小于第一函数阈值,且存在至少一个初始单意图分析模型的第一单意图损失函数值大于第二函数阈值,冻结第一单意图损失函数值小于第二函数阈值的初始单意图分析模型,且令第一单意图损失函数值小于第二函数阈值的初始单意图分析模型为训练好的第一批次单意图分析模型。
筛选出第一单意图损失函数值大于第二函数阈值的初始单意图分析模型,得到第一个第二批次单意图分析模型,根据数据集语义特征向量与第一个第二批次单意图分析模型的第一单意图损失函数值对第一个第二批次单意图分析模型进行训练,得到第二个第二批次单意图分析模型与第二个第二批次单意图分析模型的第二单意图损失函数值,依次类推,直至第二批次单意图分析模型的每个单意图分析模型的单意图损失函数值小于对应的第二函数阈值,得到训练好的第二批次单意图分析模型。
组合训练好的第一批次单意图分析模型与训练好的第二批次单意图分析模型,得到目标多意图分析模型。
当第一多意图损失函数值大于第一函数阈值,则根据第一多意图损失函数值与数据集语义特征向量输入第一多意图分析模型进行训练,得到第二多意图分析模型及其输出的第二多意图损失函数值,依次类推,直至第n次迭代的第n多意图损失函数值小于第一函数阈值,得到第n多意图分析模型,其中,n为自然数。
判断第n多意图分析模型中的每个单意图分析模型的第n单意图损失函数值是否小于对应的第二函数阈值,当每个单意图分析模型的第n单意图损失函数值均小于对应的第二函数阈值,则第n多意图分析模型为目标多意图分析模型。
四、结果预测:
将待预测文本输入目标语义特征模型进行预测,得到待预测文本的语义特征向量;将语义特征向量输入目标多意图分析模型进行预测,得到待预测文本的多意图分析结果。
另外,参照图5,本发明的一个实施例,提供一种基于深度学习的文本多意图分析系统,包括数据获取模块1100、语义特征模型训练模块1200、多意图分析模型训练模块1300以及多意图分析结果输出模块1400,其中:
数据获取模块1100用于获取待预测文本、语义训练数据集和意图训练数据集。
语义特征模型训练模块1200用于构建初始语义特征模型,根据语义训练数据集训练初始语义特征模型,得到目标语义特征模型。
多意图分析模型训练模块1300用于根据意图的总数构建包含多个初始单意图分析模型的初始多意图分析模型,根据意图训练数据集训练每个初始单意图分析模型,得到初始多意图分析模型的多意图损失函数值与每个初始单意图分析模型对应的单意图损失函数值,当多意图损失函数值小于第一函数阈值且每个单意图损失函数值均小于对应的第二函数阈值,得到目标多意图分析模型,其中,每个初始单意图分析模型根据对应一个意图独立设置。
多意图分析结果输出模块1400用于将待预测文本输入目标语义特征模型进行预测,得到待预测文本的语义特征向量;将语义特征向量输入目标多意图分析模型进行预测,得到待预测文本的多意图分析结果。
本系统通过语义训练数据集训练预设的初始语义特征模型,得到目标语义特征模型,根据意图的总数构建包含多个初始单意图分析模型的初始多意图分析模型,根据意图训练数据集训练每个初始单意图分析模型,得到初始多意图分析模型的多意图损失函数值与每个初始单意图分析模型对应的单意图损失函数值,当多意图损失函数值达到第一函数阈值且每个单意图损失函数值均达到对应的第二函数阈值,得到目标多意图分析模型,其中,每个初始单意图分析模型根据对应一个意图独立设置;通过多个独立的意图分析模型组成的多意图分析模型减少了多意图分析模型的训练周期,提升了数据拟合性能,通过目标语义特征模型和目标多意图分析模型对待预测文本进行预测,能够提高意图预测的准确性。
需要注意的是,本系统实施例与上述的系统实施例是基于相同的发明构思,因此上述方法实施例的相关内容同样适用于本系统实施例,这里不再赘述。
本申请还提供一种基于深度学习的文本多意图分析电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现:如上述的基于深度学习的文本多意图分析方法。
处理器和存储器可以通过总线或者其他方式连接。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
实现上述实施例的基于深度学习的文本多意图分析方法所需的非暂态软件程序以及指令存储在存储器中,当被处理器执行时,执行上述实施例中的基于深度学习的文本多意图分析方法,例如,执行以上描述的图1中的方法步骤S101至步骤S104。
本申请还提供一种计算机可读存储介质,存储有计算机可执行指令,计算机可执行指令用于执行:如上述的基于深度学习的文本多意图分析方法。
该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个处理器或控制器执行,例如,被上述电子设备实施例中的一个处理器执行,可使得上述处理器执行上述实施例中的基于深度学习的文本多意图分析方法,例如,执行以上描述的图1中的方法步骤S101至步骤S104。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序单元或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序单元或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
上面结合附图对本发明实施例作了详细说明,但本发明不限于上述实施例,在所属技术领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (10)
1.一种基于深度学习的文本多意图分析方法,其特征在于,所述基于深度学习的文本多意图分析方法包括:
获取待预测文本、语义训练数据集和意图训练数据集;
构建初始语义特征模型,根据所述语义训练数据集训练所述初始语义特征模型,得到目标语义特征模型;
根据意图的总数构建包含多个初始单意图分析模型的初始多意图分析模型,根据所述意图训练数据集训练每个初始单意图分析模型,得到初始多意图分析模型的多意图损失函数值与每个初始单意图分析模型对应的单意图损失函数值,当所述多意图损失函数值小于第一函数阈值且每个所述单意图损失函数值均小于对应的第二函数阈值,得到目标多意图分析模型,其中,每个初始单意图分析模型根据对应一个所述意图独立设置;
将所述待预测文本输入所述目标语义特征模型进行预测,得到所述待预测文本的语义特征向量;将所述语义特征向量输入所述目标多意图分析模型进行预测,得到所述待预测文本的多意图分析结果。
2.根据权利要求1所述的一种基于深度学习的文本多意图分析方法,其特征在于,通过如下方式得到目标多意图分析模型,包括:
将所述意图训练数据集输入所述目标语义特征模型,得到数据集语义特征向量;
将所述数据集语义特征向量输入每个所述初始单意图分析模型进行训练,得到每个所述初始单意图分析模型的第一单意图分析结果、第一单意图损失函数值与第一多意图分析模型,其中,所述第一单意图损失函数值的计算公式为:
,
其中,为单意图损失函数值,/>为语义特征向量的批次大小,/>为第i个批次的实际标签值,/>为第i个批次的预测标签值;
将每个所述初始单意图分析模型的第一单意图分析结果按相同顺序进行连接,得到第一单意图一维数组;
根据所述第一单意图一维数组通过多分类交叉熵计算第一多意图损失函数值,其中,所述第一多意图损失函数值的计算公式为:
,
其中,为第一多意图损失函数值,B为语义特征向量的批次大小,F为第一单意图一维数组的长度,/>为第i个批次的第c个数据的实际标签值,/>为第i个批次的第c个数据的预测标签值;
当所述第一多意图损失函数值小于第一函数阈值,且每个所述初始单意图分析模型的第一单意图损失函数值均小于对应的第二函数阈值,将所述第一多意图分析模型作为所述目标多意图分析模型。
3.根据权利要求1所述的一种基于深度学习的文本多意图分析方法,其特征在于,通过如下方式得到目标多意图分析模型,包括:
将所述意图训练数据集输入所述目标语义特征模型,得到数据集语义特征向量;
将所述数据集语义特征向量输入每个所述初始单意图分析模型进行训练,得到每个所述初始单意图分析模型的第一单意图分析结果、第一单意图损失函数值与第一多意图分析模型,其中,所述第一单意图损失函数值的计算公式为:
,
其中,为单意图损失函数值,/>为语义特征向量的批次大小,/>为第i个批次的实际标签值,/>为第i个批次的预测标签值;
将每个所述初始单意图分析模型的第一单意图分析结果按相同顺序进行连接,得到第一单意图一维数组;
根据所述第一单意图一维数组通过多分类交叉熵计算第一多意图损失函数值,其中,所述第一多意图损失函数值的计算公式为:
,
其中,为第一多意图损失函数值,B为语义特征向量的批次大小,F为第一单意图一维数组的长度,/>为第i个批次的第c个数据的实际标签值,/>为第i个批次的第c个数据的预测标签值;
当所述第一多意图损失函数值小于第一函数阈值,且存在至少一个初始单意图分析模型的第一单意图损失函数值大于第二函数阈值,冻结第一单意图损失函数值小于第二函数阈值的初始单意图分析模型,且令所述第一单意图损失函数值小于第二函数阈值的初始单意图分析模型为训练好的第一批次单意图分析模型;
筛选出第一单意图损失函数值大于第二函数阈值的初始单意图分析模型,得到第一个第二批次单意图分析模型,根据所述数据集语义特征向量与所述第一个第二批次单意图分析模型的第一单意图损失函数值对所述第一个第二批次单意图分析模型进行训练,得到第二个第二批次单意图分析模型与所述第二个第二批次单意图分析模型的第二单意图损失函数值,依次类推,直至第二批次单意图分析模型的每个单意图分析模型的单意图损失函数值小于对应的第二函数阈值,得到训练好的第二批次单意图分析模型;
组合所述训练好的第一批次单意图分析模型与所述训练好的第二批次单意图分析模型,得到所述目标多意图分析模型。
4.根据权利要求1所述的一种基于深度学习的文本多意图分析方法,其特征在于,通过如下方式得到目标多意图分析模型,包括:
将所述意图训练数据集输入所述目标语义特征模型,得到数据集语义特征向量;
将所述数据集语义特征向量输入每个所述初始单意图分析模型进行训练,得到每个所述初始单意图分析模型的第一单意图分析结果、第一单意图损失函数值与第一多意图分析模型,其中,所述第一单意图损失函数值的计算公式为:
,
其中,为单意图损失函数值,/>为语义特征向量的批次大小,/>为第i个批次的实际标签值,/>为第i个批次的预测标签值;
将每个所述初始单意图分析模型的第一单意图分析结果按相同顺序进行连接,得到第一单意图一维数组;
根据所述第一单意图一维数组通过多分类交叉熵计算第一多意图损失函数值,其中,所述第一多意图损失函数值的计算公式为:
,
其中,为第一多意图损失函数值,B为语义特征向量的批次大小,F为第一单意图一维数组的长度,/>为第i个批次的第c个数据的实际标签值,/>为第i个批次的第c个数据的预测标签值;
当所述第一多意图损失函数值大于第一函数阈值,则根据所述第一多意图损失函数值与所述数据集语义特征向量输入所述第一多意图分析模型进行训练,得到第二多意图分析模型及其输出的第二多意图损失函数值,依次类推,直至第n次迭代的第n多意图损失函数值小于第一函数阈值,得到第n多意图分析模型,其中,n为自然数;
判断所述第n多意图分析模型中的每个单意图分析模型的第n单意图损失函数值是否小于对应的第二函数阈值,当每个所述单意图分析模型的第n单意图损失函数值均小于对应的第二函数阈值,则所述第n多意图分析模型为所述目标多意图分析模型。
5.根据权利要求1所述的一种基于深度学习的文本多意图分析方法,其特征在于,所述根据所述语义训练数据集训练所述初始语义特征模型,得到目标语义特征模型,包括:
将所述语义训练数据集输入所述初始语义特征模型进行训练,得到第一语义特征模型与所述第一语义特征模型输出的第一负对数似然函数值,当所述第一负对数似然函数值小于预设的似然函数值,则所述第一语义特征模型为所述目标语义特征模型;
当所述第一负对数似然函数值大于所述似然函数值,则根据所述第一负对数似然函数值与所述语义训练数据集输入所述第一语义特征模型进行训练,得到第二语义特征模型与所述第二语义特征模型输出的第二负对数似然函数值,依次类推,直至第i次迭代的第i负对数似然函数值小于所述似然函数值,则第i语义特征模型为所述目标语义特征模型,其中,i为自然数。
6.根据权利要求1所述的一种基于深度学习的文本多意图分析方法,其特征在于,通过如下方式获取语义训练数据集,包括:
根据意图的总数设置专业词、同义词、常见错误和通用文本;
将所述通用文本进行切分,得到切分后文本,其中,所述切分后文本的单行均不超过预设的文本最大长度;
根据所述专业词、同义词、常见错误、通用文本和所述切分后文本构建所述语义训练数据集。
7.根据权利要求1所述的一种基于深度学习的文本多意图分析方法,其特征在于,通过如下方式获取意图训练数据集,包括:
根据意图的总数构建所述意图训练数据集,其中,所述意图训练数据集的意图至少包括预设的意图,所述意图训练数据集的文本长度不超过所述预设的文本最大长度。
8.一种基于深度学习的文本多意图分析系统,其特征在于,所述基于深度学习的文本多意图分析系统包括:
数据获取模块,用于获取待预测文本、语义训练数据集和意图训练数据集;
语义特征模型训练模块,用于构建初始语义特征模型,根据所述语义训练数据集训练所述初始语义特征模型,得到目标语义特征模型;
多意图分析模型训练模块,用于根据意图的总数构建包含多个初始单意图分析模型的初始多意图分析模型,根据所述意图训练数据集训练每个初始单意图分析模型,得到初始多意图分析模型的多意图损失函数值与每个初始单意图分析模型对应的单意图损失函数值,当所述多意图损失函数值小于第一函数阈值且每个所述单意图损失函数值均小于对应的第二函数阈值,得到目标多意图分析模型,其中,每个初始单意图分析模型根据对应一个所述意图独立设置;
多意图分析结果输出模块,用于将所述待预测文本输入所述目标语义特征模型进行预测,得到所述待预测文本的语义特征向量;将所述语义特征向量输入所述目标多意图分析模型进行预测,得到所述待预测文本的多意图分析结果。
9.一种基于深度学习的文本多意图分析设备,其特征在于,包括至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器;所述存储器存储有可被所述至少一个控制处理器执行的指令,所述指令被所述至少一个控制处理器执行,以使所述至少一个控制处理器能够执行如权利要求1至7任一项所述的一种基于深度学习的文本多意图分析方法。
10.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如权利要求1至7任一项所述的一种基于深度学习的文本多意图分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311746436.0A CN117435738B (zh) | 2023-12-19 | 2023-12-19 | 一种基于深度学习的文本多意图分析方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311746436.0A CN117435738B (zh) | 2023-12-19 | 2023-12-19 | 一种基于深度学习的文本多意图分析方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117435738A true CN117435738A (zh) | 2024-01-23 |
CN117435738B CN117435738B (zh) | 2024-04-16 |
Family
ID=89555628
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311746436.0A Active CN117435738B (zh) | 2023-12-19 | 2023-12-19 | 一种基于深度学习的文本多意图分析方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117435738B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200334539A1 (en) * | 2019-04-19 | 2020-10-22 | Samsung Electronics Co., Ltd. | Multi-model structures for classification and intent determination |
CN113204952A (zh) * | 2021-03-26 | 2021-08-03 | 南京邮电大学 | 一种基于聚类预分析的多意图与语义槽联合识别方法 |
US20210365635A1 (en) * | 2020-05-22 | 2021-11-25 | Capital One Services, Llc | Joint intent and entity recognition using transformer models |
CN114610851A (zh) * | 2022-03-30 | 2022-06-10 | 苏州科达科技股份有限公司 | 意图识别模型的训练方法、意图识别方法、设备及介质 |
CN115240676A (zh) * | 2022-08-02 | 2022-10-25 | 中国平安人寿保险股份有限公司 | 智能外呼方法、装置、计算机设备及存储介质 |
CN115455144A (zh) * | 2022-09-02 | 2022-12-09 | 中国人民解放军国防科技大学 | 用于小样本意图识别的完型填空式的数据增强方法 |
US20220415071A1 (en) * | 2022-03-21 | 2022-12-29 | Beijing Baidu Netcom Science Technology Co., Ltd. | Training method of text recognition model, text recognition method, and apparatus |
CA3180493A1 (en) * | 2021-10-29 | 2023-04-29 | 10353744 Canada Ltd. | Training method and device of intention recognition model and intention recognition method and device |
CN116431808A (zh) * | 2023-04-10 | 2023-07-14 | 京东科技信息技术有限公司 | 多意图识别方法、装置、电子设备及存储介质 |
US20230343327A1 (en) * | 2022-04-24 | 2023-10-26 | Alipay (Hangzhou) Information Technology Co., Ltd. | Intent recognition methods, apparatuses, and devices |
-
2023
- 2023-12-19 CN CN202311746436.0A patent/CN117435738B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200334539A1 (en) * | 2019-04-19 | 2020-10-22 | Samsung Electronics Co., Ltd. | Multi-model structures for classification and intent determination |
US20210365635A1 (en) * | 2020-05-22 | 2021-11-25 | Capital One Services, Llc | Joint intent and entity recognition using transformer models |
CN113204952A (zh) * | 2021-03-26 | 2021-08-03 | 南京邮电大学 | 一种基于聚类预分析的多意图与语义槽联合识别方法 |
CA3180493A1 (en) * | 2021-10-29 | 2023-04-29 | 10353744 Canada Ltd. | Training method and device of intention recognition model and intention recognition method and device |
US20220415071A1 (en) * | 2022-03-21 | 2022-12-29 | Beijing Baidu Netcom Science Technology Co., Ltd. | Training method of text recognition model, text recognition method, and apparatus |
CN114610851A (zh) * | 2022-03-30 | 2022-06-10 | 苏州科达科技股份有限公司 | 意图识别模型的训练方法、意图识别方法、设备及介质 |
US20230343327A1 (en) * | 2022-04-24 | 2023-10-26 | Alipay (Hangzhou) Information Technology Co., Ltd. | Intent recognition methods, apparatuses, and devices |
CN115240676A (zh) * | 2022-08-02 | 2022-10-25 | 中国平安人寿保险股份有限公司 | 智能外呼方法、装置、计算机设备及存储介质 |
CN115455144A (zh) * | 2022-09-02 | 2022-12-09 | 中国人民解放军国防科技大学 | 用于小样本意图识别的完型填空式的数据增强方法 |
CN116431808A (zh) * | 2023-04-10 | 2023-07-14 | 京东科技信息技术有限公司 | 多意图识别方法、装置、电子设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
FUJI REN: "Intention Detection Based on Siamese Neural Network With Triplet Loss", IEEE ACCESS, vol. 8, 30 April 2020 (2020-04-30), pages 82242 - 82254, XP011787944, DOI: 10.1109/ACCESS.2020.2991484 * |
李宁安;张剑;周倜;: "一种TensorFlow平台上目标意图识别模型设计与实现", 舰船电子工程, no. 05, 20 May 2019 (2019-05-20) * |
杨春妮;冯朝胜;: "结合句法特征和卷积神经网络的多意图识别模型", 计算机应用, no. 07, 20 March 2018 (2018-03-20) * |
Also Published As
Publication number | Publication date |
---|---|
CN117435738B (zh) | 2024-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109992782B (zh) | 法律文书命名实体识别方法、装置及计算机设备 | |
CN109299273B (zh) | 基于改进seq2seq模型的多源多标签文本分类方法及其系统 | |
CN111694924B (zh) | 一种事件抽取方法和系统 | |
CN112115721B (zh) | 一种命名实体识别方法及装置 | |
CN111985239B (zh) | 实体识别方法、装置、电子设备及存储介质 | |
WO2023024412A1 (zh) | 基于深度学习模型的视觉问答方法及装置、介质、设备 | |
CN111209740B (zh) | 文本模型训练方法、文本纠错方法、电子设备及存储介质 | |
CN111767731A (zh) | 语法纠错模型的训练方法及装置、语法纠错方法及装置 | |
WO2022048194A1 (zh) | 事件主体识别模型优化方法、装置、设备及可读存储介质 | |
CN112800768A (zh) | 一种嵌套命名实体识别模型的训练方法及装置 | |
WO2022166344A1 (zh) | 动作计数方法、装置、设备及存储介质 | |
CN112463924B (zh) | 面向智能问答基于内部相关性编码的文本意图匹配方法 | |
CN116127953B (zh) | 一种基于对比学习的中文拼写纠错方法、装置和介质 | |
CN112699690A (zh) | 翻译模型的训练方法、翻译方法、电子设备、存储介质 | |
CN112035645A (zh) | 数据查询方法以及系统 | |
CN113836891A (zh) | 基于多元标注策略的结构化信息抽取方法和装置 | |
CN113870846B (zh) | 基于人工智能的语音识别方法、装置及存储介质 | |
CN117520590B (zh) | 海洋跨模态图文检索方法、系统、设备及存储介质 | |
CN117435738B (zh) | 一种基于深度学习的文本多意图分析方法与系统 | |
CN117114657A (zh) | 基于电力设备巡检知识图谱的故障信息预警系统及方法 | |
CN115690449A (zh) | 一种基于局部特征增强和并行解码器的图像标注方法 | |
CN116127978A (zh) | 基于医学文本的嵌套命名实体抽取方法 | |
CN115238705A (zh) | 语义解析结果重排序方法及系统 | |
CN112685543B (zh) | 一种基于文本回答问题的方法及装置 | |
CN111125330A (zh) | 一种基于人机对话的智能问答方法和装置以及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |