CN112906370A - 意图识别模型训练方法、意图识别方法及相关装置 - Google Patents

意图识别模型训练方法、意图识别方法及相关装置 Download PDF

Info

Publication number
CN112906370A
CN112906370A CN201911228834.7A CN201911228834A CN112906370A CN 112906370 A CN112906370 A CN 112906370A CN 201911228834 A CN201911228834 A CN 201911228834A CN 112906370 A CN112906370 A CN 112906370A
Authority
CN
China
Prior art keywords
field
model
word vector
training
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911228834.7A
Other languages
English (en)
Other versions
CN112906370B (zh
Inventor
黄磊
杨春勇
靳丁南
权圣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mashang Xiaofei Finance Co Ltd
Original Assignee
Mashang Xiaofei Finance Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mashang Xiaofei Finance Co Ltd filed Critical Mashang Xiaofei Finance Co Ltd
Priority to CN201911228834.7A priority Critical patent/CN112906370B/zh
Publication of CN112906370A publication Critical patent/CN112906370A/zh
Application granted granted Critical
Publication of CN112906370B publication Critical patent/CN112906370B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种意图识别模型的训练方法、意图识别方法及相关装置。训练方法通过第一领域的标注语料对第一初始模型进行训练,得到第一领域词向量模型;通过第二领域的标注语料对第二初始模型进行训练,得到第二领域字向量模型;其中,第二领域为第一领域的子领域;通过第一领域词向量模型对第二领域的标注语料分词后得到词向量;通过第二领域字向量模型对第二领域的标注语料分字后得到字向量;将词向量与句向量进行拼接组成句向量;根据句向量对初始意图识别模型进行训练,以得到意图识别模型。以此提高意图识别模型进行意图识别的准确性。

Description

意图识别模型训练方法、意图识别方法及相关装置
技术领域
本发明涉及智能装置技术领域,尤其涉及一种意图识别模型的训练方法、意图识别方法及相关装置。
背景技术
随着人工智能的高速发展,聊天机器人是这两年各大科技都在研究的方向。例如,苹果的Siri如今已经变得家喻户晓,微软的小冰自2014年进入中国以来已经成为百万中国用户的数字伙伴,阿里的店小蜜如今已经为千万卖家服务,为其充当智能客服。意图识别作为聊天机器人中的重要的一环,决定着整个对话机器人的质量好坏。
目前主流的意图识别都是通过识别任务来进行实现的,机器人会把用户输入的文本信息传入意图识别模块生成对应的文本识别,通过在对话机器中后台配置相应识别的答案,来进行用户进行对话交互,完成对话机器人的最基本功能。训练一个好的意图识别模型需要准备标注好的语料进行重新训练,而用户通常没有足够多的语料来进行训练,这个时候就会使模型的效果不好。
即使是相同的领域,由于通用语料与特定语料的差异较大,大多数领域的意图识别准确率都比较相近,但是都不是很高,尤其是当特定语料较少时,意图识别的准确率很差,达不到用户的使用要求。例如在金融领域,使用证券领域词向量与证券领域字向量得到的句向量进行分类训练,训练的模型对于整体证券行业来说适用性较差,可能A券商可以用,B券商就用不了。或者使用金融领域词向量与金融领域字向量得到的句向量进行分类训练,此时如果金融领域里的保险语料比重偏大,可能训练出来的分类模型就适用于保险行业,不适用于证券行业,模型的通用性并不好。
发明内容
本发明提供一种意图识别模型的训练方法、意图识别方法及相关装置,以用于提高意图识别模型的识别准确性。
为解决上述技术问题,本发明采用的第一个技术方案是:提供一种意图识别模型的训练方法,包括:通过第一领域的标注语料对第一初始模型进行训练,得到第一领域词向量模型;通过第二领域的标注语料对第二初始模型进行训练,得到第二领域字向量模型;其中,所述第二领域为所述第一领域的子领域;通过所述第一领域词向量模型对所述第二领域的标注语料分词后得到词向量;通过所述第二领域字向量模型对所述第二领域的标注语料分字后得到字向量;将所述词向量与所述句向量进行拼接组成句向量;根据所述句向量对初始意图识别模型进行训练,以得到所述意图识别模型。
其中,对所述第一领域的标注语料预设有第一权重,对所述第二领域的标注语料预设有第二权重。
为解决上述技术问题,本发明采用的第二个技术方案是:提供一种意图识别方法,所述意图识别方法包括:获取待识别目标信息;分别将所述待识别目标信息输入第一领域词向量模型以及第二领域字向量模型中,得到第一领域词向量以及第二领域字向量,其中,所述第二领域为所述第一领域的子领域;将所述第一领域词向量和所述第二领域字向量进行拼接组成句向量;将所述句向量输入意图识别模型得到所述待识别目标信息对应的意图。
其中,所述意图识别模型是通过上述任一项所述的意图识别模型的训练方法训练得到的。
为解决上述技术问题,本发明采用的第三个技术方案是:提供一种句向量的获取方法,包括:通过第一领域的标注语料训练生成所述第一领域对应的词向量模型;通过第二领域的标注语料训练生成所述第二领域对应的字向量模型;通过所述第一领域词向量模型对所述第二领域的标注语料分词后得到词向量;通过所述第二领域字向量模型对所述第二领域的标注语料分字后得到字向量;将所述词向量及所述字向量拼接得到所述第二领域的句向量;其中,所述第二领域为所述第一领域的子领域。
为解决上述技术问题,本发明采用的第四个技术方案是:提供一种意图识别模型的训练装置,包括:第一模型训练模块,用于通过第一领域的标注语料对第一初始模型进行训练,得到第一领域词向量模型;第二模型训练模块,用于通过第二领域的标注语料对第二初始模型进行训练,得到第二领域字向量模型,其中,所述第二领域为所述第一领域的子领域;句向量获取模块,用于通过所述第一领域词向量模型对所述第二领域的标注语料分词后得到词向量;及通过所述第二领域字向量模型对所述第二领域的标注语料分字后得到字向量;及将所述词向量与所述句向量进行拼接组成句向量;第三模型训练模块,用于根据所述句向量对初始意图识别模型进行训练,以得到所述意图识别模型。
为解决上述技术问题,本发明采用的第五个技术方案是:提供一种意图识别装置,所述意图识别装置包括:获取模块,用于获取待识别目标信息;输入模块,用于分别将所述待识别目标信息输入第一领域词向量模型以及第二领域字向量模型中,得到第一领域词向量以及第二领域字向量,其中,所述第二领域为所述第一领域的子领域;句向量转换模块,用于将所述第一领域词向量和所述第二领域字向量进行拼接组成句向量;识别模块,用于将所述句向量输入意图识别模型得到所述待识别信息对应的意图。
为解决上述技术问题,本发明采用的第六个技术方案是:提供一种句向量的获取装置,包括:第一模型训练模块,用于通过第一领域的标注语料对第一初始模型进行训练,得到第一领域词向量模型;第二模型训练模块,用于通过第二领域的标注语料对第二初始模型进行训练,得到第二领域字向量模型,其中,所述第二领域为所述第一领域的子领域;句向量获取模块,用于通过所述第一领域词向量模型对所述第二领域的标注语料分词后得到词向量;及通过所述第二领域字向量模型对所述第二领域的标注语料分字后得到字向量;及将所述词向量与所述句向量拼接得到所述第二领域的句向量。
为解决上述技术问题,本发明采用的第七个技术方案是:提供一种意图识别装置,包括:相互藕接的处理器及存储器,其中,所述存储器用于存储实现如上述任意一项所述的意图识别模型的训练方法或任意一项所述的意图识别方法或句向量的获取方法的程序指令;所述处理器用于执行所述存储器存储的所述程序指令。
为解决上述技术问题,本发明采用的第八个技术方案是:提供一种存储介质,存储有程序文件,所述程序文件能够被执行以实现如任意一项所述的意图识别模型的训练方法或上述任意一项所述的意图识别方法或句向量的获取方法。
本发明的有益效果是:区别于现有技术,本发明通过第一领域的标注语料对第一初始模型进行训练,得到第一领域词向量模型;通过第二领域的标注语料对第二初始模型进行训练,得到第二领域字向量模型;其中,第二领域为第一领域的子领域;通过第一领域词向量模型对第二领域的标注语料分词后得到词向量;通过第二领域字向量模型对第二领域的标注语料分字后得到字向量;将词向量与句向量进行拼接组成句向量;根据句向量对初始意图识别模型进行训练,以得到意图识别模型。通过通用领域第一领域的词向量与其子领域即特定领域的字向量进行拼接成句向量的方式,不仅能够适用于通用领域第一领域的分类即意图识别,而且对特定领域的意图识别的准确率能够明显得到提升。并且,本方法中,所需要的第二领域的语料只是总体训练语料中的一部分,其权重是可以控制的,能够防止过拟合,增强模型的鲁棒性,在第二领域标注语料数量不多的情况下保证意图识别准确率。另外,在本方法中,第二领域的标注语料所需数量不多,训练字向量的速度快,能够使模型训练的整体时间缩短,能够在耗时较小的情况下提升模型的意图识别准确率。
附图说明
图1是本发明意图识别模型的训练方法一实施方式的流程示意图;
图2是本发明意图识别方法的一实施方式的流程示意图;
图3是本发明句向量的获取方法一实施方式的流程示意图;
图4是本发明意图识别模型的训练装置一实施方式的结构示意图;
图5是本发明意图识别装置的第一实施方式的结构示意图;
图6是本发明句向量获取装置的一实施方式的结构示意图;
图7是本发明意图识别装置的第二实施方式的结构示意图;
图8是本发明存储介质的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面结合附图和实施例对本发明进行详细的说明。
请参见图1,为本发明意图识别模型的训练方法一实施方式的流程示意图。具体包括:
步骤S11:通过第一领域的标注语料对第一初始模型进行训练,得到第一领域词向量模型。
具体地,在本实施例中,第一领域为通用领域,在一具体实施例中,其中,该第一领域可以为金融领域,在训练得到第一领域词向量模型时。以金融领域为例来说明,通过人工标注的10万条金融领域的语料对第一初始模型进行训练。
在其中的一个实施方式中,第一初始模型为神经网络模型,在本实例中的神经网络模型是CNN(卷积神经网络)和RNN(循环神经网络)。即通过神经网络模型训练标注好的10万条金融领域的语料,以此得到第一领域词向量模型,也即金融领域通用的词向量模型。
步骤S12:通过第二领域的标注语料对第二初始模型进行训练,得到第二领域字向量模型;其中,所述第二领域为所述第一领域的子领域。
具体地,第二领域为第一领域的子领域。比如第一领域为通用领域,则第二领域为特定领域。例如,第一领域为金融领域,第二领域为证券领域或者保险领域或者银行领域等金融行业的子领域。
仍以第一领域为金融领域为例来说明,在本实施例中,通过人工标注的5000条证券领域的语料对第二初始模型进行训练。在一个可选的实施方式中,第二初始模型为神经网络模型。即通过神经网络模型训练标注好的5000条证券领域的语料,以此得到第二领域字向量模型,也即特定领域字向量模型。需要说明的是,第二领域标注语料的数量一般相对于第一领域标注语料的数量较少,比如上述例子中1/20,在其他实施方式中,也可以根据实际需要调整第二领域标注语料的权重,比如进一步减小,如1/25,或者1/30,能够在不影响模型识别准确率的前提下减少训练第二初始模型的时间,以在耗费较少时间的情况下提升模型的意图识别准确率。在第二领域标注语料充足的前提下也可以增加,以进一步提高意图识别模型的准确率。
步骤S13:通过第一领域词向量模型对第二领域的标注语料分词后得到词向量。
具体地,获取第二领域语料,如证券领域的语料,通过第一领域词向量模型对其进行分词,并计算得到该语料的词向量。
步骤S14:通过第二领域字向量模型对第二领域的标注语料分字后得到字向量。
具体地,将步骤S13中获取的第二领域预料,例如标注意图类型的证券领域的语料,将其通过第二领域字向量模型对其进行分字得到字向量。
步骤S15:将所述词向量与所述句向量进行拼接组成句向量。
将通过第一领域词向量模型得到的词向量与第二领域字向量模型得到的字向量进行拼接,以得到第二领域的句向量;具体地,假设第一领域为金融领域,第二领域为证券领域,进行拼接后的得到证券领域的句向量。
步骤S16:根据所述句向量对初始意图识别模型进行训练,以得到所述意图识别模型。
根据得到的第二领域句向量,即证券领域的句向量对初始意图识别模型进行训练,以此得到意图识别模型,本实施例中的初始意图识别模型可以是分类模型。具体地,通过softmax函数对分类结果进行归一化处理。本实施例中,对第一领域的标注语料预设有第一权重,对第二领域的标注语料预设有第二权重,第一权重和第二权重的总和为100%。本意图识别模型进行训练时,所需要的第二领域的语料只是总体训练语料中的一部分,其权重是可以控制的,能够防止过拟合,增强模型的鲁棒性,在第二领域标注语料数量不多的情况下保证意图识别准确率。
经过实验表明,在使用现有的意图识别模型时,意图识别准确率为89%,而使用本发明的意图识别模型,其意图识别准确率为94%,提升了5个点,提升效果明显。其针对特定语料较少的情况,因为句向量中包括了通用领域与特定领域的向量的权重,模型可以进行充分训练,训练时候可以方式过度拟合,增加意图识别模型的鲁棒性,对样本较少的时候准确率提高较为明显。
在特定领域语料即第二领域标注语料数量较少时,训练字向量模型的速度较快,耗时较少,能够在提升准确率的同时减少训练时间,提升效率。且本申请方案适用领域广泛,对应到金融领域,其既可以适用于金融与证券,还可以适用于金融与保险、金融与银行等类似的父子包含行业,其父行业预料充足,子行业语料较少的情况,通用性得到明显的增强。
基于上述描述,本发明使用通用语料词向量加特定语料句向量,即金融领域词向量加证券领域字向量转换为句向量的表达方式,以提高意图识别的准确率。另外,由于本申请加入了特定领域字向量模型,减少了训练时间,在提升准确率的同时还提升了效率,性价比高。且通过得到特定领域句向量的方式,能够在特定领域的语料样本较少的情况下达到很好的意图识别效果。
请参见图2,为本发明意图识别方法一实施方式的流程示意图。具体包括:
步骤S21:获取待识别目标信息。
得到需要进行意图识别的待识别目标信息。
步骤S22:分别将待识别目标信息输入第一领域词向量模型以及第二领域字向量模型中,得到第一领域词向量以及第二领域字向量,其中,第二领域为第一领域的子领域。
将待识别目标信息输入到第一领域词向量模型中进行分词,以得到第一领域词向量。将待识别信息输入到第二领域字向量模型中进行分字,以得到第二领域字向量。其中,第二领域为第一领域的子领域。在一具体实施例中,第一领域为通用领域,第二领域为特定领域,具体地,第一领域可以为金融领域,第二领域可以为证券领域或保险领域,还可以为银行领域以及借贷领域等。
步骤S23:将第一领域词向量和第二领域字向量进行拼接组成句向量。
具体地,将第一领域词向量及第二领域字向量进行拼接,然后得到待识别目标信息对应的句向量。
步骤S24:将句向量输入意图识别模型得到待识别目标信息对应的意图。
将得到的句向量输入到意图识别模型中,通过意图识别模型对句向量进行意图识别,进而确定待识别目标信息对应的意图。
本发明的意图识别方法基于图1所述的意图识别模型进行,具体请参阅图1以及相关文字描述,在此不再赘述。
本实施方式中,通过通用领域第一领域的词向量与其子领域即特定领域的字向量进行拼接成句向量的方式,不仅能够适用于通用领域第一领域的分类即意图识别,而且对特定领域的意图识别的准确率能够明显得到提升。另外,在本方法中,第二领域的标注语料所需数量不多,训练字向量的速度快,能够使模型训练的整体时间缩短,能够在耗时较小的情况下提升模型的意图识别准确率。
请参见图3,为本发明的句向量的获取方法一实施方式得当流程示意图图,包括:
步骤S31:通过第一领域的标注语料训练生成第一领域对应的词向量模型。
具体地,在本实施例中,第一领域为通用领域,在一具体实施例中,其中,该第一领域可以为金融领域,在训练得到第一领域词向量模型时,以金融领域为例来说明,通过人工标注的10万条金融领域的语料进行训练,以得到第一领域对应的词向量模型,也即通用领域词向量模型。其中,第一初始模型为神经网络模型,在本实例中的神经网络模型是CNN(卷积神经网络)和RNN(循环神经网络)。
步骤S32:通过第二领域的标注语料训练生成所述第二领域对应的字向量模型。
具体地,第二领域为第一领域的子领域。比如第一领域为通用领域,则第二领域为特定领域。例如,第一领域为金融领域,第二领域为证券领域,证券领域属于金融领域或者保险领域或者银行领域等金融行业的子领域。
在本实施例中,仍以第一领域为金融领域为例来说明,在训练第二领域字向量模型时,通过人工标注的5000条证券领域的语料进行训练,以得到第二领域对应的字向量模型,也即特定领域字向量模型。需要说明的是,第二领域标注语料的数量一般相对于第一领域标注语料的数量较少,对第一领域的标注语料预设有第一权重,对第二领域的标注语料预设有第二权重,第一权重和第二权重的总和为100%。比如上述例子中第二领域标注语料可以设置为1/20,在其他实施方式中,也可以根据实际需要调整第二领域标注语料的权重,比如进一步减小,如1/25,或者1/30,能够在不影响模型识别准确率的前提下减少训练第二初始模型的时间,以在耗费较少时间的情况下提升模型的意图识别准确率。在第二领域标注语料充足的前提下也可以增加,以进一步提高意图识别模型的准确率。
步骤S33:通过所述第一领域词向量模型对所述第二领域的标注语料分词后得到词向量。
具体地,获取第二领域语料,即证券领域的语料,然后通过第一领域词向量模型对其进行分词得到词向量,
步骤S34:通过所述第二领域字向量模型对所述第二领域的标注语料分字后得到字向量。
具体地,将步骤S33中获取的第二领域预料,即标注意图类型的证券领域的语料,将其通过第二领域字向量模型对其进行分字得到字向量。
步骤S35:将所述词向量与所述句向量进行拼接组成句向量。
将通过第一领域词向量模型得到的词向量与第二领域字向量模型得到的字向量进行拼接,以得到第二领域的句向量;具体地,假设第一领域为金融领域,第二领域为证券领域,进行拼接后的为证券领域的句向量。
在本实施例中,通过上述方式得到的句向量,可用于训练生成图1所示的意图识别模型,进而提高意图识别的准确性,其还可以用于训练生成其他模型,再要能够满足要求即可。在特定领域语料即第二领域标注语料数量较少时,训练字向量模型的速度较快,耗时较少,能够在提升准确率的同时减少训练时间,提升效率。且本申请方案适用领域广泛,对应到金融领域,其既可以适用于金融与证券,还可以适用于金融与保险、金融与银行等类似的父子包含行业,其父行业预料充足,子行业语料较少的情况,通用性得到明显的增强。
请参见图4,为本发明意图识别模型的训练装置的结构示意图,包括:第一模型训练模块41、第二模型训练模块42、句向量获取模块43及第三模型训练模块44。其中,第一模型训练模块41用于通过第一领域的标注语料对第一初始模型进行训练,得到第一领域词向量模型。第二模型训练模块42用于通过第二领域的标注语料对第二初始模型进行训练,得到第二领域字向量模型,其中,所述第二领域为所述第一领域的子领域。句向量获取模块43用于通过所述第一领域词向量模型对所述第二领域的标注语料分词后得到词向量;及通过所述第二领域字向量模型对所述第二领域的标注语料分字后得到字向量;及将所述词向量与所述句向量进行拼接组成句向量。第三模型训练模块44用于根据所述句向量对初始意图识别模型进行训练,以得到所述意图识别模型。具体地,第三模型训练模块44利用句向量通过softmax函数对初始意图识别模型进行训练,得到所述意图识别模型。
经过实验表明,在使用现有的意图识别模型时,意图识别准确率为89%,而使用本发明的意图识别模型,其意图识别准确率为94%,提升了5个点,提升效果明显。其针对特定语料较少的情况,因为句向量中包括了通用领域与特定领域的向量的权重,模型可以进行充分训练,训练时候可以方式过度拟合,增加意图识别模型的鲁棒性,对样本较少的时候准确率提高较为明显。
在特定领域语料即第二领域标注语料数量较少时,训练字向量模型的速度较快,耗时较少,能够在提升准确率的同时减少训练时间,提升效率。且本申请方案适用领域广泛,对应到金融领域,其既可以适用于金融与证券,还可以适用于金融与保险、金融与银行等类似的父子包含行业,其父行业预料充足,子行业语料较少的情况,通用性得到明显的增强。
基于上述描述,本发明使用通用语料词向量加特定语料句向量,即金融领域词向量加证券领域字向量转换为句向量的表达方式,以提高意图识别的准确率。另外,由于本申请加入了特定领域字向量模型,减少了训练时间,在提升准确率的同时还提升了效率,性价比高。且通过得到特定领域句向量的方式,能够在特定领域的语料样本较少的情况下达到很好的意图识别效果。
请参见图5,为本发明意图识别装置的第一实施例的结构示意图。包括:获取模块51、输入模块52、句向量转换模块53及识别模块54。
其中,获取模块51用于获取待识别目标信息。输入模块52用于分别将所述待识别目标信息输入第一领域词向量模型以及第二领域字向量模型中,得到第一领域词向量以及第二领域字向量,其中,所述第二领域为所述第一领域的子领域。句向量转换模块53用于将所述第一领域词向量和所述第二领域字向量进行拼接组成句向量。识别模块54用于将所述句向量输入意图识别模型得到所述待识别信息对应的意图。
本实施方式中,通过通用领域第一领域的词向量与其子领域即特定领域的字向量进行拼接成句向量的方式,不仅能够适用于通用领域第一领域的分类即意图识别,而且对特定领域的意图识别的准确率能够明显得到提升。并且,本意图识别模型进行训练中,所需要的第二领域的语料只是总体训练语料中的一部分,其权重是可以控制的,能够防止过拟合,增强模型的鲁棒性,在第二领域标注语料数量不多的情况下保证意图识别准确率。另外,在本方法中,第二领域的标注语料所需数量不多,训练字向量的速度快,能够使模型训练的整体时间缩短,能够在耗时较小的情况下提升模型的意图识别准确率。
请参见图6,为本发明句向量获取装置的一实施例的结构示意图。包括第一模型训练模块61、第二模型训练模块62及句向量获取模块63。
其中,第一模型训练模块61用于通过第一领域的标注语料对第一初始模型进行训练,得到第一领域词向量模型。第二模型训练模块62用于通过第二领域的标注语料对第二初始模型进行训练,得到第二领域字向量模型,其中,所述第二领域为所述第一领域的子领域。句向量获取模块63用于通过所述第一领域词向量模型对所述第二领域的标注语料分词后得到词向量;及通过所述第二领域字向量模型对所述第二领域的标注语料分字后得到字向量;及将所述词向量与所述句向量拼接得到所述第二领域的句向量。
通过上述方式得到的句向量,可用于训练生成图1所示的意图识别模型,进而提高意图识别的准确性,其还可以用于训练生成其他模型,再要能够满足要求即可。在特定领域语料即第二领域标注语料数量较少时,训练字向量模型的速度较快,耗时较少,能够在提升准确率的同时减少训练时间,提升效率。且本申请方案适用领域广泛,对应到金融领域,其既可以适用于金融与证券,还可以适用于金融与保险、金融与银行等类似的父子包含行业,其父行业预料充足,子行业语料较少的情况,通用性得到明显的增强。
请参见图7,为本发明意图识别装置的第二实施例的结构示意图。意图识别装置包括相互连接的存储器71和处理器72。
存储器71用于存储实现上述任意一项的意图识别模型的训练方法及意图识别方法、句向量的获取方法的程序指令。
处理器72用于执行存储器71存储的程序指令。
其中,处理器72还可以称为CPU(Central Processing Unit,中央处理单元)。处理器72可能是一种集成电路芯片,具有信号的处理能力。处理器72还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器71可以为内存条、TF卡等,可以存储意图识别装置及意图识别模型的训练装置中全部信息,包括输入的原始数据、计算机程序、中间运行结果和最终运行结果都保存在存储器中。它根据控制器指定的位置存入和取出信息。有了存储器,意图识别装置及意图识别模型的训练装置、句向量获取装置才有记忆功能,才能保证正常工作。意图识别装置及意图识别模型的训练装置、句向量获取装置中的存储器按用途存储器可分为主存储器(内存)和辅助存储器(外存),也有分为外部存储器和内部存储器的分类方法。外存通常是磁性介质或光盘等,能长期保存信息。内存指主板上的存储部件,用来存放当前正在执行的数据和程序,但仅用于暂时存放程序和数据,关闭电源或断电,数据会丢失。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,系统服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。
请参阅图8,为本发明存储介质的结构示意图。本申请的存储介质存储有能够实现上述所有意图识别模型的训练方法、意图识别模型的训练方法及句向量的获取方法的程序文件81,其中,该程序文件81可以以软件产品的形式存储在上述存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储装置包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random AccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等终端设备。
以上仅为本发明的实施方式,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种意图识别模型的训练方法,其特征在于,所述训练方法包括:
通过第一领域的标注语料对第一初始模型进行训练,得到第一领域词向量模型;
通过第二领域的标注语料对第二初始模型进行训练,得到第二领域字向量模型;其中,所述第二领域为所述第一领域的子领域;
通过所述第一领域词向量模型对所述第二领域的标注语料分词后得到词向量;
通过所述第二领域字向量模型对所述第二领域的标注语料分字后得到字向量;
将所述词向量与所述句向量进行拼接组成句向量;
根据所述句向量对初始意图识别模型进行训练,以得到所述意图识别模型。
2.根据权利要求1所述的意图识别模型的训练方法,其特征在于,对所述第一领域的标注语料预设有第一权重,对所述第二领域的标注语料预设有第二权重。
3.一种意图识别方法,其特征在于,所述方法包括:
获取待识别目标信息;
分别将所述待识别目标信息输入第一领域词向量模型以及第二领域字向量模型中,得到第一领域词向量以及第二领域字向量,其中,所述第二领域为所述第一领域的子领域;
将所述第一领域词向量和所述第二领域字向量进行拼接组成句向量;
将所述句向量输入意图识别模型得到所述待识别目标信息对应的意图。
4.根据权利要求3所述的意图识别方法,其特征在于,所述意图识别模型是通过权利要求1~2任一项所述的意图识别模型的训练方法训练得到的。
5.一种句向量的获取方法,其特征在于,包括:
通过第一领域的标注语料训练生成所述第一领域对应的词向量模型;
通过第二领域的标注语料训练生成所述第二领域对应的字向量模型;
通过所述第一领域词向量模型对所述第二领域的标注语料分词后得到词向量;
通过所述第二领域字向量模型对所述第二领域的标注语料分字后得到字向量;
将所述词向量及所述字向量拼接得到所述第二领域的句向量;
其中,所述第二领域为所述第一领域的子领域。
6.一种意图识别模型的训练装置,其特征在于,包括:
第一模型训练模块,用于通过第一领域的标注语料对第一初始模型进行训练,得到第一领域词向量模型;
第二模型训练模块,用于通过第二领域的标注语料对第二初始模型进行训练,得到第二领域字向量模型,其中,所述第二领域为所述第一领域的子领域;
句向量获取模块,用于通过所述第一领域词向量模型对所述第二领域的标注语料分词后得到词向量;及通过所述第二领域字向量模型对所述第二领域的标注语料分字后得到字向量;及将所述词向量与所述句向量进行拼接组成句向量;
第三模型训练模块,用于根据所述句向量对初始意图识别模型进行训练,以得到所述意图识别模型。
7.一种意图识别装置,其特征在于,所述意图识别装置包括:
获取模块,用于获取待识别目标信息;
输入模块,用于分别将所述待识别目标信息输入第一领域词向量模型以及第二领域字向量模型中,得到第一领域词向量以及第二领域字向量,其中,所述第二领域为所述第一领域的子领域;
句向量转换模块,用于将所述第一领域词向量和所述第二领域字向量进行拼接组成句向量;
识别模块,用于将所述句向量输入意图识别模型得到所述待识别信息对应的意图。
8.一种句向量的获取装置,其特征在于,包括:
第一模型训练模块,用于通过第一领域的标注语料对第一初始模型进行训练,得到第一领域词向量模型;
第二模型训练模块,用于通过第二领域的标注语料对第二初始模型进行训练,得到第二领域字向量模型,其中,所述第二领域为所述第一领域的子领域;
句向量获取模块,用于通过所述第一领域词向量模型对所述第二领域的标注语料分词后得到词向量;及通过所述第二领域字向量模型对所述第二领域的标注语料分字后得到字向量;及将所述词向量与所述句向量拼接得到所述第二领域的句向量。
9.一种意图识别装置,其特征在于,包括相互藕接的处理器及存储器,其中,
所述存储器用于存储实现如权利要求1-2任意一项所述的意图识别模型的训练方法或权利要求3-4任意一项所述的意图识别方法或权利要求5所述的句向量的获取方法的程序指令;
所述处理器用于执行所述存储器存储的所述程序指令。
10.一种存储介质,其特征在于,存储有程序文件,所述程序文件能够被执行以实现如权利要求1-2任意一项所述的意图识别模型的训练方法或权利要求3-4任意一项所述的意图识别方法或权利要求5所述的句向量的获取方法。
CN201911228834.7A 2019-12-04 2019-12-04 意图识别模型训练方法、意图识别方法及相关装置 Active CN112906370B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911228834.7A CN112906370B (zh) 2019-12-04 2019-12-04 意图识别模型训练方法、意图识别方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911228834.7A CN112906370B (zh) 2019-12-04 2019-12-04 意图识别模型训练方法、意图识别方法及相关装置

Publications (2)

Publication Number Publication Date
CN112906370A true CN112906370A (zh) 2021-06-04
CN112906370B CN112906370B (zh) 2022-12-20

Family

ID=76111065

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911228834.7A Active CN112906370B (zh) 2019-12-04 2019-12-04 意图识别模型训练方法、意图识别方法及相关装置

Country Status (1)

Country Link
CN (1) CN112906370B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107423284A (zh) * 2017-06-14 2017-12-01 中国科学院自动化研究所 融合中文单词内部结构信息的句子表示的构建方法及系统
CN107943860A (zh) * 2017-11-08 2018-04-20 北京奇艺世纪科技有限公司 模型的训练方法、文本意图的识别方法及装置
US20180137855A1 (en) * 2016-11-16 2018-05-17 Samsung Electronics Co., Ltd. Method and apparatus for processing natural language, method and apparatus for training natural language processing model
CN108829818A (zh) * 2018-06-12 2018-11-16 中国科学院计算技术研究所 一种文本分类方法
CN108920622A (zh) * 2018-06-29 2018-11-30 北京奇艺世纪科技有限公司 一种意图识别的训练方法、训练装置和识别装置
CN109492215A (zh) * 2018-09-18 2019-03-19 平安科技(深圳)有限公司 新闻实体识别方法、装置、计算机设备和存储介质
CN109871545A (zh) * 2019-04-22 2019-06-11 京东方科技集团股份有限公司 命名实体识别方法及装置
CN110287283A (zh) * 2019-05-22 2019-09-27 中国平安财产保险股份有限公司 意图模型训练方法、意图识别方法、装置、设备及介质
CN110399609A (zh) * 2019-06-25 2019-11-01 众安信息技术服务有限公司 意图识别方法、装置、设备及计算机可读存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180137855A1 (en) * 2016-11-16 2018-05-17 Samsung Electronics Co., Ltd. Method and apparatus for processing natural language, method and apparatus for training natural language processing model
CN107423284A (zh) * 2017-06-14 2017-12-01 中国科学院自动化研究所 融合中文单词内部结构信息的句子表示的构建方法及系统
CN107943860A (zh) * 2017-11-08 2018-04-20 北京奇艺世纪科技有限公司 模型的训练方法、文本意图的识别方法及装置
CN108829818A (zh) * 2018-06-12 2018-11-16 中国科学院计算技术研究所 一种文本分类方法
CN108920622A (zh) * 2018-06-29 2018-11-30 北京奇艺世纪科技有限公司 一种意图识别的训练方法、训练装置和识别装置
CN109492215A (zh) * 2018-09-18 2019-03-19 平安科技(深圳)有限公司 新闻实体识别方法、装置、计算机设备和存储介质
CN109871545A (zh) * 2019-04-22 2019-06-11 京东方科技集团股份有限公司 命名实体识别方法及装置
CN110287283A (zh) * 2019-05-22 2019-09-27 中国平安财产保险股份有限公司 意图模型训练方法、意图识别方法、装置、设备及介质
CN110399609A (zh) * 2019-06-25 2019-11-01 众安信息技术服务有限公司 意图识别方法、装置、设备及计算机可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李伟康 等: "深度学习中汉语字向量和词向量结合方式探究", 《中文信息学报》 *
陈晨 等: "基于深度学习的开放领域对话系统研究综述", 《计算机学报》 *

Also Published As

Publication number Publication date
CN112906370B (zh) 2022-12-20

Similar Documents

Publication Publication Date Title
CN109902271B (zh) 基于迁移学习的文本数据标注方法、装置、终端及介质
CN111563144B (zh) 基于语句前后关系预测的用户意图识别方法及装置
CN112926306B (zh) 文本纠错方法、装置、设备以及存储介质
CN111737991B (zh) 文本断句位置的识别方法及系统、电子设备及存储介质
US20210248498A1 (en) Method and apparatus for training pre-trained knowledge model, and electronic device
US11636272B2 (en) Hybrid natural language understanding
US20200160086A1 (en) Unsupervised domain adaptation from generic forms for new ocr forms
CN113836925B (zh) 预训练语言模型的训练方法、装置、电子设备及存储介质
CN111079405A (zh) 文本信息识别方法、装置、存储介质和计算机设备
US20220358955A1 (en) Method for detecting voice, method for training, and electronic devices
CN113657483A (zh) 模型训练方法、目标检测方法、装置、设备以及存储介质
CN112951233A (zh) 语音问答方法、装置、电子设备及可读存储介质
WO2019227629A1 (zh) 文本信息的生成方法、装置、计算机设备及存储介质
CN115392235A (zh) 字符匹配方法、装置、电子设备及可读存储介质
CN114564586A (zh) 一种非结构化敏感数据识别方法及系统
CN112906368B (zh) 行业文本增量方法、相关装置及计算机程序产品
CN111581347B (zh) 语句相似度匹配方法及装置
CN112906370B (zh) 意图识别模型训练方法、意图识别方法及相关装置
CN116628163A (zh) 客服服务处理方法、装置、设备及存储介质
CN114078471A (zh) 网络模型处理方法、装置、设备及计算机可读存储介质
CN114461665B (zh) 用于生成语句转换模型的方法、装置及计算机程序产品
CN114444514B (zh) 语义匹配模型训练、语义匹配方法及相关装置
CN114969195A (zh) 对话内容挖掘方法和对话内容评估模型的生成方法
CN115270818A (zh) 一种意图识别方法及装置、存储介质、计算机设备
CN111625636B (zh) 一种人机对话的拒绝识别方法、装置、设备、介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant