CN116049395A - 意图识别方法、意图识别模型训练方法、系统及装置 - Google Patents

意图识别方法、意图识别模型训练方法、系统及装置 Download PDF

Info

Publication number
CN116049395A
CN116049395A CN202211667309.7A CN202211667309A CN116049395A CN 116049395 A CN116049395 A CN 116049395A CN 202211667309 A CN202211667309 A CN 202211667309A CN 116049395 A CN116049395 A CN 116049395A
Authority
CN
China
Prior art keywords
sample
recognition model
obtaining
reflow
intention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211667309.7A
Other languages
English (en)
Inventor
田鹏
何春江
赵乾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN202211667309.7A priority Critical patent/CN116049395A/zh
Publication of CN116049395A publication Critical patent/CN116049395A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种意图识别方法、意图识别模型训练方法、系统及装置,该方法包括:基于更新后的第一意图识别模型获得待识别数据的预测意图;其中,更新后的第一意图识别模型中的参数与训练后的第二意图识别模型中对应的参数一致,训练第二意图识别模型的过程包括:基于初始的第二意图识别模型获得每个回流样本的样本标签和样本标签的置信度;获得每个回流样本与其余回流样本之间的相似度,基于相似度获得第一损失;基于每个回流样本的样本标签的置信度确定权重系数,基于所有回流样本的第一损失和权重系数获得第一总损失;基于第一总损失调整第二意图识别模型的参数。通过上述方式,本申请能够提高意图识别的准确性。

Description

意图识别方法、意图识别模型训练方法、系统及装置
技术领域
本申请涉及自然语言处理技术领域,特别是涉及一种意图识别方法、意图识别模型训练方法、系统及装置。
背景技术
随着人工智能技术的快速发展,越来越多的场景中需要运用到意图识别技术。常规的意图识别方法是预先构建包含数据库的意图识别模型,并由意图识别模型根据待处理数据与数据库中数据的相似度来预测待处理数据的意图类别。并且,在实际使用中,由于场景变更等因素的影响,使得意图识别模型需要不定时进行更新。然而,由于目前的意图识别模型相对固定,需要通过离线的方式进行更新,导致意图识别的效率较低。
发明内容
本申请主要解决的技术问题是提供一种意图识别方法、意图识别模型训练方法、系统及装置,能够提高意图识别的准确性。
为解决上述技术问题,本申请采用的一个技术方案是:提供一种意图识别方法,包括:基于更新后的第一意图识别模型获得待识别数据的预测意图;其中,更新后的所述第一意图识别模型中的参数与训练后的第二意图识别模型中对应的参数一致,训练所述第二意图识别模型的过程包括:基于初始的所述第二意图识别模型获得每个回流样本的样本标签和所述样本标签的置信度;其中,初始的所述第二意图识别模型中的参数与更新前的所述第一意图识别模型中对应的参数一致;获得每个所述回流样本与其余所述回流样本之间的相似度,基于所述相似度获得相应的第一损失;基于每个所述回流样本的所述样本标签的置信度确定相应的权重系数,基于所有所述回流样本的第一损失和对应的权重系数获得第一总损失;基于所述第一总损失调整所述第二意图识别模型的参数。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种意图识别模型的训练方法,包括:基于初始的所述第二意图识别模型获得每个回流样本的样本标签和所述样本标签的置信度;其中,初始的所述第二意图识别模型中的参数与更新前的所述第一意图识别模型中对应的参数一致;获得每个所述回流样本与其余所述回流样本之间的相似度,基于所述相似度获得相应的第一损失;基于每个所述回流样本的所述样本标签的置信度确定相应的权重系数,基于所有所述回流样本的第一损失和对应的权重系数获得第一总损失;基于所述第一总损失调整所述第二意图识别模型的参数。
为解决上述技术问题,本申请采用的又一个技术方案是:提供一种意图识别系统,包括:获得模块,用于基于更新后的第一意图识别模型获得待识别数据的预测意图;其中,更新后的所述第一意图识别模型中的参数与训练后的第二意图识别模型中对应的参数一致;训练模块,用于训练所述第二意图识别模型;其中,训练所述第二意图识别模型的过程包括:基于初始的所述第二意图识别模型获得每个回流样本的样本标签和所述样本标签的置信度;其中,初始的所述第二意图识别模型中的参数与更新前的所述第一意图识别模型中对应的参数一致;获得每个所述回流样本与其余所述回流样本之间的相似度,基于所述相似度获得相应的第一损失;基于每个所述回流样本的所述样本标签的置信度确定相应的权重系数,基于所有所述回流样本的第一损失和对应的权重系数获得第一总损失;基于所述第一总损失调整所述第二意图识别模型的参数。
为解决上述技术问题,本申请采用的又一个技术方案是:提供一种电子设备,包括:相互耦接的存储器和处理器,所述存储器存储有程序数据,所述处理器调用所述程序数据以执行上述技术方案中提到的意图识别方法。
为解决上述技术问题,本申请采用的又一个技术方案是:提供一种计算机可读存储介质,其上存储有程序指令,所述程序数据被处理器执行时实现上述技术方案中提到的意图识别方法
本申请的有益效果是:区别于现有技术的情况,本申请提出的意图识别方法,通过利用更新后的第一意图识别模型进行意图类别预测,以提高预测的准确性。其中,在更新第一意图识别模型之前,利用基于第一意图识别模型获得的多个回流样本对具有相同模型结构的第二意图识别模型进行训练,以节省了获得训练数据的成本。并且,在训练过程中对置信度较低的回流样本设置相对较高的权重系数,以使得训练后获得的第二意图识别模型面对较复杂的待识别数据依旧具备较好的意图识别性能。另外,直接利用第二意图识别模型中的参数对第一意图识别模型中的参数进行调节,使得无需在离线状态下即可完成对第一意图识别模型的更新,极大提高了意图识别模型更新的效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:
图1是本申请意图识别方法一实施方式的流程示意图;
图2是第一意图识别模型对应一实施方式的结构示意图;
图3是步骤S101中第二意图识别模型的训练方法一实施方式的流程示意图;
图4是步骤S204之后一实施方式的流程示意图;
图5是步骤S304之后一实施方式的流程示意图;
图6是本申请意图识别系统一实施方式的结构示意图;
图7是本申请电子设备一实施方式的结构示意图;
图8是本申请存储装置一实施方式的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性的劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参阅图1,图1是本申请意图识别方法一实施方式的流程示意图。该意图识别方法包括:
S101:获得待识别数据。
在一实施方式中,步骤S101包括:获得需要进行意图预测的待识别数据。其中,该待识别数据可以是根据客服问答或业务办理等场景中,客户与客服之间的对话内容生成的。
在一具体实施场景中,响应于客户与客服之间的对话内容为音频信息,对该音频信息进行处理以生成对应的文本信息,并将该文本信息作为待识别数据。
S102:基于更新后的第一意图识别模型获得待识别数据的预测意图。
在一实施方式中,由于实际应用中不同用户的语言习惯差异以及应用场景变化等因素,容易导致使用过程中第一意图识别模型的识别准确率下降。因此,需要适时地对第一意图识别模型进行更新以保证意图识别的准确率。
具体地,基于训练后的第二意图预测模型对第一意图识别模型进行在线热更新,即预先训练获得与第一意图识别模型具有相同模型结构的第二意图识别模型,然后使得更新后第一意图识别模型中的参数与训练后的第二意图识别模型中对应的参数一致。
请参阅图2,图2是第一意图识别模型对应一实施方式的结构示意图。更新后的第一意图识别模型中包括更新后的编译网络10和更新后的解析网络20。更新后的编译网络10用于对输入的不同意图类别的数据样本进行编译,以获得各个数据样本对应的语义向量,并将各个数据样本以及对应的语义向量按照对应的意图类别进行分类,形成目标数据库。
进一步地,将待识别数据输入至更新后的第一意图识别模型中,解析网络20中的语义提取子网络对待识别数据进行语义特征提取,获得待识别数据的语义向量。其中,上述语义提取子网络可以为BERT网络等。
进一步地,将待识别数据的语义向量与上述目标数据库中的数据样本的语义向量进行比对,以获得待识别数据与各个数据样本之间的相似度。从待识别向量对应的多个相似度中获得数值最大的相似度,并将该最大的相似度与预设阈值进行比较。若最大的相似度大于或等于预设阈值,则将最大相似度对应的数据样本所属的意图类别作为待识别数据的预测意图;或者,若最大的相似度小于预设阈值,则认为对应待识别数据无法识别,并赋予其待定标签。
可选地,上述相似度可以通过计算向量之间的余弦距离或欧氏距离等方式获得。
本申请提出的意图识别方法,通过利用更新后的第一意图识别模型进行意图类别预测,以提高预测的准确性。其中,在更新第一意图识别模型之前,利用基于第一意图识别模型获得的多个回流样本对具有相同模型结构的第二意图识别模型进行训练,以节省了获得训练数据的成本。并且,在训练过程中对置信度较低的回流样本设置相对较高的权重系数,以使得训练后获得的第二意图识别模型面对较复杂的待识别数据依旧具备较好的意图识别性能。另外,直接利用第二意图识别模型中的参数对第一意图识别模型中的参数进行调节,使得无需在离线状态下即可完成对第一意图识别模型的更新,极大提高了意图识别模型更新的效率。
下面对上述第二意图识别模型的训练过程作详细说明。请参阅图3,图3为步骤S101中第二意图识别模型的训练方法一实施方式的流程示意图。该训练过程包括:
S201:基于初始的第二意图识别模型获得每个回流样本的样本标签和样本标签的置信度。其中,初始的所述第二意图识别模型中的参数与更新前的第一意图识别模型中对应的参数一致。
在一实施方式中,步骤S201包括:在实际应用中,当前第一意图识别模型对输入的待识别数据进行处理,以生成大量包含样本标签以及样本标签的置信度的历史数据。其中,上述样本标签包括对应历史数据的意图类别,且样本标签的置信度越高则对应历史数据属于相应意图类别的概率越大。另外,上述提到的当前第一意图识别模型为更新之前的第一意图识别模型。
进一步地,构建第二意图识别模型,该第二意图识别模型的模型结构与第一意图识别模型的结构相同,并且初始的第二意图识别模型中的参数与更新前的第一意图识别模型中对应的参数一致。响应于对构建的初始的第二意图识别模型进行训练需要大量训练数据,将上述大量历史数据中的至少部分作为回流样本,以对第二意图识别模型进行训练,节省了训练数据的获取成本。
具体地,响应于构建的第二意图识别模型中包含与更新前的第一意图识别模型中相同的初始数据库,且该初始数据库中包括多个数据样本,将获取的多个回流样本输入第二意图识别模型,获得回流样本对应的语义向量。基于回流样本以及多个数据样本对应的语义向量,获得回流样本与初始数据库中各个意图类别下的数据样本的相似度,并将数值最大的相似度作为回流样本对应的置信度。具体过程可参照上述对应实施方式。
进一步地,将每个回流样本的置信度与第二阈值进行比对。响应于回流样本的置信度大于或等于第二阈值,将置信度对应的数据样本的意图类别作为回流样本的样本标签;或者,响应于置信度小于第二阈值,将待定标签作为对应回流样本的样本标签。
其中,上述第二阈值与步骤S101中提到的预设阈值相同,其具体数值位于0到1之间,在本实施方式中将第二阈值设置为0.6;当然,在其他实施方式中,上述第二阈值也可以是相关技术人员预估、或经过多次实验反推获得的其他数值。
区别于直接将置信度对应的数据样本的意图类别作为对应回流样本的样本标签的方式,本实施方式通过将置信度小于第二阈值的回流样本赋予待定标签,以降低意图类别预测错误的概率,从而使得利用回流样本训练得到的第二意图识别模型的意图识别性能较优。
可选地,在其他实施方式中,也可以从当前第一意图识别模型生成大量的历史数据中挑选置信度相对较小的历史数据作为回流样本,以助于在训练过程中,第二意图识别模型可以侧重于学习识别难度较大的样本。
S202:获得每个回流样本与其余回流样本之间的相似度,基于相似度获得相应的第一损失。
在一实施方式中,步骤S202包括:响应于通过上述步骤S201获得的多个回流样本以及对应的样本标签,随机获得与当前回流样本具有相同样本标签的第一类样本、以及与当前样本具有不同样本标签的第二类样本。
具体地,从多个回流样本中随机挑选获得当前回流样本,根据当前回流样本对应的样本标签A,从具有该样本标签A的其余回流样本中随机挑选一个回流样本作为第一类样本,以及从具备其他样本标签B的回流样本中随机挑选一个回流样本作为第二类样本。
进一步地,将当前回流样本、第一类样本和第二类样本输入第二意图识别模型,以分别获得回流样本、第一类样本以及第二类样本对应的语义向量。通过计算向量之间的相似度,以获得当前回流样本与第一类样本的第一相似度、以及当前回流样本与第二类样本的第二相似度。
可选地,向量之间相似度可以通过计算余弦距离或欧氏距离等方式获得。
进一步地,将获得的第一相似度与第二相似度相减,获得第一相似度与第二相似度之间的第一差值,并基于第一差值获得相应的第一损失。其中,第一损失大于或等与0,且第一损失与第一差值负相关。
在一具体实施方式中,设置第一阈值,并获得第一阈值与上述第一差值之间的第二差值。响应于第二差值大于0,则将第二差值作为第一损失;或者,响应于第二差值小于或等于0,则将第一损失设置为0。具体计算公式如下:
L(q)=max[0,M-cos(qq+)-os(qq-)]
其中,q表示当前回流样本,L(q)表示第一损失,q+表示第一类样本,q-表示第二类样本,cos(qq+)表示第一相似度,cos(qq-)表示第二相似度;M为第一阈值,其数值可以为2。
可选地,在另一实施方式中,上述步骤S203中获得第一类样本和第二类样本的过程也可以包括:根据当前回流样本对应的样本标签A,将具有该样本标签A的其余回流样本中相应置信度最高的回流样本作为第一类样本,以及将具备其他样本标签B的回流样本中相应置信度最高的回流样本作为第二类样本。
S203:基于每个回流样本的样本标签的置信度确定相应的权重系数,基于所有回流样本的第一损失和对应的权重系数获得第一总损失。
在一实施方式中,步骤S203包括:将置信度与第二阈值进行比对,以确定对应回流样本的权重系数。
其中,响应于当前回流样本的样本标签的置信度大于或等于第二阈值,则基于预设函数和置信度获得相应的权重系数。其中,置信度与权重系数负相关,且权重系数大于或等于第一预设值;在本实施方式中,该第一预设值为1。或者,响应于当前回流样本的样本标签的置信度小于第二阈值,则确定当前回流样本的权重系数为第二预设值。其中,本实施方式中第二预设值为2。
具体地,将对应置信度大于或等于第二阈值的回流样本作为第一回流样本,将对应置信度小于第二阈值的回流样本作为第二回流样本。针对第一回流样本,将置信度较高的第一回流样本设置相对较小的权重系数,以及将置信度较低的第一回流样本设置相对较大的权重系数。即使得所有回流样本中,置信度越低的回流样本对应的权重系数越高,以助于在训练过程中第二意图识别模型侧重学习置信度相对较低的回流样本,并促使训练后得到的第二意图识别模型能够准确识别较复杂或识别难度较大的待识别数据对应的意图类别。
在一具体实施方式中,上述基于预设函数和置信度获得相应的权重系数的步骤包括:获得当前回流样本的样本标签的置信度与一之间的第三差值、以及第二阈值与一之间的第四差值。将第三差值与第四差值的比值与第三预设值的和值作为权重系数。其中,第三预设值为1。即在本实施方式中,权重系数满足以下计算公式:
Figure BDA0004015012820000091
其中,f(q)表示当前回流样本的权重系数,S(q)表示当前回流样本的样本标签的置信度,T表示第二阈值。其中,在本实施方式中第二阈值为0.6。
进一步地,将所有回流样本的第一损失与对应的权重系数相乘,得到所有回流样本对应的第一乘积,将所有第一乘积的和值作为第一总损失,以助于根据该第一总损失对第二意图识别模型的参数进行调节。具体计算公式如下:
Figure BDA0004015012820000092
其中,LOSS1表示第一总损失,B表示回流样本的数量。
可选地,在其他实施方式中,也可以根据上述第二阈值,将回流样本的样本标签的置信度划分为多个层级。例如,当第二阈值为0.6时,将大于或等于0.6,且小于0.7的置信度对应的回流样本标记为第一层级,并赋予具有第一层级标记的回流样本第一权重;将大于或等于0.7,且小于0.9的置信度对应的回流样本标记为第二层级,并赋予具有第二层级标记的回流样本第二权重;将大于或等于0.9,且小于或等于1的置信度对应的回流样本标记为第三层级,并赋予具有第三层级标记的回流样本第三权重。其中,第一权重、第二权重和第三权重大于1,且第一权重大于第二权重,第二权重大于第三权重。
S204:基于第一总损失调整第二意图识别模型的参数。
在一实施方式中,步骤S204的实施过程包括:基于获得的第一总损失对第二意图识别模型中的参数进行调整,得到训练后的第二意图识别模型。其中,响应于训练的次数达到预设轮次、或者第二意图识别模型的第一总损失收敛等,则停止训练。
在本实施方式中,通过利用第一意图识别模型获得的多个回流样本对第二意图识别模型进行训练,降低了训练数据的获得成本。另外,对于具有明确意图类别的回流样本,将置信度较低的回流样本设置较高的权重系数,使得在训练过程中,第二意图识别模型重点学习识别难度较大的回流样本,以提高训练后获得的第二意图识别模型的识别准确率。
在另一实施方式中,请参阅图4,图4为步骤S204之后一实施方式的流程示意图。具体地,在得到训练后的第二意图识别模型后,还包括对训练获得的第二意图识别模型进行优化,该优化过程包括:
S301:基于调整后的第二意图识别模型获得初始数据库中每个数据样本对应的初始数据样本向量。其中,数据样本包括对应的数据标签。
在一实施方式中,步骤S301包括:获取当前第二意图识别模型中的初始数据库。其中,该初始数据库中包括多个数据样本,基于每个数据样本所属的意图类别,确定每个数据样本对应的数据标签。
进一步地,将获得的初始数据库输入至训练后获得的第二意图识别模型中,以输出每个数据样本对应的初始数据样本向量。
S302:基于每个初始数据样本向量与其余初始数据样本向量之间的相似度获得相应的第二损失。
在一实施方式中,步骤S302包括:随机获得与当前初始数据样本具有相同数据标签的第三类样本、以及与当前初始数据样本具有不同数据标签的第四类样本。获得当前初始数据样本与第三类样本之间的第三相似度、以及当前初始数据样本与第四类样本之间的第四相似度。其中,获取第三相似度以及第四相似度的具体过程可参照上述对应实施方式,在此不进行详细阐述。
进一步地,获得第三相似度与第四相似度之间的第五差值,并基于第五差值获得相应的第二损失。第二损失的具体计算公式如下:
L(p)=max[0,M-cos(pp+)-os(pp-)]
其中,p表示当前初始数据样本,L(p)表示第二损失,p+表示第三类样本,p-表示第四类样本,cos(pp+)表示第三相似度,cos(pp-)表示第四相似度;M为第一阈值。
S303:基于所有第二损失获得第二总损失。
在一实施方式中,步骤S303包括:
Figure BDA0004015012820000111
其中,LOSS2表示第二总损失,C表示初始数据库中数据样本的数量。
S304:基于第二总损失调整第二意图识别模型的参数。
在一实施方式中,基于获得的第二总损失对训练后获得的第二意图识别模型中的参数进行调整,以对训练后的第二意图识别模型进行优化,得到优化后的第二意图识别模型。
进一步地,获得优化后的第二意图识别模型之后,还包括:获得调整后的第二意图识别模型的唯一身份标识。其中,身份标识包括执行基于第二总损失调整意图识别模型的参数的步骤对应的时间戳。
具体地,结合优化完成时刻对应的时间戳以及随机码,生成优化后的第二意图识别模型对应的身份标识。
或者,对第二意图识别模型设置对应的模型编号,结合模型编号以及上述时间戳生成对应第二意图识别模型的身份标识。
在另一实施方式中,请参阅图5,图5为步骤S304之后一实施方式的流程示意图。具体地,步骤S304之后包括:
S401:响应于获得第一意图识别模型更新指令,根据调整后的第二意图识别模型中的参数对第一意图识别模型中编译网络的进行更新。
在一实施方式中,步骤S401包括:响应于实际应用中第一意图识别模型满足预设更新条件,获得更新指令,并基于该更新指令利用优化后的第二意图识别模型对第一意图识别模型中的编译网络进行更新。
具体地,判断第一意图识别模型是否满足预设更新条件。若是,则根据优化后的第二意图识别模型生成第一更新文件,该第一更新文件包含第二意图识别模型中编译网络的相关参数。将生成的第一更新文件下载至第一意图识别模型中,以利用第一更新文件中的参数对第一意图识别模型中编译网络的相关参数进行自动在线调节,极大提高了更新的效率。
其中,上述预设更新条件可以为第一意图识别模型完成对既定数量的数据的识别;例如,当第一意图识别模型完成对100w条数据的意图预测后,触发更新指令。或者,上述预设更新条件也可以为更新时间间隔达到预设时长;例如,响应于距离上次更新的时刻达到预设时长,则满足预设更新条件。
另外,在对第一意图识别模型中的编译网络进行更新过程中,实时检测编译网络的更新状态。响应于第一意图识别模型中的编译网络更新成功,则执行步骤S402;响应于参数异常、下载失败等因素导致更新失败,则检测编译网络更新次数是否满足次数阈值;若不满足次数阈值,则重新执行步骤S401;若满足次数阈值,则停止第一意图识别模型的更新,并输出模型更新失败的信号。
可选地,在本实施方式中,次数阈值可以为3、4或5等,具体可以根据实际需求进行设置。
可选地,在其他实施方式中,步骤S401中利用优化后的第二意图识别模型对第一意图识别模型中的编译网络进行更新的步骤也可以为直接利用优化后的第二意图识别模型中的相应参数对第一意图识别模型中编译网络的参数进行调整。
S402:响应于编译网络更新成功,将初始数据库输入更新后的编译网络,获得初始数据库对应的目标数据库。其中,目标数据库中包括每个数据样本对应的目标数据样本向量和数据标签,目标数据样本向量中携带有身份标识。
在一实施方式中,步骤S402包括:在完成对第一意图识别模型中的编译网络的更新后,将初始数据库输入至更新后的第一意图识别模型中的编译网络。结合上述第二意图识别模型对应的身份标识对初始数据库中的数据样本进行重新编译,获得各个数据样本对应的目标数据样本向量。
具体地,更新后的第一意图识别模型的编译网络对数据样本进行重新编译以获得各个数据样本对应的语义向量,将优化后的第二意图识别模型的身份标识添加至各个数据样本对应的语义向量中,以获得各个数据样本对应的目标数据样本向量。
进一步地,将所有数据样本对应的目标数据样本向量组成目标数据库。其中,目标数据样本向量包含对应的数据标签,且目标数据样本向量对应的数据标签与初始数据样本向量对应的数据标签一致。
S403:响应于第二意图识别模型的身份标识与各个目标数据样本向量携带的身份标识匹配,利用第二意图识别模型中的参数对第一意图识别模型中的解析网络进行更新,并将目标数据库加载至解析网络中。
在一实施方式中,在步骤S403之前包括:响应于第一意图识别模型中的编译网络更新完成后,根据优化后的第二意图识别模型生成第二更新文件,该第二更新文件包含第二意图识别模型中解析网络的相关参数。将生成的第二更新文件以及目标数据库下载至第一意图识别模型中的解析网络中,以判断第二更新文件对应的第二意图识别模型的身份标识与目标数据库中各个目标数据样本相应对应的身份标识是否匹配。若匹配,则执行步骤S403;若不匹配,则停止第一意图识别模型的更新,输出更新失败的信号,并将目标数据库还原为初始数据库。
进一步地,步骤S403的实施过程包括:响应于第二意图识别模型的身份标识与各个目标数据样本对应的身份标识匹配,则利用第二更新文件中的参数对第一意图识别模型中解析网络的相关参数进行调节。
其中,在对第一意图识别模型中的解析网络更新的过程中包括:检测该解析网络是否更新成功,响应于更新成功则完成第一意图识别模型的更新,并输出模型更新成功的信息;响应于更新失败,则检测解析网络更新次数是否满足次数阈值;若不满足次数阈值,则重新执行对解析网络更新的步骤;若满足次数阈值,则停止第一意图识别模型的更新,并输出模型更新失败的信号。
本实施方式通过利用第二意图识别模型以及对应的身份标识对第一意图识别模型进行更新,可以防止更新过程中出现参数不匹配的情况,提高了第一意图识别模型更新的效率。
请参阅图6,图6是本申请意图识别系统一实施方式的结构示意图。该意图识别系统具体包括:预测模块30、训练模块40。
具体而言,预测模块30用于基于更新后的第一意图识别模型获得待识别数据的预测意图;其中,更新后的第一意图识别模型中的参数与训练后的第二意图识别模型中对应的参数一致。
训练模块40用于训练第二意图识别模型。其中,训练第二意图识别模型的过程包括:基于初始的第二意图识别模型获得每个回流样本的样本标签和样本标签的置信度;其中,初始的所述第二意图识别模型中的参数与更新前的所述第一意图识别模型中对应的参数一致;获得每个回流样本与其余回流样本之间的相似度,基于上述相似度获得相应的第一损失;基于每个回流样本的样本标签的置信度确定相应的权重系数,基于所有回流样本的第一损失和对应的权重系数获得第一总损失;基于第一总损失调整第二意图识别模型的参数。
其中,基于相似度获得相应的第一损失的步骤,包括:随机获得与当前回流样本具有相同样本标签的第一类样本、以及与当前回流样本具有不同样本标签的第二类样本;获得当前回流样本与所述第一类样本的第一相似度、以及当前回流样本与所述第二类样本的第二相似度;获得第一相似度与第二相似度之间的第一差值;基于第一差值获得相应的第一损失;其中,第一损失大于或等于0,且第一损失与第一差值负相关。
其中,基于第一差值获得相应的第一损失的步骤,包括:获得第一阈值与第一差值之间的第二差值;响应于第二差值大于0,则将第二差值作为第一损失;响应于第二差值小于或等于0,则将第一损失设置为0。
其中,基于每个回流样本的样本标签确定相应的权重系数的步骤,包括:响应于当前回流样本的样本标签的置信度大于或等于第二阈值,则基于预设函数和置信度获得相应的权重系数;其中,置信度与权重系数负相关,且权重系数大于或等于第一预设值;响应于当前回流样本的样本标签的置信度小于第二阈值,则确定当前回流样本的权重系数为第二预设值。
其中,基于预设函数和置信度获得相应的权重系数的步骤,包括:获得当前回流样本的样本标签的置信度与一之间的第三差值、以及第二阈值与一之间的第四差值;将第三差值与第四差值的比值与第三预设值的和值作为权重系数。
其中,基于第一意图识别模型获得每个回流样本的样本标签和样本标签的置信度的步骤,包括:将多个回流样本输入第一意图识别模型,获得回流样本与初始数据库中各个意图类别下的数据样本的相似度,将数值最大的相似度作为回流样本对应的所述置信度;响应于置信度大于或等于第二阈值,将置信度对应的数据样本的意图类别作为回流样本的样本标签;响应于置信度小于第二阈值,将待定标签作为对应回流样本的样本标签。
请继续参阅图6,本申请所提供的意图识别系统还包括优化模块50,连接于预测模块30和训练模块40之间,用于在基于第一总损失调整第二意图识别模型的参数步骤之后,基于调整后的第二意图识别模型获得初始数据库中每个数据样本对应的初始数据样本向量;其中,数据样本包括对应的数据标签;基于每个初始数据样本向量与其余初始数据样本向量之间的相似度获得相应的第二损失;基于所有第二损失获得第二总损失;基于第二总损失调整第二意图识别模型的参数。
其中,基于第二总损失调整第二意图识别模型的参数之后,还包括:获得调整后的第二意图识别模型的唯一身份标识;其中,身份标识包括执行基于第二总损失调整第二意图识别模型的参数的步骤对应的时间戳。
请继续参阅图6,本申请所提供的意图识别系统还包括更新模块60,连接于预测模块30和优化模块50之间,用于在获得调整后的第二意图识别模型的唯一身份标识的步骤之后,还包括:响应于获得第一意图识别模型更新指令,根据调整后的第二意图识别模型中的参数对第一意图识别模型中编译网络进行更新;响应于编译网络更新成功,将初始数据库输入更新后的编译网络,获得初始数据库对应的目标数据库;其中,目标数据库中包括每个数据样本对应的目标数据样本向量和数据标签,目标数据样本向量中携带有所述身份标识;响应于第二意图识别模型对应的身份标识与各个目标数据样本向量携带的身份标识匹配,利用第二意图识别模型中的参数对第一意图识别模型中的解析网络进行更新,并将目标数据库加载至所述解析网络中。
请参阅图7,图7为本申请电子设备一实施方式的结构示意图。该电子设备包括:相互耦接的存储器70和处理器80,存储器70中存储有程序指令,处理器80用于执行程序指令以实现上述任一实施例中的方法。具体地,电子设备包括但不限于:台式计算机、笔记本电脑、平板电脑、服务器等,在此不做限定。此外,处理器80还可以称为CPU(CenterProcessing Unit,中央处理单元)。处理器80可能是一种集成电路芯片,具有信号处理能力。处理器80还可以是、通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器80可以由集成电路芯片共同实现。
请参阅图8,图8为本申请存储装置一实施方式的结构示意图,该存储装置90存储有能够被处理器运行的程序指令95,程序指令95用于实现上述任一实施例中的方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (13)

1.一种意图识别方法,其特征在于,包括:
基于更新后的第一意图识别模型获得待识别数据的预测意图;其中,5更新后的所述第一意图识别模型中的参数与训练后的第二意图识别模型中对应的参数一致,训练所述第二意图识别模型的过程包括:
基于初始的所述第二意图识别模型获得每个回流样本的样本标签和所述样本标签的置信度;其中,初始的所述第二意图识别模型中的参数与更新前的所述第一意图识别模型中对应的参数一致;
0获得每个所述回流样本与其余所述回流样本之间的相似度,基于所述相似度获得相应的第一损失;
基于每个所述回流样本的所述样本标签的置信度确定相应的权重系数,基于所有所述回流样本的第一损失和对应的权重系数获得第一总损失;
5基于所述第一总损失调整所述第二意图识别模型的参数。
2.根据权利要求1所述的方法,其特征在于,所述获得每个所述回流样本与其余所述回流样本之间的相似度,基于所述相似度获得相应的第一损失的步骤,包括:
随机获得与当前回流样本具有相同样本标签的第一类样本、以及与0当前回流样本具有不同样本标签的第二类样本;
获得当前回流样本与所述第一类样本的第一相似度、以及当前回流样本与所述第二类样本的第二相似度;
获得所述第一相似度与所述第二相似度之间的第一差值;
基于所述第一差值获得相应的第一损失;其中,所述第一损失大于5或等于0,且所述第一损失与所述第一差值负相关。
3.根据权利要求2所述的方法,其特征在于,所述基于所述第一差值获得相应的第一损失的步骤,包括:
获得第一阈值与所述第一差值之间的第二差值;
响应于所述第二差值大于0,则将所述第二差值作为所述第一损失;响应于所述第二差值小于或等于0,则将所述第一损失设置为0。
4.根据权利要求1所述的方法,其特征在于,所述基于每个所述回流样本的所述样本标签的置信度确定相应的权重系数的步骤,包括:
响应于当前回流样本的所述样本标签的置信度大于或等于第二阈值,则基于预设函数和所述置信度获得相应的所述权重系数;其中,所述置信度与所述权重系数负相关,且所述权重系数大于或等于第一预设值;
响应于当前回流样本的所述样本标签的置信度小于所述第二阈值,则确定当前回流样本的所述权重系数为所述第二预设值。
5.根据权利要求4所述的方法,其特征在于,所述基于预设函数和所述置信度获得相应的权重系数的步骤,包括:
获得当前回流样本的所述样本标签的置信度与一之间的第三差值、以及所述第二阈值与一之间的第四差值;
将所述第三差值与所述第四差值的比值与第三预设值的和值作为所述权重系数。
6.根据权利要求1所述的方法,其特征在于,基于所述第一意图识别模型获得每个回流样本的样本标签和所述样本标签的置信度的步骤,包括:
将多个所述回流样本输入所述第一意图识别模型,获得所述回流样本与初始数据库中各个意图类别下的数据样本的相似度,将数值最大的所述相似度作为所述回流样本对应的所述置信度;
响应于所述置信度大于或等于第二阈值,将所述置信度对应的所述数据样本的意图类别作为所述回流样本的样本标签;
响应于所述置信度小于所述第二阈值,将待定标签作为对应所述回流样本的样本标签。
7.根据权利要求1所述的方法,其特征在于,所述基于所述第一总损失调整所述第二意图识别模型的参数的步骤之后,还包括:
基于调整后的所述第二意图识别模型获得初始数据库中每个数据样本对应的初始数据样本向量;其中,所述数据样本包括对应的数据标签;
基于每个所述初始数据样本向量与其余所述初始数据样本向量之间的相似度获得相应的第二损失;
基于所有所述第二损失获得第二总损失;
基于所述第二总损失调整所述第二意图识别模型的参数。
8.根据权利要求7所述的方法,其特征在于,所述基于所述第二总损失调整所述第二意图识别模型的参数的步骤之后,还包括:
获得调整后的所述第二意图识别模型的唯一身份标识;其中,所述身份标识包括执行所述基于所述第二总损失调整所述第二意图识别模型的参数的步骤对应的时间戳。
9.根据权利要求8所述的方法,其特征在于,所述第一意图识别模型包括编译网络和解析网络,所述获得调整后的所述第二意图识别模型的唯一身份标识的步骤之后,还包括:
响应于获得所述第一意图识别模型更新指令,根据调整后的所述第二意图识别模型中的参数对所述第一意图识别模型中所述编译网络进行更新;
响应于所述编译网络更新成功,将所述初始数据库输入更新后的所述编译网络,获得所述初始数据库对应的目标数据库;其中,所述目标数据库中包括每个所述数据样本对应的目标数据样本向量和所述数据标签,所述目标数据样本向量中携带有所述身份标识;
响应于所述第二意图识别模型对应的所述身份标识与各个所述目标数据样本向量携带的身份标识匹配,利用所述第二意图识别模型中的参数对所述第一意图识别模型中的所述解析网络进行更新,并将所述目标数据库加载至所述解析网络中。
10.一种意图识别模型的训练方法,其特征在于,包括:
基于初始的所述第二意图识别模型获得每个回流样本的样本标签和所述样本标签的置信度;其中,初始的所述第二意图识别模型中的参数与更新前的所述第一意图识别模型中对应的参数一致;
获得每个所述回流样本与其余所述回流样本之间的相似度,基于所述相似度获得相应的第一损失;
基于每个所述回流样本的所述样本标签的置信度确定相应的权重系数,基于所有所述回流样本的第一损失和对应的权重系数获得第一总损失;
基于所述第一总损失调整所述第二意图识别模型的参数。
11.一种意图识别系统,其特征在于,包括:
获得模块,用于基于更新后的第一意图识别模型获得待识别数据的预测意图;其中,更新后的所述第一意图识别模型中的参数与训练后的第二意图识别模型中对应的参数一致;
训练模块,用于训练所述第二意图识别模型;其中,训练所述第二意图识别模型的过程包括:基于初始的所述第二意图识别模型获得每个回流样本的样本标签和所述样本标签的置信度;其中,初始的所述第二意图识别模型中的参数与更新前的所述第一意图识别模型中对应的参数一致;获得每个所述回流样本与其余所述回流样本之间的相似度,基于所述相似度获得相应的第一损失;基于每个所述回流样本的所述样本标签的置信度确定相应的权重系数,基于所有所述回流样本的第一损失和对应的权重系数获得第一总损失;基于所述第一总损失调整所述第二意图识别模型的参数。
12.一种电子设备,其特征在于,包括:相互耦接的存储器和处理器,所述存储器存储有程序数据,所述处理器调用所述程序数据以执行如权利要求1-9中任一项所述的意图识别方法。
13.一种计算机可读存储介质,其上存储有程序数据,其特征在于,所述程序数据被处理器执行时实现如权利要求1-9中任一项所述的意图识别方法。
CN202211667309.7A 2022-12-23 2022-12-23 意图识别方法、意图识别模型训练方法、系统及装置 Pending CN116049395A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211667309.7A CN116049395A (zh) 2022-12-23 2022-12-23 意图识别方法、意图识别模型训练方法、系统及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211667309.7A CN116049395A (zh) 2022-12-23 2022-12-23 意图识别方法、意图识别模型训练方法、系统及装置

Publications (1)

Publication Number Publication Date
CN116049395A true CN116049395A (zh) 2023-05-02

Family

ID=86122913

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211667309.7A Pending CN116049395A (zh) 2022-12-23 2022-12-23 意图识别方法、意图识别模型训练方法、系统及装置

Country Status (1)

Country Link
CN (1) CN116049395A (zh)

Similar Documents

Publication Publication Date Title
CN110377911B (zh) 对话框架下的意图识别方法和装置
CN111859960B (zh) 基于知识蒸馏的语义匹配方法、装置、计算机设备和介质
US20210382937A1 (en) Image processing method and apparatus, and storage medium
US11741094B2 (en) Method and system for identifying core product terms
CN110598070B (zh) 应用类型识别方法及装置、服务器及存储介质
CN113268609A (zh) 基于知识图谱的对话内容推荐方法、装置、设备及介质
CN114970560A (zh) 对话意图识别方法、装置、存储介质和智能设备
CN110543637A (zh) 一种中文分词方法及装置
CN113761219A (zh) 基于知识图谱的检索方法、装置、电子设备及存储介质
US10902350B2 (en) System and method for relationship identification
CN111274822A (zh) 语义匹配方法、装置、设备及存储介质
CN114218945A (zh) 实体识别方法、装置、服务器及存储介质
CN113239702A (zh) 意图识别方法、装置、电子设备
CN117558270B (zh) 语音识别方法、装置、关键词检测模型的训练方法和装置
CN113705207A (zh) 语法错误识别方法及装置
CN117195046A (zh) 异常文本识别方法及相关设备
CN117114063A (zh) 用于训练生成式大语言模型和用于处理图像任务的方法
CN114444514B (zh) 语义匹配模型训练、语义匹配方法及相关装置
CN113627197B (zh) 文本的意图识别方法、装置、设备及存储介质
CN115906797A (zh) 文本实体对齐方法、装置、设备及介质
CN116049395A (zh) 意图识别方法、意图识别模型训练方法、系统及装置
CN111967253A (zh) 一种实体消歧方法、装置、计算机设备及存储介质
CN115879446B (zh) 文本处理方法、深度学习模型训练方法、装置以及设备
CN113536788B (zh) 信息处理方法、装置、存储介质及设备
US11934794B1 (en) Systems and methods for algorithmically orchestrating conversational dialogue transitions within an automated conversational system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination