CN115329063B - 一种用户的意图识别方法及系统 - Google Patents
一种用户的意图识别方法及系统 Download PDFInfo
- Publication number
- CN115329063B CN115329063B CN202211270028.8A CN202211270028A CN115329063B CN 115329063 B CN115329063 B CN 115329063B CN 202211270028 A CN202211270028 A CN 202211270028A CN 115329063 B CN115329063 B CN 115329063B
- Authority
- CN
- China
- Prior art keywords
- sample
- bert
- model
- user
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明提供了一种用户的意图识别方法及系统,该方法包括获取原始样本数据,并根据原始样本数据选取出第一样本数据集以及第二样本数据集;根据第一样本数据集生成选择集,并将bert原始模型以及选择集输入至优化模块中,以使优化模块输出bert_variant最优模型;根据第二样本数据集生成训练集,并将训练集输入至bert_variant最优模型中,以进行参数训练;当获取到语音指令时,将语音指令转换成对应的文本数据,并将文本数据输入至训练完成的bert_variant最优模型中,以根据文本数据输出用户的意图。通过上述方式能够有效的降低推理时延,使之更加适用于实时交互场景,提升了用户的使用体验。
Description
技术领域
本发明涉及大数据技术领域,特别涉及一种用户的意图识别方法及系统。
背景技术
在智能语音外呼技术领域中,用户的意图识别是影响用户语音交互体验的关键因素之一,其中,用户的意图识别可以归为自然语言处理领域的文本分类任务。
现有技术大部分将用户说话文本传输至模型的嵌入层,然后依次传入各编码层,将最后一层编码层输出的语义表征传入分类器,通过归一化指数函数得到各意图类别的置信度分布,输出置信度最大的意图标签作为预测结果。
然而,由于现有技术需要将用户的样本数据依次传输至模型内部的各个编码器中,再最终得到预测结果,在此过程中,所需耗费的推理时间较长,而语音外呼是一个和用户实时交互的过程,从而较高的推理时延会增加用户的等待时间,进而大幅降低了用户的交互体验。
发明内容
基于此,本发明的目的是提供一种用户的意图识别方法及系统,以解决现有技术需要将用户的样本数据依次传输至模型内部的各个编码器中,导致所需耗费的推理时间较长的问题。
本发明实施例第一方面提出了一种用户的意图识别方法,所述方法包括:
获取根据用户的语音指令生成的原始样本数据,并根据所述原始样本数据选取出位于不同时间段的第一样本数据集以及第二样本数据集;
根据所述第一样本数据集生成对应的选择集,并将bert原始模型以及所述选择集输入至预设优化模块中,以使所述优化模块输出bert_variant最优模型,所述选择集包括正样本以及负样本,所述bert原始模型包括若干层编码器;
根据所述第二样本数据集生成对应的训练集,并将所述训练集输入至所述bert_variant最优模型中,以对所述bert_variant最优模型进行参数训练;
当获取到用户实时输入的语音指令时,将所述语音指令转换成对应的文本数据,并将所述文本数据输入至训练完成的bert_variant最优模型中,以使训练完成的bert_variant最优模型根据所述文本数据输出所述用户的意图。
本发明的有益效果是:通过首先获取根据用户的语音指令生成的原始样本数据,并根据该原始样本数据选取出位于不同时间段的第一样本数据集以及第二样本数据集;再根据第一样本数据集生成对应的选择集,并将bert原始模型以及选择集输入至预设优化模块中,以使优化模块输出bert_variant最优模型,在此基础之上,根据第二样本数据集生成对应的训练集,并将训练集输入至上述bert_variant最优模型中,以对该bert_variant最优模型进行参数训练;最后当获取到用户实时输入的语音指令时,将语音指令转换成对应的文本数据,并将文本数据输入至训练完成的bert_variant最优模型中,以使训练完成的bert_variant最优模型根据当前文本数据输出用户的意图。通过上述方式能够在保证bert原始模型识别准确率的前提下,有效的降低推理时延,使之更加适用于实时交互场景,从而大幅缩短了推理的时间,提升了用户的使用体验,适用于大范围的推广与使用。
优选的,所述将bert原始模型以及所述选择集输入至预设优化模块中,以使所述优化模块输出bert_variant最优模型的步骤包括:
将所述正样本以及所述负样本均输入至所述bert原始模型中,以对应获取到若干层所述编码器分别输出的若干特征向量;
建立所述正样本和所述负样本与若干所述特征向量之间的索引关系,并根据若干所述特征向量生成对应的特征向量集合,以使所述优化模块根据所述特征向量集合输出所述bert_variant最优模型。
优选的,所述根据所述第一样本数据集生成对应的选择集的步骤包括:
当获取到所述第一样本数据集时,识别出所述第一样本数据集中包含的若干用户意图,并根据若干所述用户意图生成对应的若干数据组,其中,同一所述数据组内的两个数据互为所述正样本,不同所述数据组内的任意两个数据互为所述负样本;
根据若干所述数据组生成对应的若干样本集,其中,每一所述样本集均包括一待测样本、所述正样本以及所述负样本,且每一所述样本集均具有唯一性;
对若干所述样本集进行整合处理,以生成所述选择集。
优选的,所述将bert原始模型以及所述选择集输入至预设优化模块中,以使所述优化模块输出bert_variant最优模型的步骤还包括:
依次遍历若干所述样本集以及若干层所述编码器,并获取每一所述样本集中的待测样本对应的编码器输出的第一特征向量、每一所述正样本对应的编码器输出的第二特征向量以及每一所述负样本对应的编码器输出的第三特征向量;
计算出所述第一特征向量与所述第二特征向量之间的第一余弦相似度、所述第一特征向量与所述第三特征向量之间的第二余弦相似度,并判断所述第一余弦相似度是否大于所述第二余弦相似度;
若判断到所述第一余弦相似度大于所述第二余弦相似度,则判定预测结果正确;
若判断到所述第一余弦相似度小于所述第二余弦相似度,则判定预测结果错误。
优选的,所述将所述文本数据输入至训练完成的bert_variant最优模型中,以使训练完成的bert_variant最优模型根据所述文本数据输出所述用户的意图的步骤之后,所述方法还包括:
当识别出所述用户的意图时,根据所述意图生成对应的回复指令,所述回复指令包括若干关键词;
响应于所述回复指令,调用出对应的文本数据库,并在所述文本数据库中查找出对应的回复文本,以将所述回复文本实时显示在显示终端。
本发明实施例第二方面提出了一种用户的意图识别系统,所述系统包括:
获取模块,用于获取根据用户的语音指令生成的原始样本数据,并根据所述原始样本数据选取出位于不同时间段的第一样本数据集以及第二样本数据集;
处理模块,用于根据所述第一样本数据集生成对应的选择集,并将bert原始模型以及所述选择集输入至预设优化模块中,以使所述优化模块输出bert_variant最优模型,所述选择集包括正样本以及负样本,所述bert原始模型包括若干层编码器;
训练模块,用于根据所述第二样本数据集生成对应的训练集,并将所述训练集输入至所述bert_variant最优模型中,以对所述bert_variant最优模型进行参数训练;
输出模块,用于当获取到用户实时输入的语音指令时,将所述语音指令转换成对应的文本数据,并将所述文本数据输入至训练完成的bert_variant最优模型中,以使训练完成的bert_variant最优模型根据所述文本数据输出所述用户的意图。
其中,上述用户的意图识别系统中,所述处理模块具体用于:
将所述正样本以及所述负样本均输入至所述bert原始模型中,以对应获取到若干层所述编码器分别输出的若干特征向量;
建立所述正样本和所述负样本与若干所述特征向量之间的索引关系,并根据若干所述特征向量生成对应的特征向量集合,以使所述优化模块根据所述特征向量集合输出所述bert_variant最优模型。
其中,上述用户的意图识别系统中,所述处理模块还具体用于:
当获取到所述第一样本数据集时,识别出所述第一样本数据集中包含的若干用户意图,并根据若干所述用户意图生成对应的若干数据组,其中,同一所述数据组内的两个数据互为所述正样本,不同所述数据组内的任意两个数据互为所述负样本;
根据若干所述数据组生成对应的若干样本集,其中,每一所述样本集均包括一待测样本、所述正样本以及所述负样本,且每一所述样本集均具有唯一性;
对若干所述样本集进行整合处理,以生成所述选择集。
其中,上述用户的意图识别系统中,所述处理模块还具体用于:
依次遍历若干所述样本集以及若干层所述编码器,并获取每一所述样本集中的待测样本对应的编码器输出的第一特征向量、每一所述正样本对应的编码器输出的第二特征向量以及每一所述负样本对应的编码器输出的第三特征向量;
计算出所述第一特征向量与所述第二特征向量之间的第一余弦相似度、所述第一特征向量与所述第三特征向量之间的第二余弦相似度,并判断所述第一余弦相似度是否大于所述第二余弦相似度;
若判断到所述第一余弦相似度大于所述第二余弦相似度,则判定预测结果正确;
若判断到所述第一余弦相似度小于所述第二余弦相似度,则判定预测结果错误。
其中,上述用户的意图识别系统中,所述用户的意图识别系统还包括显示模块,所述显示模块具体用于:
当识别出所述用户的意图时,根据所述意图生成对应的回复指令,所述回复指令包括若干关键词;
响应于所述回复指令,调用出对应的文本数据库,并在所述文本数据库中查找出对应的回复文本,以将所述回复文本实时显示在显示终端。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
图1为本发明第一实施例提供的用户的意图识别方法的流程图;
图2为本发明第二实施例提供的用户的意图识别系统的结构框图。
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的若干实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。
需要说明的是,当元件被称为“固设于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
由于现有技术需要将用户的样本数据依次传输至模型内部的各个编码器中,再最终得到预测结果,在此过程中,所需耗费的推理时间较长,而语音外呼是一个和用户实时交互的过程,从而较高的推理时延会增加用户的等待时间,进而大幅降低了用户的交互体验。
请参阅图1,所示为本发明第一实施例提供的用户的意图识别方法,本实施例提供的用户的意图识别方法能够在保证bert原始模型识别准确率的前提下,有效的降低推理时延,使之更加适用于实时交互场景,从而大幅缩短了推理的时间,提升了用户的使用体验,适用于大范围的推广与使用。
具体的,本实施例提供的用户的意图识别方法具体包括以下步骤:
步骤S10,获取根据用户的语音指令生成的原始样本数据,并根据所述原始样本数据选取出位于不同时间段的第一样本数据集以及第二样本数据集;
具体的,在本实施例中,首先需要说明的是,本实施例提供的用户的意图识别方法具体应用在车机系统、音箱以及智能手机等可以与用户进行语音交互的设备中,用于根据用户发出的语音指令执行对应的动作,以方便人们的生活。
另外,在本实施例中,还需要指出的是,本实施例提供的用户的意图识别方法是基于设置在后台的识别服务器实施的,与此同时,在该识别服务器的内部预先设置有若干算法以及模型,从而能够有效的提升用户意图的识别效率,以缩短用户的等待时间,对应提升用户的使用体验。
因此,在本步骤中,需要说明的是,本步骤首先通过上述识别服务器获取到用户在一段时间内已经发出的语音指令所对应生成的原始样本数据,优选的,在本实施例中,可以获取用户在一年时间内已经发出的语音指令所对应生成的原始样本数据。
在此基础之上,上述识别服务器根据实时获取到的原始样本数据选取出位于不同时间段的第一样本数据集以及第二样本数据集,优选的,在本实施例中,该第一样本数据集可以为1-6月的数据,对应的,该第二样本数据集可以为7-12月的数据。
步骤S20,根据所述第一样本数据集生成对应的选择集,并将bert原始模型以及所述选择集输入至预设优化模块中,以使所述优化模块输出bert_variant最优模型,所述选择集包括正样本以及负样本,所述bert原始模型包括若干层编码器;
进一步的,在本步骤中,需要说明的是,上述识别服务器在获取到第一样本数据集以及第二样本数据集之后,当前识别服务器会调用出其内部预先设置好的bert原始模型,以及预先设置好的优化模块。在此基础之上,当前识别服务器根据上述第一样本数据集生成对应的选择集,与此同时,将上述bert原始模型以及当前选择集一起输入至上述优化模块中,从而能够使该优化模块基于当前选择集对当前bert原始模型进行优化处理,以最终使该优化模块输出bert_variant最优模型。
其中,在本步骤中,需要指出的是,上述根据所述第一样本数据集生成对应的选择集的步骤包括:
具体的,在本步骤中,需要说明的是,当上述识别服务器获取到上述第一样本数据集时,当前识别服务器会立即识别出当前第一样本数据集中包含的若干用户意图,并根据若干用户意图生成对应的若干数据组,其中,同一所述数据组内的两个数据互为所述正样本,不同所述数据组内的任意两个数据互为所述负样本;进一步的,根据若干所述数据组生成对应的若干样本集,其中,每一所述样本集均包括一待测样本、所述正样本以及所述负样本,且每一所述样本集均具有唯一性;最后对若干所述样本集进行整合处理,以生成所述选择集。
进一步的,在本步骤中,需要指出的是,上述将bert原始模型以及所述选择集输入至预设优化模块中,以使所述优化模块输出bert_variant最优模型的步骤包括:
上述识别服务器会立即将上述正样本以及上述负样本均输入至上述bert原始模型中,以对应获取到若干层所述编码器分别输出的若干特征向量;
进一步的,建立所述正样本和所述负样本与若干所述特征向量之间的索引关系,并根据若干所述特征向量生成对应的特征向量集合,以使所述优化模块根据所述特征向量集合输出所述bert_variant最优模型。
具体的,在本步骤中,还需要指出的是,上述将bert原始模型以及所述选择集输入至预设优化模块中,以使所述优化模块输出bert_variant最优模型的步骤还包括:
依次遍历若干所述样本集以及若干层所述编码器,并获取每一所述样本集中的待测样本对应的编码器输出的第一特征向量、每一所述正样本对应的编码器输出的第二特征向量以及每一所述负样本对应的编码器输出的第三特征向量;
计算出所述第一特征向量与所述第二特征向量之间的第一余弦相似度、所述第一特征向量与所述第三特征向量之间的第二余弦相似度,并判断所述第一余弦相似度是否大于所述第二余弦相似度;
若判断到所述第一余弦相似度大于所述第二余弦相似度,则判定预测结果正确;
若判断到所述第一余弦相似度小于所述第二余弦相似度,则判定预测结果错误。
步骤S30,根据所述第二样本数据集生成对应的训练集,并将所述训练集输入至所述bert_variant最优模型中,以对所述bert_variant最优模型进行参数训练;
具体的,在本步骤中,需要说明的是,当上述识别服务器获取到上述第二样本数据集之后,当前识别服务器会立即根据当前第二样本数据集生成对应的训练集,与此同时,将该训练集实时输入至上述bert_variant最优模型中,以实时对该bert_variant最优模型进行参数训练。
步骤S40,当获取到用户实时输入的语音指令时,将所述语音指令转换成对应的文本数据,并将所述文本数据输入至训练完成的bert_variant最优模型中,以使训练完成的bert_variant最优模型根据所述文本数据输出所述用户的意图。
最后,在本步骤中,需要说明的是,在实际的使用过程中,当上述识别服务器获取到用户实时输入的语音指令时,当前识别服务器会立即将接收到的语音指令转换成对应的文本数据,与此同时,将实时转换好的文本数据传输至上述训练完成的bert_variant最优模型中,以最终使该训练完成的bert_variant最优模型根据实时接收到的文本数据输出当前用户的意图。
另外,在本实施例中,还需要指出的是,上述将所述文本数据输入至训练完成的bert_variant最优模型中,以使训练完成的bert_variant最优模型根据所述文本数据输出所述用户的意图的步骤之后,该方法还包括:
当识别出所述用户的意图时,根据所述意图生成对应的回复指令,所述回复指令包括若干关键词;
响应于所述回复指令,调用出对应的文本数据库,并在所述文本数据库中查找出对应的回复文本,以将所述回复文本实时显示在显示终端。
另外,在本实施例中,为了便于理解,具体以欠费催缴语音外呼业务场景为例,进行详细说明,其中,将该场景下的分类意图简化为三大类:同意缴费(agree)、拒绝缴费(refuse)、已经缴费(already)。
业务数据部分属性举例如表1所示:
表1
进一步的,将准备好的原始样本数据按意图进行分组,其中,同一组内的任意两个数据样本互为正样本,不同组内的任意两个数据样本互为负样本;然后,从一个数据组中选择组内一条数据作为待测样本(e),随机选择当前组内的另一样本作为正样本(e_p),再在其它组内分别各选出一个样本作为负样本(e_n_i,i为组号),这样就组成了选择集中的一条数据:<e, e_p, e_n_1, e_n_2>,举例:<“我上午已经交了呀”, “我儿子帮我交好了”,“嗯好的,明天交”,“没钱,交不起了”>;最后,循环遍历每个数据组的每个样本,丢弃与已经构造好的选择数据重复了的组合,只保留未重复的组合,最终形成选择集。
在此基础之上,选择bert原始模型。如bert base版(12 layers,110M 参数)、bertlarge版(24 layers,340M参数)等等,优选的,在本实施例中,选择有24层的bert large版为例。
根据上述步骤可知,每条数据的格式为:(待测样本,正样本,负样本1,...,负样本L-1),参数化表示为(e, e_p, e_n_1, ..., e_n_L-1), L为总意图类别数。如果不符合,则返回重制。
将选择集中的每条数据的每个样本均输入至bert原始模型中,以获取每层编码器输出的特征向量,再建立样本和特征向量之间的索引,以便访问,并缓存以上特征向量集合,得到vec_Cache。部分举例如表2所示:
表2
从低到高低遍历每层编码器,其索引记作encoder_i,i = [1,2,..., 24]。
遍历选择集中的每条数据 data_j,j= [1, 2, ..., select_set_size],select_set_size为选择集的数据量。
获取数据data_j 中的待测样本 e 对应的第 i-th 层编码器输出的特征向量 e_vector_i;获取数据 data_j 中的正样本 e_p 对应的第 i-th 层编码器输出的特征向量e_p_vector_i;获取数据 data_j中的每条负样本 e_n_k 对应的第 i-th 层编码器输出的特征向量 e_n_k_vector_i,k = [1, ..., L-1]。
计算待测样本 e 的特征向量与 data_j 中剩余的每个样本的特征向量的余弦相似度:cos(e_vector_i, e_p_vector_i);cos(e_vector_i, e_n_k_vector_i);k = [1,..., L-1]。
比较相似度,更新预测结果计数。如果待测样本与正样本之间的相似度,不小于待测样本与任何一个负样本之间的相似度,那么,模型预测正确的情况计数加1,否则,模型预测错误的情况计数加1。
计算正确率和层数开销性价比。具体的,计算仅使用第i层编码器的特征输出时,模型的正确率i-th-accuracy =预测正确计数/选择集总样本量。计算仅使用第i层编码器的特征输出时,性价比i-th-xjb = i-th-accuracy / i。
举例说明,如果仅使用第4层编码器输出的特征向量,在选择集为10000条时正确地预测了其中3500条,那么此时,模型的正确率4-th-accuracy = 3500 / 10000 = 0.35,模型性价比4-th-xjb = 0.35 / 4 = 0.0875。
保存上述步骤中遍历的每一层编码器的评价结果: <i-th-accuracy, i-th-xjb>, i = [1,2,..., 24]。
分析上述步骤保存的编码器的评价结果的分布函数fun(x=编码器id,y=仅用该编码器时的正确率,z=对应的性价比)。选出正确率不小于人工预设阈值 acc-threshold(即最低预期值,比如0.80,在分布函数的y轴最大值在0.82附近时)的所有编码器层数id,存于encoder_id_list,encoder_id_list中的编码层id按性价比(xjb) 降序排序,如果有超过3个以上的单个编码器对应的阈值都超过了人工阈值(如0.80),那么取前三个 id值作为“胜出”的编码器,进入候选编码器,记作 top_3_candidate_ids;不超过3个则全保留作为候选编码器。
遍历上述步骤中得到的所有候选编码器的索引encoder_m,(m from top_3_candidate_ids)。
搜索与层数低于encoder_m的编码器进行融合的融合策略。遍历每个融合策略integration, integration = [平均融合mean,拼接融合cat]。前者是求和sum再平均mean策略,即两个特征向量v1和v2的各对应位置数值相加再平均,得到的融合特征向量v3的维度和v1、v2一样;而后者则是在v1拼接v2,得到的v3长度增加1倍。举例说明:
V1 = [0.1,0.2,0.3];v2 = [0.4,0.5,0.6];
求和sum再平均mean策略:v3 = [0.25, 0.35, 0.45];
拼接cat策略:v3 = [0.1,0.2,0.3,0.4,0.5,0.6];
从低到高地遍历每个编码器索引 encoder_n,n=[1,2, ..., m-1],将第 n-th 层编码器输出的特征向量和第 m-th的特征向量执行融合策略integration,在选择集上,评价计算integration_n_m 策略的正确率 integration_n_m_ acc。比如,cat_2_12_acc =0.76 表示将bert模型的第2层编码器输出的特征向量和第12层输出的特征向量进行拼接,得拼接后的语义特征向量,使用该特征向量在选择集上去执行cos相似度计算,并得到预测正确率为0.76。
保存上述步骤中所有尝试使用的策略组合的正确率,记作 integration_n_m_acc_list。
另外,上述步骤中获得的top_3_candidate_ids中各id对应的正确率保存为single_m_acc_list。
比较并获取以上两个列表(list)中的最大的正确率(max-acc),及其对应的策略encoders_use_strategy。
举例:encoders_use_strategy = single[m],它代表仅使用bert模型的第m层编码层输出的特征向量作为最终特征向量。
或者:encoders_use_strategy = sum[n, m],它代表使用bert模型的第n层和第m层编码层输出的特征向量求和再取平均后,作为最终特征向量。
或者:encoders_use_strategy = cat[n, m],它代表使用bert模型的第n层和第m层编码层输出的特征向量拼接后,作为最终特征向量。
根据上述步骤中获得的最大正确率对应的使用策略encoders_use_strategy 去搭建最优变种模型(bert_variant)。
举例说明:encoders_use_strategy = sum[4, 13]时,加载bert模型时,从低到高仅需加载至第13层编码器的参数,第14层到第24层的参数可以丢弃不用,然后,通过编写程序将4th-layer的输出和13th-layer的输出传入一个按对应位求和并取平均值的函数,将该函数返回的维度不变的融合特征向量作为最终的用户文本语义表征,用于后续计算cos相似度,保存该代码程序供后续训练和推理使用。
使用时,通过首先获取根据用户的语音指令生成的原始样本数据,并根据该原始样本数据选取出位于不同时间段的第一样本数据集以及第二样本数据集;再根据第一样本数据集生成对应的选择集,并将bert原始模型以及选择集输入至预设优化模块中,以使优化模块输出bert_variant最优模型,在此基础之上,根据第二样本数据集生成对应的训练集,并将训练集输入至上述bert_variant最优模型中,以对该bert_variant最优模型进行参数训练;最后当获取到用户实时输入的语音指令时,将语音指令转换成对应的文本数据,并将文本数据输入至训练完成的bert_variant最优模型中,以使训练完成的bert_variant最优模型根据当前文本数据输出用户的意图。通过上述方式能够在保证bert原始模型识别准确率的前提下,有效的降低推理时延,使之更加适用于实时交互场景,从而大幅缩短了推理的时间,提升了用户的使用体验,适用于大范围的推广与使用。
需要说明的是,上述的实施过程只是为了说明本申请的可实施性,但这并不代表本申请的用户的意图识别方法只有上述唯一一种实施流程,相反的,只要能够将本申请的用户的意图识别方法实施起来,都可以被纳入本申请的可行实施方案。
综上,本发明上述实施例提供的用户的意图识别方法能够在保证bert原始模型识别准确率的前提下,有效的降低推理时延,使之更加适用于实时交互场景,从而大幅缩短了推理的时间,提升了用户的使用体验,适用于大范围的推广与使用。
请参阅图2,所示为本发明第二实施例提供的用户的意图识别系统,所述系统包括:
获取模块12,用于获取根据用户的语音指令生成的原始样本数据,并根据所述原始样本数据选取出位于不同时间段的第一样本数据集以及第二样本数据集;
处理模块22,用于根据所述第一样本数据集生成对应的选择集,并将bert原始模型以及所述选择集输入至预设优化模块中,以使所述优化模块输出bert_variant最优模型,所述选择集包括正样本以及负样本,所述bert原始模型包括若干层编码器;
训练模块32,用于根据所述第二样本数据集生成对应的训练集,并将所述训练集输入至所述bert_variant最优模型中,以对所述bert_variant最优模型进行参数训练;
输出模块42,用于当获取到用户实时输入的语音指令时,将所述语音指令转换成对应的文本数据,并将所述文本数据输入至训练完成的bert_variant最优模型中,以使训练完成的bert_variant最优模型根据所述文本数据输出所述用户的意图。
其中,上述用户的意图识别系统中,所述处理模块22具体用于:
将所述正样本以及所述负样本均输入至所述bert原始模型中,以对应获取到若干层所述编码器分别输出的若干特征向量;
建立所述正样本和所述负样本与若干所述特征向量之间的索引关系,并根据若干所述特征向量生成对应的特征向量集合,以使所述优化模块根据所述特征向量集合输出所述bert_variant最优模型。
其中,上述用户的意图识别系统中,所述处理模块22还具体用于:
当获取到所述第一样本数据集时,识别出所述第一样本数据集中包含的若干用户意图,并根据若干所述用户意图生成对应的若干数据组,其中,同一所述数据组内的两个数据互为所述正样本,不同所述数据组内的任意两个数据互为所述负样本;
根据若干所述数据组生成对应的若干样本集,其中,每一所述样本集均包括一待测样本、所述正样本以及所述负样本,且每一所述样本集均具有唯一性;
对若干所述样本集进行整合处理,以生成所述选择集。
其中,上述用户的意图识别系统中,所述处理模块22还具体用于:
依次遍历若干所述样本集以及若干层所述编码器,并获取每一所述样本集中的待测样本对应的编码器输出的第一特征向量、每一所述正样本对应的编码器输出的第二特征向量以及每一所述负样本对应的编码器输出的第三特征向量;
计算出所述第一特征向量与所述第二特征向量之间的第一余弦相似度、所述第一特征向量与所述第三特征向量之间的第二余弦相似度,并判断所述第一余弦相似度是否大于所述第二余弦相似度;
若判断到所述第一余弦相似度大于所述第二余弦相似度,则判定预测结果正确;
若判断到所述第一余弦相似度小于所述第二余弦相似度,则判定预测结果错误。
其中,上述用户的意图识别系统中,所述用户的意图识别系统还包括显示模块52,所述显示模块52具体用于:
当识别出所述用户的意图时,根据所述意图生成对应的回复指令,所述回复指令包括若干关键词;
响应于所述回复指令,调用出对应的文本数据库,并在所述文本数据库中查找出对应的回复文本,以将所述回复文本实时显示在显示终端。
综上所述,本发明上述实施例提供的用户的意图识别方法及系统能够在保证bert原始模型识别准确率的前提下,有效的降低推理时延,使之更加适用于实时交互场景,从而大幅缩短了推理的时间,提升了用户的使用体验,适用于大范围的推广与使用。
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (6)
1.一种用户的意图识别方法,其特征在于,所述方法包括:
获取根据用户的语音指令生成的原始样本数据,并根据所述原始样本数据选取出位于不同时间段的第一样本数据集以及第二样本数据集;
根据所述第一样本数据集生成对应的选择集,并将bert原始模型以及所述选择集输入至预设优化模块中,以使所述优化模块输出bert_variant最优模型,所述选择集包括正样本以及负样本,所述bert原始模型包括若干层编码器;
当获取到所述第一样本数据集时,识别出所述第一样本数据集中包含的若干用户意图,并根据若干所述用户意图生成对应的若干数据组,其中,同一所述数据组内的两个数据互为所述正样本,不同所述数据组内的任意两个数据互为所述负样本;
根据若干所述数据组生成对应的若干样本集,其中,每一所述样本集均包括一待测样本、所述正样本以及所述负样本,且每一所述样本集均具有唯一性;
对若干所述样本集进行整合处理,以生成所述选择集;
依次遍历若干所述样本集以及若干层所述编码器,并获取每一所述样本集中的待测样本对应的编码器输出的第一特征向量、每一所述正样本对应的编码器输出的第二特征向量以及每一所述负样本对应的编码器输出的第三特征向量;
计算出所述第一特征向量与所述第二特征向量之间的第一余弦相似度、所述第一特征向量与所述第三特征向量之间的第二余弦相似度,并判断所述第一余弦相似度是否大于所述第二余弦相似度;
若判断到所述第一余弦相似度大于所述第二余弦相似度,则判定预测结果正确;
若判断到所述第一余弦相似度小于所述第二余弦相似度,则判定预测结果错误;
若判定预测结果正确,则模型预测正确计数加1,若判定预测结果错误,则模型预测错误计数加1;
计算各编码器对应的模型预测正确率和层数开销性价比,选取模型预测正确率靠前的若干编码器作为候选编码器并将其按层数开销性价比降序排序;
将比候选编码器层数低的编码器按照预设的融合策略进行融合,并得到若干使用融合策略的模型预测正确率;
将候选编码器对应的模型预测正确率与使用融合策略的模型预测正确率作对比,选取最大的模型预测正确率对应的编码器使用策略构建bert_variant最优模型;
根据所述第二样本数据集生成对应的训练集,并将所述训练集输入至所述bert_variant最优模型中,以对所述bert_variant最优模型进行参数训练;
当获取到用户实时输入的语音指令时,将所述语音指令转换成对应的文本数据,并将所述文本数据输入至训练完成的bert_variant最优模型中,以使训练完成的bert_variant最优模型根据所述文本数据输出所述用户的意图。
2.根据权利要求1所述的用户的意图识别方法,其特征在于,所述将bert原始模型以及所述选择集输入至预设优化模块中,以使所述优化模块输出bert_variant最优模型的步骤包括:
将所述正样本以及所述负样本均输入至所述bert原始模型中,以对应获取到若干层所述编码器分别输出的若干特征向量;
建立所述正样本和所述负样本与若干所述特征向量之间的索引关系,并根据若干所述特征向量生成对应的特征向量集合,以使所述优化模块根据所述特征向量集合输出所述bert_variant最优模型。
3.根据权利要求1所述的用户的意图识别方法,其特征在于,所述将所述文本数据输入至训练完成的bert_variant最优模型中,以使训练完成的bert_variant最优模型根据所述文本数据输出所述用户的意图的步骤之后,所述方法还包括:
当识别出所述用户的意图时,根据所述意图生成对应的回复指令,所述回复指令包括若干关键词;
响应于所述回复指令,调用出对应的文本数据库,并在所述文本数据库中查找出对应的回复文本,以将所述回复文本实时显示在显示终端。
4.一种用户的意图识别系统,其特征在于,所述系统包括:
获取模块,用于获取根据用户的语音指令生成的原始样本数据,并根据所述原始样本数据选取出位于不同时间段的第一样本数据集以及第二样本数据集;
处理模块,用于根据所述第一样本数据集生成对应的选择集,并将bert原始模型以及所述选择集输入至预设优化模块中,以使所述优化模块输出bert_variant最优模型,所述选择集包括正样本以及负样本,所述bert原始模型包括若干层编码器;
当获取到所述第一样本数据集时,识别出所述第一样本数据集中包含的若干用户意图,并根据若干所述用户意图生成对应的若干数据组,其中,同一所述数据组内的两个数据互为所述正样本,不同所述数据组内的任意两个数据互为所述负样本;
根据若干所述数据组生成对应的若干样本集,其中,每一所述样本集均包括一待测样本、所述正样本以及所述负样本,且每一所述样本集均具有唯一性;
对若干所述样本集进行整合处理,以生成所述选择集;
依次遍历若干所述样本集以及若干层所述编码器,并获取每一所述样本集中的待测样本对应的编码器输出的第一特征向量、每一所述正样本对应的编码器输出的第二特征向量以及每一所述负样本对应的编码器输出的第三特征向量;
计算出所述第一特征向量与所述第二特征向量之间的第一余弦相似度、所述第一特征向量与所述第三特征向量之间的第二余弦相似度,并判断所述第一余弦相似度是否大于所述第二余弦相似度;
若判断到所述第一余弦相似度大于所述第二余弦相似度,则判定预测结果正确;
若判断到所述第一余弦相似度小于所述第二余弦相似度,则判定预测结果错误;
若判定预测结果正确,则模型预测正确计数加1,若判定预测结果错误,则模型预测错误计数加1;
计算各编码器对应的模型预测正确率和层数开销性价比,选取模型预测正确率靠前的若干编码器作为候选编码器并将其按层数开销性价比降序排序;
将比候选编码器层数低的编码器按照预设的融合策略进行融合,并得到若干使用融合策略的模型预测正确率;
将候选编码器对应的模型预测正确率与使用融合策略的模型预测正确率作对比,选取最大的模型预测正确率对应的编码器使用策略构建bert_variant最优模型;
训练模块,用于根据所述第二样本数据集生成对应的训练集,并将所述训练集输入至所述bert_variant最优模型中,以对所述bert_variant最优模型进行参数训练;
输出模块,用于当获取到用户实时输入的语音指令时,将所述语音指令转换成对应的文本数据,并将所述文本数据输入至训练完成的bert_variant最优模型中,以使训练完成的bert_variant最优模型根据所述文本数据输出所述用户的意图。
5.根据权利要求4所述的用户的意图识别系统,其特征在于,所述处理模块具体用于:
将所述正样本以及所述负样本均输入至所述bert原始模型中,以对应获取到若干层所述编码器分别输出的若干特征向量;
建立所述正样本和所述负样本与若干所述特征向量之间的索引关系,并根据若干所述特征向量生成对应的特征向量集合,以使所述优化模块根据所述特征向量集合输出所述bert_variant最优模型。
6.根据权利要求4所述的用户的意图识别系统,其特征在于,所述用户的意图识别系统还包括显示模块,所述显示模块具体用于:
当识别出所述用户的意图时,根据所述意图生成对应的回复指令,所述回复指令包括若干关键词;
响应于所述回复指令,调用出对应的文本数据库,并在所述文本数据库中查找出对应的回复文本,以将所述回复文本实时显示在显示终端。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211270028.8A CN115329063B (zh) | 2022-10-18 | 2022-10-18 | 一种用户的意图识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211270028.8A CN115329063B (zh) | 2022-10-18 | 2022-10-18 | 一种用户的意图识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115329063A CN115329063A (zh) | 2022-11-11 |
CN115329063B true CN115329063B (zh) | 2023-01-24 |
Family
ID=83915470
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211270028.8A Active CN115329063B (zh) | 2022-10-18 | 2022-10-18 | 一种用户的意图识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115329063B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113268593A (zh) * | 2021-05-18 | 2021-08-17 | Oppo广东移动通信有限公司 | 意图分类和模型的训练方法、装置、终端及存储介质 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109615080B (zh) * | 2018-09-20 | 2020-05-26 | 阿里巴巴集团控股有限公司 | 无监督模型评估方法、装置、服务器及可读存储介质 |
CN110795939A (zh) * | 2019-10-15 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置 |
CN111523324B (zh) * | 2020-03-18 | 2024-01-26 | 大箴(杭州)科技有限公司 | 命名实体识别模型的训练方法及装置 |
CN111553479B (zh) * | 2020-05-13 | 2023-11-03 | 鼎富智能科技有限公司 | 一种模型蒸馏方法、文本检索方法及装置 |
CN112328748A (zh) * | 2020-11-11 | 2021-02-05 | 上海昌投网络科技有限公司 | 一种用于保险配置意图识别的方法 |
CN112347763A (zh) * | 2020-12-03 | 2021-02-09 | 云知声智能科技股份有限公司 | 针对预训练语言模型bert的知识蒸馏方法、装置及系统 |
CN112541739B (zh) * | 2020-12-15 | 2022-04-15 | 平安科技(深圳)有限公司 | 问答意图分类模型的测试方法、装置、设备及介质 |
CN113221530B (zh) * | 2021-04-19 | 2024-02-13 | 杭州火石数智科技有限公司 | 一种文本相似度匹配方法、装置、计算机设备和储存介质 |
CN113360616A (zh) * | 2021-06-04 | 2021-09-07 | 科大讯飞股份有限公司 | 自动问答处理方法、装置、设备及存储介质 |
CN113657249B (zh) * | 2021-08-13 | 2024-05-17 | 北京神州数码云科信息技术有限公司 | 训练方法、预测方法、装置、电子设备以及存储介质 |
CN113901289A (zh) * | 2021-10-08 | 2022-01-07 | 新华智云科技有限公司 | 一种基于无监督学习的推荐方法及系统 |
CN114282513A (zh) * | 2021-12-27 | 2022-04-05 | 同程网络科技股份有限公司 | 文本语义相似度的匹配方法、系统、智能终端及存储介质 |
CN114547267A (zh) * | 2022-02-22 | 2022-05-27 | 武汉纺织大学 | 智能问答模型的生成方法、装置、计算设备和存储介质 |
CN114662601A (zh) * | 2022-03-25 | 2022-06-24 | 鼎富智能科技有限公司 | 基于正负样本的意图分类模型训练方法及装置 |
CN114997174B (zh) * | 2022-05-13 | 2023-11-17 | 平安科技(深圳)有限公司 | 意图识别模型训练及语音意图识别方法、装置和相关设备 |
CN114818703B (zh) * | 2022-06-28 | 2022-09-16 | 珠海金智维信息科技有限公司 | 基于BERT语言模型和TextCNN模型的多意图识别方法及系统 |
-
2022
- 2022-10-18 CN CN202211270028.8A patent/CN115329063B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113268593A (zh) * | 2021-05-18 | 2021-08-17 | Oppo广东移动通信有限公司 | 意图分类和模型的训练方法、装置、终端及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115329063A (zh) | 2022-11-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111046132A (zh) | 一种检索多轮对话的客服问答处理方法及其系统 | |
CN110147726A (zh) | 业务质检方法和装置、存储介质及电子装置 | |
CN109299245B (zh) | 知识点召回的方法和装置 | |
CN104299623B (zh) | 语音应用中用于自动确认和消歧模块的方法和系统 | |
CN110399472B (zh) | 面试提问提示方法、装置、计算机设备及存储介质 | |
CN111651474A (zh) | 一种自然语言至结构化查询语言的转换方法及系统 | |
CN113806503A (zh) | 一种对话融合方法和装置及设备 | |
CN112364622B (zh) | 对话文本分析方法、装置、电子装置及存储介质 | |
CN110955770A (zh) | 一种智能对话系统 | |
CN111625636B (zh) | 一种人机对话的拒绝识别方法、装置、设备、介质 | |
CN112668333A (zh) | 命名实体的识别方法和设备、以及计算机可读存储介质 | |
CN113870863B (zh) | 声纹识别方法及装置、存储介质及电子设备 | |
CN111563161A (zh) | 一种语句识别方法、语句识别装置及智能设备 | |
CN116662555B (zh) | 一种请求文本处理方法、装置、电子设备及存储介质 | |
CN115329063B (zh) | 一种用户的意图识别方法及系统 | |
CN115617975B (zh) | 针对少样本多轮对话的意图识别方法及装置 | |
CN112287084A (zh) | 一种基于集成学习的问答方法及系统 | |
CN115099242B (zh) | 意图识别方法、系统、计算机及可读存储介质 | |
CN116186259A (zh) | 一种会话线索评分方法、装置、设备及存储介质 | |
CN115064168A (zh) | 语音交互方法、服务器和存储介质 | |
CN114116975A (zh) | 一种多意图识别方法及系统 | |
CN116775848B (zh) | 生成对话信息的控制方法、装置、计算设备及存储介质 | |
CN116451678B (zh) | 数据关系识别及数据表整合方法 | |
CN116821691B (zh) | 基于任务融合的训练情感识别模型的方法和装置 | |
CN113377915B (zh) | 对话篇章解析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |