CN115759070A - 一种意图识别的方法、装置、存储介质及电子设备 - Google Patents
一种意图识别的方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN115759070A CN115759070A CN202211400814.5A CN202211400814A CN115759070A CN 115759070 A CN115759070 A CN 115759070A CN 202211400814 A CN202211400814 A CN 202211400814A CN 115759070 A CN115759070 A CN 115759070A
- Authority
- CN
- China
- Prior art keywords
- word
- intention
- target
- determining
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Character Discrimination (AREA)
Abstract
本说明书公开了一种意图识别的方法、装置、存储介质及电子设备。对通过意图识别模型识别出目标意图的目标文本进行分词,针对分词后的每个词语,将该词语从目标文本中删除,得到更新文本,并通过该意图识别模型,确定该词语对应的第一识别结果,根据目标意图和第一识别结果确定该词语的对识别出目标意图的贡献度,在所述若干词语中确定停用词及候选词,根据停用词的贡献度及候选词的贡献度,从候选词中确定识别出目标意图的关键词并进行展示。通过确定停用词的贡献度及候选词的贡献度,从候选词中确定对识别出目标意图起关键作用的候选词,作为关键词,在输出目标意图及关键词,可为模型输出结果提供解释依据,提高了模型输出结果的可信度。
Description
技术领域
本说明书涉及机器学习领域,尤其涉及一种意图识别的方法、装置、存储介质及电子设备。
背景技术
随着互联网技术的发展,用户对自己的隐私数据越来越关注,机器学习应用的场景越来越多,而机器学习的特点是其可解释性较低。其中,以识别用户意图的机器学习模型为例,当模型提供方对外提供基于意图识别模型的服务时,该服务的使用方难以确定模型输出结果是否准确。
基于此,本说明书提供了一种意图识别的方法。
发明内容
本说明书提供一种意图识别的方法、装置、存储介质及电子设备,以至少部分的解决现有技术存在的上述问题。
本说明书采用下述技术方案:
本说明书提供了一种意图识别方法,包括:
确定经意图识别模型识别得到目标意图的目标文本,并对所述目标文本进行分词,得到若干词语;
针对每个词语,将该词语从所述目标文本中删除,得到更新文本,将所述更新文本输入至所述意图识别模型中,确定所述意图识别模型输出的第一识别结果,作为该词语对应的第一识别结果;
根据所述目标意图以及该词语对应的第一识别结果,确定该词语对识别得到的所述目标意图的贡献度;
在所述若干词语中确定停用词以及候选词;根据所述停用词的贡献度以及所述候选词的贡献度,从所述候选词中确定关键词;
将所述目标意图以及所述关键词作为识别结果输出,所述关键词用于表征得到所述目标意图的依据。
可选地,确定经意图识别模型识别得到目标意图的目标文本,具体包括:
接收携带目标文本的识别请求;
将所述目标文本输入意图识别模型,根据所述意图识别模型输出的各第二识别结果的概率,确定目标意图以及所述目标意图的概率。
可选地,将所述目标文本输入意图识别模型,得到目标意图以及所述目标意图对应的概率,具体包括:
将所述目标文本输入意图识别模型,确定所述意图识别模型输出的各第二识别结果及其概率;
从第二识别结果中,确定第二识别结果的概率不小于预设概率阈值的第二识别结果,作为目标意图。
可选地,将所述更新文本输入至所述意图识别模型中,确定所述意图识别模型输出的第一识别结果,具体包括:
将所述更新文本输入至所述意图识别模型中,从所述意图识别模型输出的各第一识别结果中,确定与所述目标意图相同的第一识别结果及其概率。
可选地,根据所述目标意图以及该词语对应的第一识别结果,确定该词语对识别得到的所述目标意图的贡献度,具体包括:
根据该词语对应的第一识别结果的概率与所述目标意图的概率之间的差值,确定该词语对识别得到的所述目标意图的贡献度。
可选地,根据所述停用词的贡献度以及所述候选词的贡献度,从所述候选词中确定关键词,具体包括:
根据各停用词的贡献度以及所述候选词的贡献度,确定关键词的贡献度阈值;
根据所述贡献度阈值,从候选词中确定贡献度大于所述贡献度阈值的候选词,作为关键词。
可选地,展示所述关键词,具体包括:
当确定出多个关键词时,按照各关键词的贡献度从大到小顺序,选择指定数目的关键词进行展示。
可选地,在所述若干词语中确定停用词以及候选词具体包括:
针对分词得到的每个词语,将该词语与所述停用词表进行匹配,若该词语与所述停用词表中的任一词匹配成功,则确定该词语为停用词,否则确定该词语为候选词。
本说明书提供了一种意图识别装置,包括:
分词模块,用于确定经意图识别模型识别得到目标意图的目标文本,并对所述目标文本进行分词,得到若干词语;
识别模块,用于针对每个词语,将该词语从所述目标文本中删除,得到更新文本,将所述更新文本输入至所述意图识别模型中,确定所述意图识别模型输出的第一识别结果,作为该词语对应的第一识别结果;
贡献度确定模块,用于根据所述目标意图以及该词语对应的第一识别结果,确定该词语对识别得到的所述目标意图的贡献度;
匹配模块,用于在所述若干词语中确定停用词以及候选词;
关键词确定模块,用于根据所述停用词的贡献度以及所述候选词的贡献度,从所述候选词中确定关键词;
展示模块,用于将所述目标意图以及所述关键词作为识别结果输出,所述关键词用于表征得到所述目标意图的依据。
可选的,所述分词模块,具体用于接收携带目标文本的识别请求;将所述目标文本输入意图识别模型,根据所述意图识别模型输出的各第二识别结果的概率,确定目标意图以及所述目标意图的概率。
可选地,所述分词模块,具体用于将所述目标文本输入意图识别模型,确定所述意图识别模型输出的各第二识别结果及其概率;从第二识别结果中,确定第二识别结果的概率不小于预设概率阈值的第二识别结果,作为目标意图。
可选地,所述识别模块,具体用于将所述更新文本输入至所述意图识别模型中,从所述意图识别模型输出的各第一识别结果中,确定与所述目标意图相同的第一识别结果及其概率。
可选地,所述贡献度确定模块,具体用于根据该词语对应的第一识别结果的概率与所述目标意图的概率之间的差值,确定该词语对识别得到的所述目标意图的贡献度。
可选地,所述匹配模块,具体用于针对分词得到的每个词语,将该词语与所述停用词表进行匹配,若该词语与所述停用词表中的任一词匹配成功,则确定该词语为停用词,否则确定该词语为候选词。
可选地,所述关键词确定模块,具体用于根据各停用词的贡献度以及所述候选词的贡献度,确定关键词的贡献度阈值;根据所述贡献度阈值,从候选词中确定贡献度大于所述贡献度阈值的候选词,作为关键词。
可选地,所述展示模块,具体用于当确定出多个关键词时,按照各关键词的贡献度从大到小顺序,选择指定数目的关键词进行展示。
本说明书提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述意图识别方法。
本说明书提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述意图识别方法。
本说明书采用的上述至少一个技术方案能够达到以下有益效果:
在本说明书提供的意图识别方法中,对通过意图识别模型识别出目标意图的目标文本进行分词,针对分词后的每个词语,将该词语从目标文本中删除,得到更新文本,并通过该意图识别模型,确定该词语对应的第一识别结果,根据目标意图和第一识别结果确定该词语的对识别出目标意图的贡献度,在所述若干词语中确定停用词及候选词,根据停用词的贡献度及候选词的贡献度,从候选词中确定识别出目标意图的关键词并进行展示。
从上述方法中可以看出,本方法通过意图识别的方法为模型输出结果提供解释依据,提高了模型输出结果的可信度。
附图说明
此处所说明的附图用来提供对本说明书的进一步理解,构成本说明书的一部分,本说明书的示意性实施例及其说明用于解释本说明书,并不构成对本说明书的不当限定。在附
图中:
图1为本说明书中一种意图识别方法的流程示意图;
图2为本说明书提供的插入停用词的示意图;
图3为本说明书中一种意图识别装置的示意图;
图4为本说明书提供的对应于图1的电子设备示意图。
具体实施方式
为使本说明书的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
以下结合附图,详细说明本说明书各实施例提供的技术方案。
图1为本说明书提供的一种意图识别方法的流程示意图,具体包括以下步骤:
S100:确定经意图识别模型识别得到目标意图的目标文本,并对所述目标文本进行分词,得到若干词语。
目前,基于模型对文本进行意图识别,作为一种成熟的技术在各领域中广泛应用。例如,在风控领域中,可以从用户信息中确定用户评论,用户与客服的交互内容等文本,通过意图识别模型识别出用户意图,再基于用户意图进行风险控制等等。
而随着市场的发展以及业务领域的不断细分,服务提供方可能自身没有某些技术方向的技术储备,但是又需要使用这些技术,因此出现了为服务提供方提供技术服务的第三方。由于第三方与服务提供方缺乏信任基础,因此还需要“证明”其提供的技术服务是可信的。
其中,对于意图识别服务来说,需要“证明”意图识别模型的识别结果,确实是基于输入的文本得到。
在本说明书一个或多个实施例中,由于通过模型对文本进行意图识别所需的资源较多,因此通常有服务器进行文本的意图识别,因此本说明书中也可由服务器执行该意图识别的过程。
具体的,该服务器可接收待进行意图识别的目标文本,并将该目标文本输入训练好的意图识别模型中,确定该意图识别模型输出的目标意图。此外,由于意图识别通常是在很多意图中确定一个或多个目标意图,因此意图识别模型通常是一种多分类器的模型。
以该意图识别模型为多分类器为例,该意图识别模型可输出每个待选意图对应的第二识别结果及其概率。确定概率高于预设概率阈值的第二识别结果所对应的待选意图为目标意图。
当然,该意图识别模型也可以是二分类器,例如,假设该意图识别模型用于风控领域中的防欺诈场景,则该意图识别模型可以仅用于识别输入的目标文本是否有欺诈意图。则该意图识别模型输出的第二识别结果可以包括:有欺诈意图以及没有欺诈意图,并且该意图识别模型还可以输出这两个第二识别结果的概率。
其中,第二识别结果的概率可表示第二识别结果的置信度,因此可根据置信度高于预设概率阈值的第二识别结果,确定模型识别出的目标意图。
由于意图识别模型是基于目标文本中的词语,输出目标意图,而其中不同的词语对于识别得到目标意图的贡献度是不同的。为了确定目标文本中,对识别得到目标意图的贡献度较高词语(即,关键词),以作为识别结果展示。在本说明书一个或多个实施例中,该服务器还可对目标文本进行分词,确定目标文本包含的各词语。
当然,该服务器具体采用何种分词方法,本说明书不做限制,可根据需要设置。
S102:针对每个词语,将该词语从所述目标文本中删除,得到更新文本,将所述更新文本输入至所述意图识别模型中,确定所述意图识别模型输出的第一识别结果,作为该词语对应的第一识别结果。
为了确定目标文本中每个词语对意图识别模型输出的目标意图的影响,可针对每个词语,将该词语从目标文本中删除得到更新文本。由于更新文本与目标文本的差异仅为该词语,所以可以通过意图识别模型对该更新文本进行意图识别,通过此次输出的识别结果与目标意图,来确定该词语对意图识别模型输出的目标意图的重要程度,即贡献度。
具体的,该服务器可针对每个词语,将该词语从目标文本中删除,确定更新文本。之后,将该词语对应的更新文本输入值该意图识别模型中,得到第一识别结果,该第一识别结果为该词语对应的识别结果。
另外,若目标文本的字数较少,则删除词语可能会导致从文本长度上,更新文本就与目标文本差异较大,使得意图识别模型输出第一识别结果差异较大。例如,假设目标文本只有5个字,那么删掉一个2个字的词语,则更新文本本身就与目标文本差异较大,意图识别模型输出第一识别结果与目标意图的差异,就不仅仅是词语本身带来的了,而还有文本长度等因素带来的差异。
为了减少删除词语带来的噪声,在本说明书一个或多个实施例中,该服务器还可以先向目标文本中插入预设的停用词,以增加目标文本的长度,减少删除词语带来的噪声。
具体的,可在分词之间插入预设的停用词,其中,停用词为不影响意图识别结果的词语或字符串。但由于在目标文本中是随机插入停用词的,因此插入停用词后得到的更新本文可能存在语句不通顺的问题,也会带来干扰噪声。
当然,由于插入停用词的目的是,减少由于字数差异带来的识别结果的差异,因此插入停用词后的更新文本的字数应与目标文本的字数接近。于是,在本说明书一个或多个实施例中,该服务器可根据删除的词语的字数,确定插入停用词的字数,使更新文本的字数与目标文本的字数一致。
另外,若要满足插入停用词的后的更新文本的字数与目标文本的字数一致,可能会限制插入停用词的选择范围。例如,删除的词语的字数为2个字,则3个字的停用词就不再选择插入的范围内。而更新文本的字数与目标文本的字数只要差异足够小,对于识别结果的影响也较小,因此在本说明书一个或多个实施例中,该服务器还可先在分词之间插入预设的停用词,判断插入停用词后得到的更新本文的字数与目标文本的字数差值是否大于预设数量,若是,则所述差值和所述预设数量之差,确定需要删除的插入词的字数,并删除对应字数的停用词。例如,目标文本的字数为15,预设数量为4,服务器插入停用词后得到的更新本文的字数为21,插入停用词后得到的更新本文的字数与目标文本的字数差值为6,大于预设数量,确定出需要删除的插入词的字数为2,则删除一个字数为2的停用词。
或者,该服务器还可确定未插入停用词的更新文本的字数与目标文本的字数,并根据所述预设数量,确定插入停用词的字数范围。并根据所述字数范围,确定插入的停用词。例如,未插入停用词的更新文本的字数为5,目标文本的字数为10,预设数量为3,则插入停用词的字数范围为[2,8],该服务器可在该字数范围内对目标文本插入停用词。
图2为本说明书提供的插入停用词的示意图。需要说明的是,在图2中省略了部分更新文本,以及通过意图识别模型确定的部分更新文本的第一识别结果及概率。
如图2所示,目标文本为“我最近花了一个月工资买了一辆车”,通过分词得到的分词结果为“我”/“最近”/“花了”/“一个月”/“工资”/“买了”/“一辆车”,之后再插入停用词“的”/“,”/“在”,得到语句“我最近的花了一个月,工资买了在一辆车”。之后针对每个分词,在插入停用词的语句中删除该分词对应的词语,得到更新文本。最后通过意图识别模型,确定每个更新文本对应的第一识别结果及概率。
进一步地,以图2中一个更新文本为例,在目标文本中随机插入停用词后的更新文本为“我最近的花了一个月,工资买了在一辆车”。由于停用词是插入到目标文本中的,因此插入词可能会导致语句不通顺,进而使得该更新文本进行意图识别的结果不准确。最终使确定出的关键词也不准确。
在本说明书一个或多个实施例中,为了避免由于语句不通顺,导致确定关键词不准确的这种情况出现,该服务器可以在目标文本的起始位置或结尾位置插入停用词,从而避免语句不通顺导致的识别结果不准确的问题。例如,目标文本为“我最近买了一辆车”,服务器要插入的停用词为“哎呦”,则插入停用词后得到的更新本文可为“哎呦我最近买了一辆车”或“我最近买了一辆车哎呦”,在目标文本的起始位置或结尾位置插入停用词得到的更新文本并不存在语句不通顺的问题。
进一步地,针对每个词语,除了删除该词语以得到更新文本以外,该服务器还可以对该词语进行替换,得到更新文本。
具体的,服务器针对每个词语,可将该词语替换为停用词,得到更新文本,再进行后续操作。例如,目标文本分词后为“我/最近/花了/一个月/工资/买了/一辆车”,针对“工资”这一词语,将该词语替换为字符串AB,得到更新文本“我最近花了一个月AB买了一辆车”,而该字符串在更新文本中并不存在实际意义,也就不会影响将更新文本输入意图识别模型得到的第一识别结果。
当然,即使是对词语进行替换,得到更新文本,该服务器也可插入停用词,增加更新文本的内容丰富程度,本说明书对此不作限制。在本说明书一个或多个实施例中,由于本说明书是根据该目标意图及概率与该目标意图相同的第一识别结果及其概率,确定出每个词语对意图识别模型输出的目标意图的重要程度。所以,先从该意图识别模型输出的各第一识别结果中,确定与该目标意图相同的第一识别结果及其概率。例如,目标文本为“我最近花了一个月工资买了一辆车”,第二识别结果及概率为:贷款70%、骗钱25%、赌博5%,预设概率阈值为65%,则目标意图及其概率为贷款70%。更新文本为“我最近花了一个月工资买了XXX”,第一识别结果及概率为:贷款21%、骗钱75%、赌博4%,则与该目标意图相同的第一识别结果及其概率是贷款21%。
S104:根据所述目标意图以及该词语对应的第一识别结果,确定该词语对识别得到的所述目标意图的贡献度。
在本说明书一个或多个实施例中,针对每个词语而言,该词语对应的第一识别结果的概率与该目标意图的概率可反映出该词语对意图识别模型输出的目标意图的重要程度,即贡献度,因此,可根据该词语对应的第一识别结果的概率与所述目标意图的概率之间的差值,确定该词语对识别得到的所述目标意图的贡献度。
具体的,贡献度可以取该词语对应的第一识别结果的概率与该目标意图的概率之间的差值的绝对值。当然,具体如何体现该第一识别结果的概率与该目标意图的概率之间差异的大小,也可采用其他方式。例如,先对概率进行线性变换(如,扩大数倍),再确定差值的范数。本说明书对此不进行限定,可根据需要设置。
S106:在所述若干词语中确定停用词以及候选词。
一般情况下,从目标文本中删除停用词,意图识别模型输出的第一识别结果的概率几乎没有变化,若从目标文本中删除某一词语后,意图识别模型输出的第一识别结果的概率有较大的变化,则该词语很有可能为关键词。因此,在确定关键词前,应先基于预设的停用词表,确定该若干词语中的停用词以及候选词。
具体的,将该词语与该停用词表进行匹配,若该词语与该停用词表中的任一词匹配成功,则确定该词语为停用词,否则确定该词语为候选词。其中,预设的停用表包含的停用词的数量要尽可能多,从目标文本中筛选出停用词及候选词准确度就越高,最终确定出关键词的准确度就越高,则模型输出结果的可信度就越高。
当然,对于在步骤S104中插入的停用词,则无需进行匹配便可确定插入词为停用词。
S108:根据所述停用词的贡献度以及所述候选词的贡献度,从所述候选词中确定关键词。
在本说明书一个或多个实施例中,停用词的贡献度是由停用词对应的第一识别结果的概率与该目标意图的概率所确定的,且在通常情况下,关键词的贡献度大于停用词的贡献度。因此,可将停用词贡献度的最大值,作为关键词的贡献度阈值,再根据该贡献度阈值,从候选词中确定贡献度大于所述贡献度阈值的候选词,作为关键词。
进一步地,当预设的停用词表包含的停用词较少时,该服务器可能会将目标文本中未在该停用词表中的记录的停用词识别为候选词,若该停用词的贡献度刚好大于目标文本中停用词的贡献度的最大值,那么该停用词就会被确定为关键词。例如,目标文本为“我是坐的缆车到山顶的”,该服务器识别出的停用词及贡献度为“我5%、是4%、的3%”,未识别出的停用词及贡献度为“到6%”,由该服务器识别出的停用词的贡献度可将关键词的贡献度阈值确定为5%,该服务器未识别出的停用词“到”的贡献度刚好大于5%,则该服务器将“到”这一停用词识别为关键词。为了避免将未识别出的停用词作为关键词的情况发生,关键词的贡献度阈值还可取远大于该最大值的数值以及该最大值的α倍,α>1。
其中,关键词可为一个或多个。若只选取一个关键词,则该服务器先从候选词中确定贡献度大于该贡献度阈值的候选词,再按照贡献度对上述候选词进行排序,选择贡献度最大的候选词作为关键词。若选取多个关键词,则从排序后的候选词中选取指定数量的候选词作为关键词。但需要知道的是,对模型解释并不依赖于关键词的数量,只要关键词能解释意图识别模型输出的目标意图即可。例如,目标文本是“我最近买了一辆车”,意图识别模型输出的目标意图是借钱,关键词是一辆车。一般情况下,一辆车的价值较高,用户消费的金额较大,由此推测出用户借钱的目标意图较为合理,则该关键词可解释出该目标意图。由此可见,即使仅有一个关键词,也可对模型进行解释。
S110:将所述目标意图以及所述关键词作为识别结果输出,所述关键词用于表征得到所述目标意图的依据。
只有一个目标意图时,若只确定出一个关键词,则该服务器直接将该目标意图及关键词展示给用户。若确定出多个关键词,则该服务器按照各关键词贡献度从大到小的顺序,选择指定数目的关键词进行展示。
基于图1所示的意图识别方法,对通过意图识别模型识别出目标意图的目标文本进行分词,针对分词后的每个词语,将该词语从目标文本中删除,得到更新文本,并通过该意图识别模型,确定该词语对应的第一识别结果,根据目标意图和第一识别结果确定该词语的对识别出目标意图的贡献度,在所述若干词语中确定停用词及候选词,根据停用词的贡献度及候选词的贡献度,从候选词中确定识别出目标意图的关键词并进行展示。
从上述方法中可以看出,本方法通过意图识别的方法为模型输出结果提供解释依据,提高了模型输出结果的可信度。
另外,用户输出的数据还可以是音频形式,对此,该服务器可先识别音频中的语音信息,将该语音信息转换为文本,再进行S100~S110步骤即可,本说明书并不限制如何获取文本,只要能获取到的数据为文本格式即可。
进一步地,在本说明书一个或多个实施例中,当该服务器基于预设的停用词表对该目标文本中的词语进行分类时,若该服务器发现该目标文本中不存在停用词,为了能根据停用词的贡献度以及候选词的贡献度确定关键词的贡献度阈值,需要在目标文本中插入的停用词得到更新文本,再针对每个词语,将该词语从插入的停用词得到更新文本中删除,将删除该词语后得到的文本输入至意图识别模型等操作,进而得到各停用词及候选词的贡献度,最终确定出关键词。
在S104中,也可根据该目标意图与该词语对应的第一识别结果的相似度,确定该词语对识别得到的该目标意图的贡献度。例如,基于用户发送的文本,目意图识别模型输出的目标意图是高兴,该词语对应的第一识别结果为幸福,则该目标意图与该词语对应的第一识别结果的相似度较高,该词语对识别得到的该目标意图的贡献度较高。
还可以根据该目标意图与该词语对应的第一识别结果是否一致,确定该词语对识别得到的所述目标意图的贡献度。例如,目标意图为借钱,该词语对应的第一识别结果为散步,与目标意图不一致,则该词语对识别得到的目标意图的贡献度较低。
当该服务器根据预设概率阈值确定出多个目标意图时,要针对每个目标意图,进行S102~S110步骤。
进一步地,该服务器在对多个目标意图及对应关键词进行展示时,由于关键词对得到目标意图的贡献度也存在高低之分,该关键词的贡献度越高,说明该关键词对识别出该目标意图越重要,因此该服务器可以按照顺序输出所有目标意图及对应关键词。
具体的,该服务器按照关键词的贡献度对关键词从大到小排序,再按顺序输出目标意图及对应关键词。本说明书对此并不进行限制,只要能输出所有目标意图及对应关键词即可。其中,该服务器可以按照顺序输出指定数量的关键词,例如,确定出的关键词有5个,指定数量为3个,则该服务器可以按顺序展示贡献度最大的3个关键词。当然该指定数量可根据需要设置,本说明书不做限制。
以上为本说明书的一个或多个实施例提供的意图识别方法,基于同样的思路,本说明书还提供了相应的意图识别装置,如图3所示。
图3为本说明书提供的一种意图识别装置示意图,具体包括:
分词模块400,用于确定经意图识别模型识别得到目标意图的目标文本,并对所述目标文本进行分词,得到若干词语;
识别模块402,用于针对每个词语,将该词语从所述目标文本中删除,得到更新文本,将所述更新文本输入至所述意图识别模型中,确定所述意图识别模型输出的第一识别结果,作为该词语对应的第一识别结果;
贡献度确定模块404,用于根据所述目标意图以及该词语对应的第一识别结果,确定该词语对识别得到的所述目标意图的贡献度;
匹配模块406,用于在所述若干词语中确定停用词以及候选词;
关键词确定模块408,用于根据所述停用词的贡献度以及所述候选词的贡献度,从所述候选词中确定关键词;
展示模块410,用于将所述目标意图以及所述关键词作为识别结果输出,所述关键词用于表征得到所述目标意图的依据。
可选的,所述分词模块400,具体用于接收携带目标文本的识别请求;将所述目标文本输入意图识别模型,根据所述意图识别模型输出的各第二识别结果的概率,确定目标意图以及所述目标意图的概率。
可选地,所述分词模块400,具体用于将所述目标文本输入意图识别模型,确定所述意图识别模型输出的各第二识别结果及其概率;从第二识别结果中,确定第二识别结果的概率不小于预设概率阈值的第二识别结果,作为目标意图。
可选地,所述识别模块402,具体用于将所述更新文本输入至所述意图识别模型中,从所述意图识别模型输出的各第一识别结果中,确定与所述目标意图相同的第一识别结果及其概率。
可选地,所述贡献度确定模块404,具体用于根据该词语对应的第一识别结果的概率与所述目标意图的概率之间的差值,确定该词语对识别得到的所述目标意图的贡献度。
可选地,所述匹配模块406,具体用于针对分词得到的每个词语,将该词语与所述停用词表进行匹配,若该词语与所述停用词表中的任一词匹配成功,则确定该词语为停用词,否则确定该词语为候选词。
可选地,所述关键词确定模块408,具体用于根据各停用词的贡献度以及所述候选词的贡献度,确定关键词的贡献度阈值;根据所述贡献度阈值,从候选词中确定贡献度大于所述贡献度阈值的候选词,作为关键词。
可选地,所述展示模块410,具体用于当确定出多个关键词时,按照各关键词的贡献度从大到小顺序,选择指定数目的关键词进行展示。
本说明书提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述意图识别方法。
本说明书提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述意图识别方法。
本说明书还提供了图4所示的电子设备的结构示意图。如图4所述,在硬件层面,该无人驾驶设备包括处理器、内部总线、网络接口、内存以及非易失性存储器,当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,以实现上述图1所述的意图识别方法。当然,除了软件实现方式之外,本说明书并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (18)
1.一种意图识别方法,包括:
确定经意图识别模型识别得到目标意图的目标文本,并对所述目标文本进行分词,得到若干词语;
针对每个词语,将该词语从所述目标文本中删除,得到更新文本,将所述更新文本输入至所述意图识别模型中,确定所述意图识别模型输出的第一识别结果,作为该词语对应的第一识别结果;
根据所述目标意图以及该词语对应的第一识别结果,确定该词语对识别得到的所述目标意图的贡献度;
在所述若干词语中确定停用词以及候选词;
根据所述停用词的贡献度以及所述候选词的贡献度,从所述候选词中确定关键词;
将所述目标意图以及所述关键词作为识别结果输出,所述关键词用于表征得到所述目标意图的依据。
2.如权利要求1所述的方法,确定经意图识别模型识别得到目标意图的目标文本,具体包括:
接收携带目标文本的识别请求;
将所述目标文本输入意图识别模型,根据所述意图识别模型输出的各第二识别结果的概率,确定目标意图以及所述目标意图的概率。
3.如权利要求2所述的方法,将所述目标文本输入意图识别模型,得到目标意图以及所述目标意图对应的概率,具体包括:
将所述目标文本输入意图识别模型,确定所述意图识别模型输出的各第二识别结果及其概率;
从第二识别结果中,确定第二识别结果的概率不小于预设概率阈值的第二识别结果,作为目标意图。
4.如权利要求2所述的方法,将所述更新文本输入至所述意图识别模型中,确定所述意图识别模型输出的第一识别结果,具体包括:
将所述更新文本输入至所述意图识别模型中,从所述意图识别模型输出的各第一识别结果中,确定与所述目标意图相同的第一识别结果及其概率。
5.如权利要求4所述的方法,根据所述目标意图以及该词语对应的第一识别结果,确定该词语对识别得到的所述目标意图的贡献度,具体包括:
根据该词语对应的第一识别结果的概率与所述目标意图的概率之间的差值,确定该词语对识别得到的所述目标意图的贡献度。
6.如权利要求1所述的方法,根据所述停用词的贡献度以及所述候选词的贡献度,从所述候选词中确定关键词,具体包括:
根据各停用词的贡献度以及所述候选词的贡献度,确定关键词的贡献度阈值;
根据所述贡献度阈值,从候选词中确定贡献度大于所述贡献度阈值的候选词,作为关键词。
7.如权利要求1所述的方法,输出所述关键词,具体包括:
当确定出多个关键词时,按照各关键词的贡献度从大到小顺序,选择指定数目的关键词进行展示。
8.如权利要求1所述的方法,在所述若干词语中确定停用词以及候选词,具体包括:
针对分词得到的每个词语,将该词语与所述停用词表进行匹配,若该词语与所述停用词表中的任一词匹配成功,则确定该词语为停用词,否则确定该词语为候选词。
9.一种意图识别装置,所述装置包括:
分词模块,用于确定经意图识别模型识别得到目标意图的目标文本,并对所述目标文本进行分词,得到若干词语;
识别模块,用于针对每个词语,将该词语从所述目标文本中删除,得到更新文本,将所述更新文本输入至所述意图识别模型中,确定所述意图识别模型输出的第一识别结果,作为该词语对应的第一识别结果;
贡献度确定模块,用于根据所述目标意图以及该词语对应的第一识别结果,确定该词语对识别得到的所述目标意图的贡献度;
匹配模块,用于在所述若干词语中确定停用词以及候选词,确定所述若干词语中的停用词以及候选词;
关键词确定模块,用于根据所述停用词的贡献度以及所述候选词的贡献度,从所述候选词中确定关键词;
展示模块,用于将所述目标意图以及所述关键词作为识别结果输出,所述关键词用于表征得到所述目标意图的依据。
10.如权利要求9所述的装置,所述分词模块,具体用于接收携带目标文本的识别请求;将所述目标文本输入意图识别模型,根据所述意图识别模型输出的各第二识别结果的概率,确定目标意图以及所述目标意图的概率。
11.如权利要求10所述的装置,所述分词模块,具体用于将所述目标文本输入意图识别模型,确定所述意图识别模型输出的各第二识别结果及其概率;从第二识别结果中,确定第二识别结果的概率不小于预设概率阈值的第二识别结果,作为目标意图。
12.如权利要求9所述的装置,所述识别模块,具体用于将所述更新文本输入至所述意图识别模型中,从所述意图识别模型输出的各第一识别结果中,确定与所述目标意图相同的第一识别结果及其概率。
13.如权利要求9所述的装置,所述贡献度确定模块,具体用于根据该词语对应的第一识别结果的概率与所述目标意图的概率之间的差值,确定该词语对识别得到的所述目标意图的贡献度。
14.如权利要求9所述的装置,所述匹配模块,具体用于针对分词得到的每个词语,将该词语与所述停用词表进行匹配,若该词语与所述停用词表中的任一词匹配成功,则确定该词语为停用词,否则确定该词语为候选词。
15.如权利要求9所述的装置,所述关键词确定模块,具体用于根据各停用词的贡献度以及所述候选词的贡献度,确定关键词的贡献度阈值;根据所述贡献度阈值,从候选词中确定贡献度大于所述贡献度阈值的候选词,作为关键词。
16.如权利要求9所述的装置,所述展示模块,具体用于当确定出多个关键词时,按照各关键词的贡献度从大到小顺序,选择指定数目的关键词进行展示。
17.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述权利要求1~8任一项所述的方法。
18.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述权利要求1~8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211400814.5A CN115759070A (zh) | 2022-11-09 | 2022-11-09 | 一种意图识别的方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211400814.5A CN115759070A (zh) | 2022-11-09 | 2022-11-09 | 一种意图识别的方法、装置、存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115759070A true CN115759070A (zh) | 2023-03-07 |
Family
ID=85368749
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211400814.5A Pending CN115759070A (zh) | 2022-11-09 | 2022-11-09 | 一种意图识别的方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115759070A (zh) |
-
2022
- 2022-11-09 CN CN202211400814.5A patent/CN115759070A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6894058B2 (ja) | 危険アドレス識別方法及びコンピュータ可読記憶媒体、並びに電子装置 | |
CN115952272B (zh) | 一种生成对话信息的方法、装置、设备及可读存储介质 | |
US20210358570A1 (en) | Method and system for claim scope labeling, retrieval and information labeling of gene sequence | |
CN112417093B (zh) | 一种模型训练的方法及装置 | |
CN107861948B (zh) | 一种标签提取方法、装置、设备和介质 | |
CN114332873A (zh) | 一种识别模型的训练方法及装置 | |
CN112287071A (zh) | 一种文本关系提取方法、装置及电子设备 | |
CN108875743B (zh) | 一种文本识别方法及装置 | |
CN113887206B (zh) | 一种模型训练及关键词提取方法及装置 | |
CN111159354A (zh) | 一种敏感资讯检测方法、装置、设备及系统 | |
CN112966577B (zh) | 一种模型训练以及信息提供的方法及装置 | |
CN113886033A (zh) | 一种任务处理的方法及装置 | |
CN113887235A (zh) | 一种信息推荐的方法及装置 | |
CN110390015B (zh) | 一种数据信息处理方法、装置及系统 | |
WO2023000954A1 (zh) | 票据处理 | |
CN115759070A (zh) | 一种意图识别的方法、装置、存储介质及电子设备 | |
CN114676257A (zh) | 一种对话主题确定方法及装置 | |
CN114116816A (zh) | 一种推荐方法及装置 | |
CN114511376A (zh) | 基于多模型的信用数据处理方法及装置 | |
CN112397073A (zh) | 一种音频数据处理方法及装置 | |
CN113344197A (zh) | 一种识别模型的训练方法、业务执行的方法以及装置 | |
CN111539962A (zh) | 一种目标图像分类方法、装置以及介质 | |
CN111539520A (zh) | 增强深度学习模型鲁棒性的方法及装置 | |
CN115423485B (zh) | 数据处理方法、装置及设备 | |
CN115658891B (zh) | 一种意图识别的方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |