CN109815492A - 一种基于识别模型的意图识别方法、识别设备及介质 - Google Patents
一种基于识别模型的意图识别方法、识别设备及介质 Download PDFInfo
- Publication number
- CN109815492A CN109815492A CN201910015234.6A CN201910015234A CN109815492A CN 109815492 A CN109815492 A CN 109815492A CN 201910015234 A CN201910015234 A CN 201910015234A CN 109815492 A CN109815492 A CN 109815492A
- Authority
- CN
- China
- Prior art keywords
- participle
- intention
- keyword
- target
- target query
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 239000013598 vector Substances 0.000 claims abstract description 201
- 238000012545 processing Methods 0.000 claims abstract description 67
- 230000011218 segmentation Effects 0.000 claims abstract description 21
- 239000000523 sample Substances 0.000 claims description 133
- 238000012549 training Methods 0.000 claims description 27
- 238000004590 computer program Methods 0.000 claims description 11
- 230000001737 promoting effect Effects 0.000 abstract description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 8
- 238000000546 chi-square test Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 206010002320 anencephaly Diseases 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种基于识别模型的意图识别方法、识别设备及介质,应用于人工智能技术领域。其中,该方法包括:接收用户输入的目标查询语句,对所述目标查询语句进行分词处理,以得到组成所述目标查询语句的多个分词;从所述多个分词中确定出所述目标查询语句的目标关键词;计算所述多个分词中每个分词的词向量,并按照预设的加权系数对所述目标关键词的词向量进行加权处理,根据所述加权处理后的每个分词的词向量计算得到所述目标查询语句的特征向量;将所述目标查询语句的特征向量输入预置的意图识别模型,以得到对所述目标查询语句的识别结果。采用本申请,有助于提升意图识别的准确性。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种基于识别模型的意图识别方法、识别设备及介质。
背景技术
目前,机器人在进行意图识别时,一般是使用多分类的分类器对用户查询意图进行识别,该多分类分类器在进行意图预测的时候,常常会进行归一化处理,这就导致多分类分类器在对无关查询进行预测时,常常会出现把该无关意图强制性分类到该多分类中某一个类别的情况。也即,目前的意图识别方式无法识别无关查询,即使某一查询的意图不属于分类器的意图时,也可能将意图识别为该分类器下的意图,导致无法准确识别用户意图。
发明内容
本申请实施例提供一种基于识别模型的意图识别方法、识别设备及介质,有助于提升意图识别的准确性。
第一方面,本申请实施例提供了一种基于识别模型的意图识别方法,包括:
接收用户输入的目标查询语句,对所述目标查询语句进行分词处理,以得到组成所述目标查询语句的多个分词;
将所述多个分词与预设的关键词列表中的各关键词进行匹配,以从所述多个分词中确定出所述目标查询语句的目标关键词,所述目标关键词为所述多个分词中与所述关键词列表中的关键匹配的分词;
计算所述多个分词中每个分词的词向量,并按照预设的加权系数对所述目标关键词的词向量进行加权处理,根据所述加权处理后的每个分词的词向量计算得到所述目标查询语句的特征向量;
将所述目标查询语句的特征向量输入预置的意图识别模型,以得到对所述目标查询语句的识别结果;其中,所述意图识别模型由多个二分类器组成,每个二分类器对应一个意图,所述意图识别模型由所述多个二分类器对应的意图的查询语句样本训练得到,所述识别结果用于指示所述目标查询语句的意图,所述目标查询语句的意图为任一所述二分类器下的意图或无关意图。
可选的,在所述将所述目标查询语句的特征向量输入预置的意图识别模型之前,所述方法还包括:
从预设样本数据库分别选取多种意图的查询语句样本,并分别对每种意图的查询语句样本进行分词处理,以得到每种意图的查询语句样本的分词集合,每种意图的分词集合包括组成该种意图的查询语句样本的多个分词;
按照预设的关键词确定规则分别从每种意图的分词集合中确定出每种意图的关键词;
计算每个分词的词向量,并按照预设的加权系数对每种意图的关键词的词向量进行加权处理,根据所述加权处理后的每个查询语句的每个分词的词向量计算得到每个查询语句样本的特征向量;
根据所述多种意图的查询语句样本中的每个查询语句样本的特征向量及该查询语句样本对应的意图训练得到所述意图识别模型;其中,所述意图识别模型由多个二分类器组成,所述多个二分类器和所述多种意图一一对应。
可选的,所述按照预设的关键词确定规则分别从每种意图的分词集合中确定出每种意图的关键词,包括:
分别计算得到每种意图的分词集合中的每个分词的词频-逆文件频率TF-IDF值;
将每种意图的分词集合中TF-IDF值超过预设阈值的分词确定为该种意图的关键词;或者,
按照TF-IDF值由大到小的顺序对每种意图的分词集合中的分词进行排序,将所述排序前M的TF-IDF值对应的分词确定为该种意图的关键词,其中,M为大于0的整数。
可选的,所述按照预设的关键词确定规则分别从每种意图的分词集合中确定出每种意图的关键词,包括:
分别计算得到每种意图的分词集合中的每个分词在所述分词集合出现的频率,每个分词对应的频率为该分词在所述分词集合出现的次数与所述分词集合的分词总数目的比值;
将每种意图的分词集合中频率超过预设频率阈值的分词确定为该种意图的关键词;或者,
按照频率由大到小的顺序对每种意图的分词集合中的分词进行排序,将所述排序前N的频率对应的分词确定为该种意图的关键词,其中,N为大于0的整数。
可选的,所述方法还包括:
根据每种意图的关键词对应的词频-逆文件频率TF-IDF值或频率,为该关键词设置加权系数;其中,每个关键词对应的频率为该关键词在该种意图的分词集合出现的次数与所述分词集合的分词总数目的比值;
将每种意图的关键词和该关键词对应的加权系数关联存储至所述关键词列表;
所述按照预设的加权系数对所述目标关键词的词向量进行加权处理,包括:
从所述关键词列表中确定出与所述目标关键词对应的加权系数,并按照确定出的加权系数对所述目标关键词的词向量进行加权处理。
可选的,所述方法还包括;
分别为所述多个二分类器设置概率阈值,每个二分类器对应的概率阈值用于指示输入的查询语句是否为该二分类器对应的意图;
所述将所述目标查询语句的特征向量输入预置的意图识别模型,以得到对所述目标查询语句的识别结果,包括:
将所述目标查询语句的特征向量输入预置的意图识别模型,以得到所述意图识别模型包括的所述多个二分类器对所述目标查询语句的识别结果,每个二分类器对应的识别结果包括所述目标查询语句的意图为该二分类器的意图的概率;
分别判断每个二分类器的识别结果包括的概率是否低于该二分类器对应的概率阈值;
如果所述多个二分类器的识别结果包括的概率均低于对应的概率阈值,确定所述目标查询语句为无关查询,所述目标查询语句的识别结果用于指示所述目标查询语句的意图为无关意图;
如果存在一个二分类器的识别结果包括的概率不低于该二分类器对应的概率阈值,确定所述目标查询语句的意图为该二分类器的意图,所述目标查询语句的识别结果用于指示所述目标查询语句的意图为该二分类器的意图;
如果存在多个二分类器的识别结果包括的概率不低于对应的概率阈值,确定所述不低于对应的概率阈值的概率中的最大概率,并将所述最大概率对应的二分类器的意图作为所述目标查询语句的意图,所述目标查询语句的识别结果用于指示所述目标查询语句的意图为所述最大概率对应的二分类器的意图。
可选的,所述根据所述加权处理后的每个分词的词向量计算得到所述目标查询语句的特征向量,包括:
计算得到所述加权处理后的每个分词的词向量的和值,并将所述和值作为所述目标查询语句的特征向量;或者,
计算得到所述加权处理后的每个分词的词向量的和值,并计算得到所述和值与所述多个分词的数目的比值,将所述比值作为所述目标查询语句的特征向量。
第二方面,本申请实施例提供了一种识别设备,该识别设备包括用于执行上述第一方面的方法的单元。
第三方面,本申请实施例提供了另一种识别设备,包括处理器和存储器,所述处理器和存储器相互连接,其中,所述存储器用于存储支持识别设备执行上述方法的计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行上述第一方面的方法。可选的,该识别设备还可包括通信接口和/或用户接口。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述第一方面的方法。
本申请实施例能够通过对获取的查询语句进行分词处理,以得到该查询语句的多个分词并确定每个分词的词向量,进而从该多个分词中确定出该查询语句的关键词并对关键词的词向量进行加权处理后,得到该查询语句的特征向量,进而能够通过将该特征向量输入预置的意图识别模型来确定出该查询语句的意图,这就有助于提升意图识别的准确性,且能够识别出无关意图。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种基于识别模型的意图识别方法的流程示意图;
图2是本申请实施例提供的另一种基于识别模型的意图识别方法的流程示意图;
图3是本申请实施例提供的一种识别设备的结构示意图;
图4是本申请实施例提供的另一种识别设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的技术方案可应用于识别设备中,该识别设备可包括服务器、终端、机器人或其他识别设备,用于对用户查询语句的意图进行识别。本申请涉及的终端可以是手机、电脑、平板、个人计算机、智能手表等,本申请不做限定。
具体的,本申请能够通过对待进行意图识别的查询语句进行分词处理,以得到该查询语句的一个或多个分词并确定每个分词的词向量,从而计算得到该查询语句的特诊向量,或者,还能够通过进一步从该一个或多个分词中确定出该查询语句的关键词并对关键词的词向量进行加权处理后,计算得到该查询语句的特征向量,进而能够通过将该特征向量输入预置的意图识别模型来确定该查询语句的意图,这就有助于提升意图识别的准确性。以下分别详细说明。
请参见图1,图1是本申请实施例提供的一种基于识别模型的意图识别方法的流程示意图。具体的,本实施例的方法可应用于上述的识别设备如机器人中。如图1所示,该基于识别模型的意图识别方法可以包括以下步骤:
101、接收用户输入的目标查询语句,对该目标查询语句进行分词处理,以得到组成该目标查询语句的多个分词。
其中,该目标查询语句可以是待进行意图识别的任一语句,比如识别设备如机器人接收到的任一语句。可选的,该语句可以是文本,也可以是语音,也可以是视频中的语句。进一步可选的,如果获取到的语句为文本以外的语句,识别设备在获取到该语句之后,还可将该语句转换为文本语句,以便于快速实现对该语句进行分词处理。
可选的,该分词处理对应的分词方法可以为结巴分词或斯坦福分词法或其他分词方法,本申请不做限定。
进一步可选的,对该目标查询语句进行分词处理,得到的组成该目标查询语句的多个分词(还可称为词、词、词条等等)可以为组成该目标查询语句的所有分词,也可以为组成该目标查询语句的所有分词中的部分分词,比如为该所有分词中去掉停用词或其他无意义的分词后的分词,以便于减小后续的词向量和特征向量的计算开销,有助于提升意图识别效率。例如,可预置一个过滤列表,该过滤列表可包括各种停用词或其他无意义的词,如“啊”、“哦”、“的”等等,从而在对查询语句进行分词后,能够通过与该过滤列表中的词进行匹配对比的方式确定出查询语句中的停用词等无意义的词,并去掉这些词。
可以理解,该目标查询语句可以仅包含一个分词,也即,对该目标查询语句进行分词处理,得到的组成该目标查询语句的分词可以为一个或多个分词。该基于一个分词的意图识别方法与该基于多个分词的意图识别方法相同,为便于理解,本申请以该多个分词为例进行说明。
102、计算该多个分词中每个分词的词向量。
在获取得到该多个分词之后,即可计算得到每各分词的词向量。对于分词的词向量的计算方式可以为多种。例如,可使用预先收集的各种语料(可以是各个分词)对连续词袋模型(CBOW模型)结构进行训练,实现采用Gensim中Word2Vec模型框架,训练得到输入为语料、输出为词向量的CBOW模型。进而可以通过将该多个分词分别输入该模型,以得到各分词的词向量。或者还可采用现有方式计算出每个分词的词向量,对分词的词向量的计算方式,本申请不做限定。
103、将该多个分词与预设的关键词列表中的各关键词进行匹配,以从该多个分词中确定出该目标查询语句的目标关键词。
其中,该关键词列表可包括一个或多个关键词,具体可以为一种或多种意图的关键词。从而在进行匹配时,可分别将该目标查询语句对应的多个分词分别与该关键词列表中的关键词进行匹配对比(判断是否存在相同的关键词),即检测该多个分词中是否存在该关键字列表中的关键词。如果存在,则可将该匹配的关键词作为该目标查询语句的关键词,即目标关键词。也就是说,该目标关键词即为该多个分词中与该关键词列表中的关键匹配的分词。
可以理解,该步骤102和103的执行步骤不受限制,例如,在其他可选的实施例中,还可以先执行步骤103,再执行步骤102;又如,该步骤102和103还可同时执行,本申请不做限定。
104、按照预设的加权系数对该目标关键词的词向量进行加权处理,根据该加权处理后的每个分词的词向量计算得到该目标查询语句的特征向量。
可选的,识别设备可通过为分词中的普通词(如该多个分词中除关键词以外的分词)和关键词设置不同的权重,将关键词的权重设置为高于普通词的权重,比如为关键词设置加权系数,以提升该关键词的权重,从而实现对查询语句的特征向量的优化,提升意图识别的准确性。例如,为区分句子中关键词和普通词间不同的重要性,当查询语句中出现关键词时,可将关键词的向量*k(即加权系数为k)加到这个查询语句的向量中,k大于1,以使查询语句的特征向量能够尽可能的向关键词的向量方向偏。或者,在其他实施例中,还可降低查询语句中普通词的权重(比如将普通词的加权系数设置为0-1之间),而该关键词的权重可以增加(比如将关键词的加权系数设置为大于1)或保持不变(比如将普通词的加权系数设置为1),即关键词的加权系数大于普通词的加权系数。其中,查询语句的向量可以是指该查询语句分词得到的该多个分词的词向量之和。由此,在对查询语句如该目标查询语句进行分词处理之后,可以从得到的该多个分词词选取关键词后,再根据关键词和其余普通词的词向量确定该目标查询语句的特征向量,从而可提升确定出的查询语句的特征向量的可靠性,进而可提升基于该特征向量的意图识别的准确性。采用词向量模型提取文本特征,比向量空间模型提取特征更有代表性。
其中,查询语句如目标查询语句的特征向量可以是根据加权处理后的每个分词的词向量(包括加权后的关键词的词向量和未加权的普通词的词向量)确定出的,该目标查询语句的特征向量可以与该目标查询语句的向量相同,也可以不同。
例如,在一种可能的实施方式中,识别设备可计算得到该加权处理后的每个分词的词向量的和值,并将该和值作为该目标查询语句的特征向量。也就是说,该目标查询语句的特征向量可以为该多个分词中普通词的词向量和该加权处理后的关键词的词向量的和值。
又如,在一种可能的实施方式中,识别设备可计算得到该加权处理后的每个分词的词向量的和值,并计算得到该和值与该多个分词的数目的比值,将该比值作为该目标查询语句的特征向量。也就是说,该目标查询语句的特征向量可以为该加权处理后该目标查询语句的该多个分词的词向量的和值除以该多个分词的分词总数目的比值,即进行归一化。
又如,在一种可能的实施方式中,识别设备可计算得到该加权处理后的每个分词的词向量的平均值或均方根值等等,将该平均值或均方根值作为该目标查询语句的特征向量,此处不一一列举。
举例来说,假设对该目标查询语句分词处理并过滤停用词等无意义的词之后,得到n个分词(即该多个分词为n),且计算得到的各个分词的词向量如下:
V=(v1,v2,...,vn)
其中,vi表示分词wi对应的词向量。
假设预设的关键词列表包括关键词词集合是:B,则该目标查询语句的向量T可表示为:
其中,u表示加权系数,k是一个常量(假设所有目标关键词的系数均为k),比如实际使用中假设设为2或其他值。如果当前分词在该关键词列表/集合中(即表明为关键词),计算特征时乘以该加权系数k再向量相加;如果当前分词不在该关键词列表/集合中(即可表明不为关键词),则可直接原向量相加,而不乘以加权系数,或者将其加权系数作为1,从而根据得到该目标查询语句的特征向量,比如将该T作为目标查询语句的特征向量,或者T/n的值作为目标查询语句的特征向量等等。
进一步可选的,如果该多个分词与该关键词列表中的关键词均不匹配,即该多个分词中不存在于该关键字列表中,则可不对该多个分词进行加权处理,计算得到该多个分词中每个分词的词向量之后,即可基于该每个分词的词向量确定该目标查询语句的特征向量,比如将每个分词的词向量的和值作为该目标查询语句的特征向量,又如将该和值与该多个分词的数目的比值作为该目标查询语句的特征向量等等,此处不赘述。
105、将该目标查询语句的特征向量输入预置的意图识别模型,以得到对该目标查询语句的识别结果。
可选的,该意图识别模型可以是由多个二分类器组成的,也即该意图识别模型可以为由该多个二分类器组成的多分类器。该每个二分类器可对应一个意图,该意图识别模型可以是由该多个二分类器对应的意图的查询语句样本(语料)训练得到,具体可以是该多个二分类器对应的意图的查询语句样本的特征向量训练得到。该识别结果用于指示该目标查询语句的意图,该目标查询语句的意图为任一该二分类器下的意图或无关意图。可选的,该识别结果可包括该目标查询语句的意图的信息、该目标查询语句的意图为某一二分类器下的意图的概率及该二分类器的意图中的任一项或多项。如该目标查询语句的意图的信息可以是指该目标查询语句的意图的文字信息。通过训练多个二分类器组成一个多分类器,不仅能识别出已训练的意图,即该多个二分类器对应的意图,还可以识别出无关意图,从而提升了意图识别的准确性。
进一步可选的,在得到对该目标查询语句的识别结果之后,即可基于该目标查询语句的识别结果指示的用户意图在信息库中查找意图对应的信息,比如意图为天气查询时查找天气信息,又如意图为机票查询时查找机票信息等等,并可输出该信息(比如通过文字输出,或者通过语音输出,或者通过其他方式输出等等)或者向该用户对应的终端发送该信息,以供用户查看,对用户进行引导等等。
在本实施例中,识别设备如机器人能够通过对获取的查询语句进行分词处理,以得到该查询语句的多个分词并确定每个分词的词向量,进而从该多个分词中确定出该查询语句的关键词并对关键词的词向量进行加权处理后,得到该查询语句的特征向量,以通过将该特征向量输入预置的意图识别模型来确定出该查询语句的意图,不仅能够识别出该模型已训练的意图,还能识别出无关意图,这就有助于提升意图识别的准确性。
请参见图2,图2是本申请实施例提供的另一种基于识别模型的意图识别方法的流程示意图。具体的,如图2所示,该基于识别模型的意图识别方法可以包括以下步骤:
201、从预设样本数据库分别选取多种意图的查询语句样本,并分别对每种意图的查询语句样本进行分词处理,以得到每种意图的查询语句样本的分词集合,每种意图的分词集合包括组成该种意图的查询语句样本的多个分词。
其中,该预设样本数据库可包括各意图的查询语句样本(语料),该选取的每一种意图的查询语句样本可以包括多个,如每一种意图可对应一个包括选取的该意图的多个查询语句样本的样本集合。每一个查询语句样本可以由文本组成。可选的,各查询语句样本可以与其对应的意图的信息如意图标签关联存储于该样本数据库中,以便于样本的查找以及后续的模型训练。
在选取出各个意图的样本之后,针对每个意图的样本,识别设备可以对该意图的每个样本进行分词处理,得到分词后的多个分词。其中,该分词的方法可采用结巴分词或斯坦福分词方法等等。
可选的,每个分词集合(词袋)包括的分词可以为选取出的该分词集合对应的意图的样本集合中所有查询语句样本的所有分词,也可以为该所有分词中的部分分词,比如为该所有分词中去掉停用词或其他无意义的分词后的分词,以减小计算开销,此处不赘述。
202、按照预设的关键词确定规则分别从每种意图的分词集合中确定出每种意图的关键词。
其中,该关键词确定规则可预先设置得到。例如,该关键词确定规则可包括基于TF-IDF值的关键词确定规则、基于词频的关键词确定规则、基于次数的关键词确定规则、基于卡方校验值的关键词确定规则等中的任一种规则或多种规则组合确定的规则,本申请不做限定。进一步可选的,在确定出每种意图的关键词之后,可以生成包括将该关键词的关键词列表,所有意图的关键词可以存储于同一关键词列表中,或者不同的意图的关键词可以存储于不同的关键词列表中,比如意图的关键词和关键词列表一一对应,还可为不同的关键词列表设置意图标签。
例如,在一种可能的实施方式中,在确定每种意图的关键词时,识别设备可分别计算得到每种意图的分词集合中的每个分词的词频-逆文件频率TF-IDF值,将每种意图的分词集合中TF-IDF值超过预设阈值的分词确定为该种意图的关键词;或者,按照TF-IDF值由大到小的顺序对每种意图的分词集合中的分词进行排序,将该排序前M的TF-IDF值对应的分词确定为该种意图的关键词,其中,M为大于0的整数。也就是说,针对每种意图的分词集合,可对该分词集合中的分词的进行TF-IDF计算,根据分词的TF-IDF值选取关键词,比如选取TF-IDF值阈值超过某一预设阈值的分词作为该意图的关键词,或者取出TF-IDF值排序靠前的预设数目的词作为该意图的关键词等等。
又如,在一种可能的实施方式中,在确定每种意图的关键词时,识别设备可分别计算得到每种意图的分词集合中的每个分词在该分词集合出现的频率,每个分词对应的频率为该分词在该分词集合出现的次数与该分词集合的分词总数目(如具体可以是去掉停用词后的分词数目)的比值,如词频(term frequency,TF);将每种意图的分词集合中频率超过预设频率阈值的分词确定为该种意图的关键词;或者,按照频率由大到小的顺序对每种意图的分词集合中的分词进行排序,将该排序前N的频率对应的分词确定为该种意图的关键词,其中,N为大于0的整数。也就是说,针对每种意图的分词集合,可统计分词集合的分词的词频,根据分词的词频选取关键词,比如选取词频超过预设频率阈值的分词作为该意图的关键词,或者取出词频排序靠前的一定数目如排在前6的词条作为该意图的关键词等等。
又如,在一种可能的实施方式中,在确定每种意图的关键词时,识别设备可分别计算得到每种意图的分词集合中的每个分词在该分词集合出现的次数,将每种意图的分词集合中次数超过预设次数阈值的分词确定为该种意图的关键词;或者,按照次数由大到小的顺序对每种意图的分词集合中的分词进行排序,将该排序前E的次数对应的分词确定为该种意图的关键词,其中,E为大于0的整数。
又如,在一种可能的实施方式中,在确定每种意图的关键词时,识别设备可对每种意图的分词集合中的分词进行卡方检验,得到每种意图的分词集合中的每个分词的卡方检验的值,将每种意图的分词集合中卡方检验的值超过预设校验阈值的分词确定为该种意图的关键词;或者,按照卡方检验的值由大到小的顺序对每种意图的分词集合中的分词进行排序,将该排序前F的卡方检验的值对应的分词确定为该种意图的关键词,其中,F为大于0的整数。
可选的,在选取意图的关键词时,可以采用上述任一种关键词确定规则来选取,或者可以通过将几种规则结合来选取,比如将上述的一种或多种规则下选取出的相同关键词作为该意图的关键词;或者,可以为每一种选取规则设置一个权重,将上述的各规则下选取出的关键词结合对应规则的权重进一步筛选出取值大于预设阈值的分词作为该意图的关键词,或将取值靠前的预设数目如前5的分词作为该意图的关键词等等;或者,可分别采用多种规则选取出各意图的关键词,并将各种关键词确定规则对应的关键词(如关键词列表)和对应的使用场景进行绑定,进而在后续进行关键词匹配时,可结合不同的使用场景来选取绑定的关键词进行匹配。从而能够进一步提升选取出的关键词的可靠性和灵活性,以便于提升意图识别的准确性。
例如,分词集合中每个分词的TF或TF-IDF可以通过如下方式计算得到:
词频可以是指某一个给定的词语在该意图中出现的次数或频率,也即分词在所在意图的分词集合出现的次数或频率,比如为了防止它偏向长的文件,该词频可以为该次数除以集合的分词总数目即意图总词数。
从而能够计算得到每个词的TF。
进一步的,可计算逆向文件频率(inverse document frequency,IDF),IDF的主要思想是:如果包含分词t的意图越少,IDF越大,则说明分词具有很好的类别区分能力,某个分词对语句的重要性越高,它的TF-IDF值就越大。某一特定分词的IDF,可以由总意图数目除以包含该分词之意图的数目加1的和,再将得到的商取对数得到。比如IDF可以为:
计算分词的TF-IDF:
TF-IDFw=TFw×IDFw
从而能够计算得到每个分词的TF-IDF值。
203、计算每个分词的词向量,并按照预设的加权系数对每种意图的关键词的词向量进行加权处理,根据该加权处理后的每个查询语句的每个分词的词向量计算得到每个查询语句样本的特征向量。
可选的,该计算每个查询语句样本的特征向量的方式与上述计算目标查询语句的特征向量的方式相同,具体可参见图1所示实施例中步骤104的相关描述,此处不赘述。
可选的,除了关键词和普通词的权重不同之外,关键词之间的权重如该加权系数也可以设置为不同。例如,各关键词的权重可根据关键词的TF-IDF值确定出,如各关键词的TF-IDF值越大,为其设置的加权系数越高;又如,各关键词的权重可根据关键词的TF(或次数或卡方校验值等等)确定出,关键词对应的TF越大,为其设置的加权系数越高,等等,此处不一一列举。具体可预先设置不同TF-IDF值(或TF值或次数或卡方校验值等)及其对应的加权系数的对应关系;或者预先设置TF-IDF区间(或TF区间或次数区间或卡方校验值区间等)及其对应的加权系数的对应关系,以降低系统存储开销。进一步可选的,还可将关键词及其对应的加权系数关联存储至该关键词列表中。从而能够提升关键词的加权系数确定的可靠性和灵活性,有助于进一步提升意图识别的准确性和可靠性。
204、根据该多种意图的查询语句样本中的每个查询语句样本的特征向量及该查询语句样本对应的意图训练得到该意图识别模型。
其中,该意图识别模型可以由多个二分类器组成,该多个二分类器可以和该多种意图一一对应。
在得到每种意图的查询语句样本的特征向量之后,即可将该特征向量输入意图识别模型进行分类,以对各意图对应的二分类器进行训练。由于多分类分类器在进行预测的时候,常常会进行归一化,使得它在对无关查询进行预测时,经常会出现把无关查询强制性分类到某一个相关类别当中,无法识别无关查询,输出的查询结果不准确。由此,本申请可采用将一个多分类分类器转化为多个二分类分类器的方法,使其有能力识别无关查询,具体可针对各二分类器输入各意图的查询语句样本(意图句子)的特征向量,输出为对应的意图,如可采用向量积SVM训练二分类器,从而训练得到多个二分类分类器。
举例来说,假设该意图识别模型由6个二分类器组成,分别对应天气,美食,机票,股票,信用卡和娱乐。例如天气分类器,它产生的二分类结果为:当前查询是天气意图和当前查询不是天气意图;又如对于机票分类器,产生的二分类结果为:当前查询是机票意图和当前查询不是机票意图,等等,美食、股票、信用卡、娱乐类似,通过输入对应的意图句子的特征向量到相应的分类器进行训练,从而训练得到多个二分类分类器,以得到该意图识别模型。可选的,在进行训练时,对于任一二分类器,还可以将该二分类器对应的意图句子的特征向量作为正样本,将其余意图句子的特征向量作为负样本以实现对该二分类器的训练。以天气分类器为例,可以将属于天气的训练样本如天气意图的意图句子的特征向量作为正样本,属于其他类的训练样本如机票、美食等意图的意图句子的特征向量作为负样本,以实现对该天气分类器的训练。
可选的,在训练分类器时,很多时候存在正负样本不平衡的情况,导致训练出的分类器识别准确性较差,容易对比例大的样本造成过拟合,也就是说预测容易偏向样本数较多的分类,这就大大降低了模型的范化能力,导致auc(area under curve)很低(auc越大的分类器效果越好)。例如,举个极端的例子:假如正样本只有1个,负样本有99个,那么,这个分类器无脑将所有的样本都分为负样本,它的准确率也会有99%。但是这样的分类器显然是无效的,其识别结果不可靠。因此,在训练分类器时,可以采用一些方法平衡正负样本的数量之后,再对分类器进行训练,以提升训练模型的准确性和可靠性。例如,针对正样本较少的情况,可以采用增加正样本的方式来平衡正负样本;又如,针对负样本较少的情况,可以采用一些方式增加负样本来平衡正负样本。可选的,平衡正负样本的方式可以如下:
a、上采样:增加样本数较少的样本,其方式是直接复制原来的样本。比如可以在样本较少时采用。
b、下采样:减少样本数较多的样本,其方式是丢弃这些多余的样本。比如可以在样本较多时采用。
一般来说,样本越多,训练出的模型准确性越高。由此,为了提升意图识别的可靠性,可采用上采样方式增加样本后,对分类器进行训练。
c、合成样本:增加样本数目较少的那一类的样本,合成指的是通过组合已有的样本的各个特征(feature)从而产生新的样本。具体的,该产生新样本的方式可以是从各个feature中随机选出一些feature或者通过一些方式选出某些特定的feature(如出现次数高于阈值的feature,或者样本相似度高于阈值如欧氏距离小于阈值的样本之间的feature等等)之后,将选取的feature拼接成一个新的样本,从而增加了样本数目较少的类别的样本数。不同于上采样是单纯的复制样本,而这里则是拼接得到新的样本,使得能够进一步提升分类器训练的可靠性。例如,可采用SMOTE(Synthetic Minority Over-samplingTechnique,合成少数类过采样技术)算法合成新样本,其是根据已知的正样本向量,来生成模拟的正样本向量,通过在相似样本中进行feature的随机选择并拼接出新的样本,加入到训练集之中。
d、改变样本权重:增大样本数较少类别的样本的权重,对于样本数较少的样本类别,可以乘上一个权重,从而让分类器更加关注这一类数目较少的样本。可选的,该样本的权重可以和样本数相关,比如样本越少,权重越高;又如为低于某一数量的样本类别设置一固定的权重,等等。
205、分别为该多个二分类器设置概率阈值,每个二分类器对应的概率阈值可用于指示输入的查询语句是否为该二分类器对应的意图。
可选的,每个二分类器对应的概率阈值可以相同,也可以不同。进一步可选的,该概率阈值还可根据预设时间段内对二分类器/意图识别模型的识别结果的校验结果进行调整,比如一时间段内如一周内对一二分类器的识别结果的校验结果为识别成功率低于一预设阈值如90%时,增加该二分类器对应的概率阈值,比如按照预设值如3%增加该概率阈值,以提升意图识别的准确性和可靠性。
206、接收用户输入的目标查询语句,对该目标查询语句进行分词处理,以得到组成该目标查询语句的多个分词。
207、将该多个分词与预设的关键词列表中的各关键词进行匹配,以从该多个分词中确定出该目标查询语句的目标关键词。
其中,该目标关键词可以为该多个分词中与该关键词列表中的关键匹配的分词。
208、计算该多个分词中每个分词的词向量,并按照预设的加权系数对该目标关键词的词向量进行加权处理,根据该加权处理后的每个分词的词向量计算得到该目标查询语句的特征向量。
可选的,该步骤206-208的其余描述可参照上述图1所示实施例中步骤101-104的相关描述,此处不赘述。
进一步可选的,每个关键词对应的加权系数可以相同也可以不同。例如,可根据每种意图的关键词对应的TF-IDF值或频率或次数或卡方校验值等等,为该关键词设置加权系数,并可将每种意图的关键词和该关键词对应的加权系数关联存储至该关键词列表,此处不赘述。进而识别设备在按照预设的加权系数对该目标关键词的词向量进行加权处理时,可以从该关键词列表中确定出与该目标关键词对应的加权系数,并按照确定出的加权系数对该目标关键词的词向量进行加权处理。如果该目标关键词为多个,则可分别从该关键词列表中确定出与各目标关键词匹配的关键词对应的加权系数作为各目标关键词对应的加权系数,并按照各目标关键词的加权系数对各自的词向量进行加权处理。从而基于加权处理后的目标关键词的词向量和该多个分词中的其他分词的词向量计算得到该目标查询语句的调整向量。
209、将该目标查询语句的特征向量输入预置的意图识别模型,以得到该意图识别模型包括的该多个二分类器对该目标查询语句的识别结果,每个二分类器对应的识别结果包括该目标查询语句的意图为该二分类器的意图的概率。
210、分别判断每个二分类器的识别结果包括的概率是否低于该二分类器对应的概率阈值,并根据判断结果确定该目标查询语句的意图。
具体的,如果该多个二分类器即所有二分类器的识别结果包括的概率均低于对应的概率阈值(每个二分类器对应的概率阈值可以相同也可以不同),则可确定该目标查询语句为无关查询,该目标查询语句的识别结果用于指示该目标查询语句的意图为无关意图。如果仅存在一个二分类器的识别结果包括的概率不低于该二分类器对应的概率阈值,则可确定该目标查询语句的意图为该二分类器的意图,该目标查询语句的识别结果用于指示该目标查询语句的意图为该二分类器的意图。如果存在多个二分类器的识别结果包括的概率不低于对应的概率阈值,则可进一步确定该不低于对应的概率阈值的各概率中的最大概率,并可将该最大概率对应的二分类器的意图作为该目标查询语句的意图,该目标查询语句的识别结果可用于指示该目标查询语句的意图为该最大概率对应的二分类器的意图。如果该最大概率存在多个,可将最大概率对应的多个二分类器的意图均作为该目标查询语句的意图,或者,还可作为使用场景变更,切换另一种关键词确定规则对应的关键词列表进行关键词匹配以及确定其加权系数以计算得到该目标查询语句的特征向量后再进行意图识别,等等,此处不一一列举。
可选的,该计算得到的该目标查询语句的特征向量可以为一个也可以为多个。比如该特征向量可以为一个,则可由该多个二分类器基于该特征向量分别判决该目标查询语句的意图是否为自身对应的意图;又如该特征向量可以为多个,在计算该目标查询语句的特征向量时,可分别从各意图对应的关键词列表中确定出各意图对应的目标关键词,并基于各意图对应的目标关键词计算得到各意图对应的该目标查询语句的特征向量,进而通过将各意图对应的特征向量输入到相应的意图的二分类器(比如基于意图标签或其他方式确定该相应的一通的二分类器)以判决该目标查询语句的意图是否为自身对应的意图,也即,可通过分别提取出各二分类器的特征向量(即各意图对应的特征向量),由对应的二分类器进行判决输出。由此可以避免不同意图存在相同关键词时带来的判决可能不准确的问题,有助于进一步提升意图识别的可靠性。
举例来说,假设训练完成上述由6个二分类分类器,如天气分类器、美食分类器、机票分类器、股票分类器、信用卡分类器和娱乐分类器组成的意图识别模型之后,识别设备如机器人可接收用户输入的查询请求到该模型以进行意图识别。该请求可以是图片、文字或语音等方式的请求,进而可转换得到该请求对应的文本句子,即目标查询语句,对该句子进行分词,去掉分词得到的各分词中的停用词后可确定其中的关键词,并计算句子的特征向量(可以是一个,也可以是多个,如分别提取得到天气分类器的特征向量、美食分类器的特征向量、机票分类器的特征向量、股票分类器的特征向量、信用卡分类器的特征向量和娱乐分类器的特征向量),进而将句子的特征向量输入该模型进行意图识别。然后模型即各个二分类器可以判决输出,判决是否为各二分类器对应的意图,比如可以输出为自身对应的意图(如天气意图、美食意图等)及其概率(如正向概率,即查询为该意图的概率)。如果所有二分类器输出的正向概率均低于对应的阈值,则可表明用户查询分类为无关查询,可输出该查询为无关查询的信息,而不再强制性将其分类到某一个类别中。如果存在正向概率大于阈值的分类,则将该分类对应的意图作为识别结果,即作为该查询请求的意图进行输出,并可进一步输出其对应的正向概率,即置信度。如果正向概率大于阈值的分类有多个,则可以将该多个分类中正向概率最高的意图作为该查询请求的意图进行输出,并可进一步输出对应的正向概率。在识别出用户意图之后,即可根据该意图向用户返回信息、对客户进行引导等等。
在本实施例中,识别设备能够通过从预设样本数据库分别选取多种意图的查询语句样本,确定出该多种意图的关键词,以基于该关键词计算得到该查询语句样本的特征向量后训练得到意图识别模型,进而在获取到用户输入的目标查询语句之后,能够根据该目标查询语句的关键词确定该查询语句的特征向量,并将该特征向量输入预置的意图识别模型来确定该查询语句的意图,从而提升了意图识别的准确性。
上述方法实施例都是对本申请的基于识别模型的意图识别方法的举例说明,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
请参见图3,图3是本申请实施例提供的一种识别设备的结构示意图。本申请实施例的识别设备(装置)可包括用于执行上述基于识别模型的意图识别方法的单元。具体的,本实施例的识别设备300可包括:获取单元301和处理单元302。其中,
获取单元301,用于接收用户输入的目标查询语句;
处理单元302,用于对所述目标查询语句进行分词处理,以得到组成所述目标查询语句的多个分词;将所述多个分词与预设的关键词列表中的各关键词进行匹配,以从所述多个分词中确定出所述目标查询语句的目标关键词,所述目标关键词为所述多个分词中与所述关键词列表中的关键匹配的分词;
处理单元302,还用于计算所述多个分词中每个分词的词向量,并按照预设的加权系数对所述目标关键词的词向量进行加权处理,根据所述加权处理后的每个分词的词向量计算得到所述目标查询语句的特征向量;
处理单元302,还用于将所述目标查询语句的特征向量输入预置的意图识别模型,以得到对所述目标查询语句的识别结果;其中,所述意图识别模型由多个二分类器组成,每个二分类器对应一个意图,所述意图识别模型由所述多个二分类器对应的意图的查询语句样本训练得到,所述识别结果用于指示所述目标查询语句的意图,所述目标查询语句的意图为任一所述二分类器下的意图或无关意图。
可选的,获取单元301,还用于从预设样本数据库分别选取多种意图的查询语句样本;
处理单元302,还用于并分别对每种意图的查询语句样本进行分词处理,以得到每种意图的查询语句样本的分词集合,每种意图的分词集合包括组成该种意图的查询语句样本的多个分词;按照预设的关键词确定规则分别从每种意图的分词集合中确定出每种意图的关键词;计算每个分词的词向量,并按照预设的加权系数对每种意图的关键词的词向量进行加权处理,根据所述加权处理后的每个查询语句的每个分词的词向量计算得到每个查询语句样本的特征向量;
处理单元302,还用于根据所述多种意图的查询语句样本中的每个查询语句样本的特征向量及该查询语句样本对应的意图训练得到所述意图识别模型;其中,所述意图识别模型由多个二分类器组成,所述多个二分类器和所述多种意图一一对应。
可选的,处理单元302在执行所述按照预设的关键词确定规则分别从每种意图的分词集合中确定出每种意图的关键词时,可具体用于:
分别计算得到每种意图的分词集合中的每个分词的词频-逆文件频率TF-IDF值;
将每种意图的分词集合中TF-IDF值超过预设阈值的分词确定为该种意图的关键词;或者,
按照TF-IDF值由大到小的顺序对每种意图的分词集合中的分词进行排序,将所述排序前M的TF-IDF值对应的分词确定为该种意图的关键词,其中,M为大于0的整数。
可选的,处理单元302在执行所述按照预设的关键词确定规则分别从每种意图的分词集合中确定出每种意图的关键词时,可具体用于:
分别计算得到每种意图的分词集合中的每个分词在所述分词集合出现的频率,每个分词对应的频率为该分词在所述分词集合出现的次数与所述分词集合的分词总数目的比值;
将每种意图的分词集合中频率超过预设频率阈值的分词确定为该种意图的关键词;或者,
按照频率由大到小的顺序对每种意图的分词集合中的分词进行排序,将所述排序前N的频率对应的分词确定为该种意图的关键词,其中,N为大于0的整数。
可选的,所述识别设备还包括存储单元303;
处理单元302,还用于根据每种意图的关键词对应的词频-逆文件频率TF-IDF值或频率,为该关键词设置加权系数;其中,每个关键词对应的频率为该关键词在该种意图的分词集合出现的次数与所述分词集合的分词总数目的比值;
存储单元303,用于将每种意图的关键词和该关键词对应的加权系数关联存储至所述关键词列表;
处理单元302在执行所述按照预设的加权系数对所述目标关键词的词向量进行加权处理时,可具体用于:
从所述关键词列表中确定出与所述目标关键词对应的加权系数,并按照确定出的加权系数对所述目标关键词的词向量进行加权处理。
可选的,处理单元302,还可用于分别为所述多个二分类器设置概率阈值,每个二分类器对应的概率阈值用于指示输入的查询语句是否为该二分类器对应的意图;
处理单元302在执行所述将所述目标查询语句的特征向量输入预置的意图识别模型,以得到对所述目标查询语句的识别结果时,可具体用于:
将所述目标查询语句的特征向量输入预置的意图识别模型,以得到所述意图识别模型包括的所述多个二分类器对所述目标查询语句的识别结果,每个二分类器对应的识别结果包括所述目标查询语句的意图为该二分类器的意图的概率;
分别判断每个二分类器的识别结果包括的概率是否低于该二分类器对应的概率阈值;
如果所述多个二分类器的识别结果包括的概率均低于对应的概率阈值,确定所述目标查询语句为无关查询,所述目标查询语句的识别结果用于指示所述目标查询语句的意图为无关意图;
如果存在一个二分类器的识别结果包括的概率不低于该二分类器对应的概率阈值,确定所述目标查询语句的意图为该二分类器的意图,所述目标查询语句的识别结果用于指示所述目标查询语句的意图为该二分类器的意图;
如果存在多个二分类器的识别结果包括的概率不低于对应的概率阈值,确定所述不低于对应的概率阈值的概率中的最大概率,并将所述最大概率对应的二分类器的意图作为所述目标查询语句的意图,所述目标查询语句的识别结果用于指示所述目标查询语句的意图为所述最大概率对应的二分类器的意图。
可选的,处理单元302在执行所述根据所述加权处理后的每个分词的词向量计算得到所述目标查询语句的特征向量时,可具体用于:
计算得到所述加权处理后的每个分词的词向量的和值,并将所述和值作为所述目标查询语句的特征向量;或者,
计算得到所述加权处理后的每个分词的词向量的和值,并计算得到所述和值与所述多个分词的数目的比值,将所述比值作为所述目标查询语句的特征向量。
具体的,该识别设备可通过上述单元实现上述图1至图2所示实施例中的基于识别模型的意图识别方法中的部分或全部步骤。应理解,本申请实施例是对应方法实施例的装置实施例,对方法实施例的描述,也适用于本申请实施例。
请参见图4,图4是本申请实施例提供的另一种识别设备的结构示意图。该识别设备用于执行上述的方法。如图4所示,本实施例中的识别设备400可以包括:一个或多个处理器401和存储器402。可选的,该识别设备还可包括一个或多个用户接口403,和/或,一个或多个通信接口404。上述处理器401、用户接口403、通信接口404和存储器402可通过总线405连接,或者可以通过其他方式连接,图4中以总线方式进行示例说明。其中,存储器402用于存储计算机程序,所述计算机程序包括程序指令,处理器401用于执行存储器402存储的程序指令。其中,处理器401可用于调用所述程序指令执行上述图1至图2中的部分或全部步骤。
例如,处理器401可用于调用所述程序指令执行以下步骤:调用用户接口403接收用户输入的目标查询语句,对所述目标查询语句进行分词处理,以得到组成所述目标查询语句的多个分词;将所述多个分词与预设的关键词列表中的各关键词进行匹配,以从所述多个分词中确定出所述目标查询语句的目标关键词,所述目标关键词为所述多个分词中与所述关键词列表中的关键匹配的分词;计算所述多个分词中每个分词的词向量,并按照预设的加权系数对所述目标关键词的词向量进行加权处理,根据所述加权处理后的每个分词的词向量计算得到所述目标查询语句的特征向量;将所述目标查询语句的特征向量输入预置的意图识别模型,以得到对所述目标查询语句的识别结果;其中,所述意图识别模型由多个二分类器组成,每个二分类器对应一个意图,所述意图识别模型由所述多个二分类器对应的意图的查询语句样本训练得到,所述识别结果用于指示所述目标查询语句的意图,所述目标查询语句的意图为任一所述二分类器下的意图或无关意图。
可选的,处理器401在执行所述将所述目标查询语句的特征向量输入预置的意图识别模型之前,还用于执行以下步骤:从预设样本数据库分别选取多种意图的查询语句样本,并分别对每种意图的查询语句样本进行分词处理,以得到每种意图的查询语句样本的分词集合,每种意图的分词集合包括组成该种意图的查询语句样本的多个分词;按照预设的关键词确定规则分别从每种意图的分词集合中确定出每种意图的关键词;计算每个分词的词向量,并按照预设的加权系数对每种意图的关键词的词向量进行加权处理,根据所述加权处理后的每个查询语句的每个分词的词向量计算得到每个查询语句样本的特征向量;根据所述多种意图的查询语句样本中的每个查询语句样本的特征向量及该查询语句样本对应的意图训练得到所述意图识别模型;其中,所述意图识别模型由多个二分类器组成,所述多个二分类器和所述多种意图一一对应。
可选的,处理器401在执行所述按照预设的关键词确定规则分别从每种意图的分词集合中确定出每种意图的关键词时,可具体执行以下步骤:分别计算得到每种意图的分词集合中的每个分词的词频-逆文件频率TF-IDF值;将每种意图的分词集合中TF-IDF值超过预设阈值的分词确定为该种意图的关键词;或者,按照TF-IDF值由大到小的顺序对每种意图的分词集合中的分词进行排序,将所述排序前M的TF-IDF值对应的分词确定为该种意图的关键词,其中,M为大于0的整数。
可选的,处理器401在执行所述按照预设的关键词确定规则分别从每种意图的分词集合中确定出每种意图的关键词时,可具体执行以下步骤:分别计算得到每种意图的分词集合中的每个分词在所述分词集合出现的频率,每个分词对应的频率为该分词在所述分词集合出现的次数与所述分词集合的分词总数目的比值;将每种意图的分词集合中频率超过预设频率阈值的分词确定为该种意图的关键词;或者,按照频率由大到小的顺序对每种意图的分词集合中的分词进行排序,将所述排序前N的频率对应的分词确定为该种意图的关键词,其中,N为大于0的整数。
可选的,处理器401还可执行以下步骤:根据每种意图的关键词对应的词频-逆文件频率TF-IDF值或频率,为该关键词设置加权系数;其中,每个关键词对应的频率为该关键词在该种意图的分词集合出现的次数与所述分词集合的分词总数目的比值;将每种意图的关键词和该关键词对应的加权系数关联存储至所述关键词列表;
处理器401在执行所述按照预设的加权系数对所述目标关键词的词向量进行加权处理时,可具体执行以下步骤:从所述关键词列表中确定出与所述目标关键词对应的加权系数,并按照确定出的加权系数对所述目标关键词的词向量进行加权处理。
可选的,处理器401还可执行以下步骤:分别为所述多个二分类器设置概率阈值,每个二分类器对应的概率阈值用于指示输入的查询语句是否为该二分类器对应的意图;
处理器401在执行所述将所述目标查询语句的特征向量输入预置的意图识别模型,以得到对所述目标查询语句的识别结果时,可具体执行以下步骤:将所述目标查询语句的特征向量输入预置的意图识别模型,以得到所述意图识别模型包括的所述多个二分类器对所述目标查询语句的识别结果,每个二分类器对应的识别结果包括所述目标查询语句的意图为该二分类器的意图的概率;分别判断每个二分类器的识别结果包括的概率是否低于该二分类器对应的概率阈值;如果所述多个二分类器的识别结果包括的概率均低于对应的概率阈值,确定所述目标查询语句为无关查询,所述目标查询语句的识别结果用于指示所述目标查询语句的意图为无关意图;如果存在一个二分类器的识别结果包括的概率不低于该二分类器对应的概率阈值,确定所述目标查询语句的意图为该二分类器的意图,所述目标查询语句的识别结果用于指示所述目标查询语句的意图为该二分类器的意图;如果存在多个二分类器的识别结果包括的概率不低于对应的概率阈值,确定所述不低于对应的概率阈值的概率中的最大概率,并将所述最大概率对应的二分类器的意图作为所述目标查询语句的意图,所述目标查询语句的识别结果用于指示所述目标查询语句的意图为所述最大概率对应的二分类器的意图。
可选的,处理器401在执行所述根据所述加权处理后的每个分词的词向量计算得到所述目标查询语句的特征向量时,可具体执行以下步骤:计算得到所述加权处理后的每个分词的词向量的和值,并将所述和值作为所述目标查询语句的特征向量;或者,计算得到所述加权处理后的每个分词的词向量的和值,并计算得到所述和值与所述多个分词的数目的比值,将所述比值作为所述目标查询语句的特征向量。
其中,所述处理器401可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
用户接口403可包括输入设备和输出设备,输入设备可以包括触控板、麦克风等,输出设备可以包括显示器(LCD等)、扬声器等。
通信接口404可包括接收器和发射器,用于与其他设备进行通信。
存储器402可以包括只读存储器和随机存取存储器,并向处理器401提供指令和数据。存储器402的一部分还可以包括非易失性随机存取存储器。例如,存储器402还可以存储上述的关键词列表、分词等等。
具体实现中,本申请实施例中所描述的处理器401等可执行上述图1至图2所示的方法实施例中所描述的实现方式,也可执行本申请实施例图3所描述的各单元的实现方式,此处不赘述。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现图1至图2所对应实施例中描述的基于识别模型的意图识别方法中的部分或全部步骤,也可实现本申请图3或图4所示实施例的识别设备的功能,此处不赘述。
本申请实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述方法中的部分或全部步骤。
所述计算机可读存储介质可以是前述任一实施例所述的识别设备的内部存储单元,例如识别设备的硬盘或内存。所述计算机可读存储介质也可以是所述识别设备的外部存储设备,例如所述识别设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
在本申请中,术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
以上所述,仅为本申请的部分实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。
Claims (10)
1.一种基于识别模型的意图识别方法,其特征在于,包括:
接收用户输入的目标查询语句,对所述目标查询语句进行分词处理,以得到组成所述目标查询语句的多个分词;
将所述多个分词与预设的关键词列表中的各关键词进行匹配,以从所述多个分词中确定出所述目标查询语句的目标关键词,所述目标关键词为所述多个分词中与所述关键词列表中的关键匹配的分词;
计算所述多个分词中每个分词的词向量,并按照预设的加权系数对所述目标关键词的词向量进行加权处理,根据所述加权处理后的每个分词的词向量计算得到所述目标查询语句的特征向量;
将所述目标查询语句的特征向量输入预置的意图识别模型,以得到对所述目标查询语句的识别结果;其中,所述意图识别模型由多个二分类器组成,每个二分类器对应一个意图,所述意图识别模型由所述多个二分类器对应的意图的查询语句样本训练得到,所述识别结果用于指示所述目标查询语句的意图,所述目标查询语句的意图为任一所述二分类器下的意图或无关意图。
2.根据权利要求1所述的方法,其特征在于,在所述将所述目标查询语句的特征向量输入预置的意图识别模型之前,所述方法还包括:
从预设样本数据库分别选取多种意图的查询语句样本,并分别对每种意图的查询语句样本进行分词处理,以得到每种意图的查询语句样本的分词集合,每种意图的分词集合包括组成该种意图的查询语句样本的多个分词;
按照预设的关键词确定规则分别从每种意图的分词集合中确定出每种意图的关键词;
计算每个分词的词向量,并按照预设的加权系数对每种意图的关键词的词向量进行加权处理,根据所述加权处理后的每个查询语句的每个分词的词向量计算得到每个查询语句样本的特征向量;
根据所述多种意图的查询语句样本中的每个查询语句样本的特征向量及该查询语句样本对应的意图训练得到所述意图识别模型;其中,所述意图识别模型由多个二分类器组成,所述多个二分类器和所述多种意图一一对应。
3.根据权利要求2所述的方法,其特征在于,所述按照预设的关键词确定规则分别从每种意图的分词集合中确定出每种意图的关键词,包括:
分别计算得到每种意图的分词集合中的每个分词的词频-逆文件频率TF-IDF值;
将每种意图的分词集合中TF-IDF值超过预设阈值的分词确定为该种意图的关键词;或者,
按照TF-IDF值由大到小的顺序对每种意图的分词集合中的分词进行排序,将所述排序前M的TF-IDF值对应的分词确定为该种意图的关键词,其中,M为大于0的整数。
4.根据权利要求2所述的方法,其特征在于,所述按照预设的关键词确定规则分别从每种意图的分词集合中确定出每种意图的关键词,包括:
分别计算得到每种意图的分词集合中的每个分词在所述分词集合出现的频率,每个分词对应的频率为该分词在所述分词集合出现的次数与所述分词集合的分词总数目的比值;
将每种意图的分词集合中频率超过预设频率阈值的分词确定为该种意图的关键词;或者,
按照频率由大到小的顺序对每种意图的分词集合中的分词进行排序,将所述排序前N的频率对应的分词确定为该种意图的关键词,其中,N为大于0的整数。
5.根据权利要求3或4所述的方法,其特征在于,所述方法还包括:
根据每种意图的关键词对应的词频-逆文件频率TF-IDF值或频率,为该关键词设置加权系数;其中,每个关键词对应的频率为该关键词在该种意图的分词集合出现的次数与所述分词集合的分词总数目的比值;
将每种意图的关键词和该关键词对应的加权系数关联存储至所述关键词列表;
所述按照预设的加权系数对所述目标关键词的词向量进行加权处理,包括:
从所述关键词列表中确定出与所述目标关键词对应的加权系数,并按照确定出的加权系数对所述目标关键词的词向量进行加权处理。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括;
分别为所述多个二分类器设置概率阈值,每个二分类器对应的概率阈值用于指示输入的查询语句是否为该二分类器对应的意图;
所述将所述目标查询语句的特征向量输入预置的意图识别模型,以得到对所述目标查询语句的识别结果,包括:
将所述目标查询语句的特征向量输入预置的意图识别模型,以得到所述意图识别模型包括的所述多个二分类器对所述目标查询语句的识别结果,每个二分类器对应的识别结果包括所述目标查询语句的意图为该二分类器的意图的概率;
分别判断每个二分类器的识别结果包括的概率是否低于该二分类器对应的概率阈值;
如果所述多个二分类器的识别结果包括的概率均低于对应的概率阈值,确定所述目标查询语句为无关查询,所述目标查询语句的识别结果用于指示所述目标查询语句的意图为无关意图;
如果存在一个二分类器的识别结果包括的概率不低于该二分类器对应的概率阈值,确定所述目标查询语句的意图为该二分类器的意图,所述目标查询语句的识别结果用于指示所述目标查询语句的意图为该二分类器的意图;
如果存在多个二分类器的识别结果包括的概率不低于对应的概率阈值,确定所述不低于对应的概率阈值的概率中的最大概率,并将所述最大概率对应的二分类器的意图作为所述目标查询语句的意图,所述目标查询语句的识别结果用于指示所述目标查询语句的意图为所述最大概率对应的二分类器的意图。
7.根据权利要求1所述的方法,其特征在于,所述根据所述加权处理后的每个分词的词向量计算得到所述目标查询语句的特征向量,包括:
计算得到所述加权处理后的每个分词的词向量的和值,并将所述和值作为所述目标查询语句的特征向量;或者,
计算得到所述加权处理后的每个分词的词向量的和值,并计算得到所述和值与所述多个分词的数目的比值,将所述比值作为所述目标查询语句的特征向量。
8.一种识别设备,其特征在于,包括用于执行如权利要求1-7任一项权利要求所述的方法的单元。
9.一种识别设备,其特征在于,包括处理器和存储器,所述处理器和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910015234.6A CN109815492A (zh) | 2019-01-04 | 2019-01-04 | 一种基于识别模型的意图识别方法、识别设备及介质 |
PCT/CN2019/088802 WO2020140372A1 (zh) | 2019-01-04 | 2019-05-28 | 一种基于识别模型的意图识别方法、识别设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910015234.6A CN109815492A (zh) | 2019-01-04 | 2019-01-04 | 一种基于识别模型的意图识别方法、识别设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109815492A true CN109815492A (zh) | 2019-05-28 |
Family
ID=66604088
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910015234.6A Withdrawn CN109815492A (zh) | 2019-01-04 | 2019-01-04 | 一种基于识别模型的意图识别方法、识别设备及介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN109815492A (zh) |
WO (1) | WO2020140372A1 (zh) |
Cited By (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110210030A (zh) * | 2019-05-31 | 2019-09-06 | 三角兽(北京)科技有限公司 | 语句分析的方法及装置 |
CN110263854A (zh) * | 2019-06-20 | 2019-09-20 | 广州酷狗计算机科技有限公司 | 直播标签确定方法、装置及存储介质 |
CN110297544A (zh) * | 2019-06-28 | 2019-10-01 | 联想(北京)有限公司 | 输入信息响应方法及装置、计算机系统和可读存储介质 |
CN110472027A (zh) * | 2019-07-18 | 2019-11-19 | 平安科技(深圳)有限公司 | 意图识别方法、设备及计算机可读存储介质 |
CN110503143A (zh) * | 2019-08-14 | 2019-11-26 | 平安科技(深圳)有限公司 | 基于意图识别的阈值选取方法、设备、存储介质及装置 |
CN110737768A (zh) * | 2019-10-16 | 2020-01-31 | 信雅达系统工程股份有限公司 | 基于深度学习的文本摘要自动生成方法及装置、存储介质 |
CN111008309A (zh) * | 2019-12-06 | 2020-04-14 | 北京百度网讯科技有限公司 | 查询方法及装置 |
CN111159360A (zh) * | 2019-12-31 | 2020-05-15 | 合肥讯飞数码科技有限公司 | 获得讯询问话题分类模型、讯询问话题分类的方法和装置 |
CN111198938A (zh) * | 2019-12-26 | 2020-05-26 | 深圳市优必选科技股份有限公司 | 一种样本数据处理方法、样本数据处理装置及电子设备 |
CN111539208A (zh) * | 2020-06-22 | 2020-08-14 | 北京百度网讯科技有限公司 | 语句处理方法和装置、以及电子设备和可读存储介质 |
CN111581388A (zh) * | 2020-05-11 | 2020-08-25 | 北京金山安全软件有限公司 | 一种用户意图识别方法、装置及电子设备 |
CN111651600A (zh) * | 2020-06-02 | 2020-09-11 | 携程计算机技术(上海)有限公司 | 语句多意图识别方法、系统、电子设备及存储介质 |
CN111737436A (zh) * | 2020-06-24 | 2020-10-02 | 网易(杭州)网络有限公司 | 语料的意图识别方法及装置、电子设备、存储介质 |
CN111797214A (zh) * | 2020-06-24 | 2020-10-20 | 深圳壹账通智能科技有限公司 | 基于faq数据库的问题筛选方法、装置、计算机设备及介质 |
CN111797115A (zh) * | 2020-06-28 | 2020-10-20 | 中国工商银行股份有限公司 | 一种员工信息的搜索方法及装置 |
CN111832305A (zh) * | 2020-07-03 | 2020-10-27 | 广州小鹏车联网科技有限公司 | 一种用户意图识别方法、装置、服务器和介质 |
CN112100368A (zh) * | 2020-07-21 | 2020-12-18 | 深思考人工智能科技(上海)有限公司 | 对话交互意图的识别方法和装置 |
CN112163415A (zh) * | 2020-09-30 | 2021-01-01 | 北京猎豹移动科技有限公司 | 针对反馈内容的用户意图识别方法、装置及电子设备 |
CN112232068A (zh) * | 2020-09-30 | 2021-01-15 | 和美(深圳)信息技术股份有限公司 | 一种意图识别方法、装置、电子设备及存储介质 |
CN112287108A (zh) * | 2020-10-29 | 2021-01-29 | 四川长虹电器股份有限公司 | 一种物联领域的意图识别优化方法 |
WO2021057250A1 (zh) * | 2019-09-24 | 2021-04-01 | 苏宁云计算有限公司 | 一种商品搜索的查询策略的生成方法及装置 |
CN112800201A (zh) * | 2021-01-28 | 2021-05-14 | 杭州汇数智通科技有限公司 | 自然语言的处理方法、装置及电子设备 |
CN112989839A (zh) * | 2019-12-18 | 2021-06-18 | 中国科学院声学研究所 | 一种基于关键词特征嵌入语言模型的意图识别方法及系统 |
CN113157892A (zh) * | 2021-05-24 | 2021-07-23 | 中国平安人寿保险股份有限公司 | 用户意图处理方法、装置、计算机设备及存储介质 |
CN113496118A (zh) * | 2020-04-07 | 2021-10-12 | 北京中科闻歌科技股份有限公司 | 一种新闻主体识别方法、设备和计算机可读存储介质 |
CN113707300A (zh) * | 2021-08-30 | 2021-11-26 | 康键信息技术(深圳)有限公司 | 基于人工智能的搜索意图识别方法、装置、设备及介质 |
CN113792549A (zh) * | 2021-09-17 | 2021-12-14 | 中国平安人寿保险股份有限公司 | 一种用户意图识别的方法、装置、计算机设备及存储介质 |
CN113806469A (zh) * | 2020-06-12 | 2021-12-17 | 华为技术有限公司 | 语句意图识别方法及终端设备 |
CN114422199A (zh) * | 2021-12-28 | 2022-04-29 | 中国电信股份有限公司 | 一种cms识别方法及装置 |
CN114757267A (zh) * | 2022-03-25 | 2022-07-15 | 北京爱奇艺科技有限公司 | 识别噪声query的方法、装置、电子设备和可读存储介质 |
CN116738973A (zh) * | 2022-09-30 | 2023-09-12 | 荣耀终端有限公司 | 一种搜索意图识别方法、构建预测模型的方法和电子设备 |
CN116756294A (zh) * | 2023-08-14 | 2023-09-15 | 北京智精灵科技有限公司 | 对话意图识别模型的构建方法、对话意图识别方法及系统 |
CN113496118B (zh) * | 2020-04-07 | 2024-05-31 | 北京中科闻歌科技股份有限公司 | 一种新闻主体识别方法、设备和计算机可读存储介质 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112786041B (zh) * | 2020-12-23 | 2023-11-24 | 光禹莱特数字科技(上海)有限公司 | 语音处理方法及相关设备 |
US11741956B2 (en) | 2021-02-26 | 2023-08-29 | Walmart Apollo, Llc | Methods and apparatus for intent recognition |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002297635A (ja) * | 2001-03-30 | 2002-10-11 | Seiko Epson Corp | 要約文作成システム及びその方法 |
CN105389307A (zh) * | 2015-12-02 | 2016-03-09 | 上海智臻智能网络科技股份有限公司 | 语句意图类别识别方法及装置 |
CN107329949A (zh) * | 2017-05-24 | 2017-11-07 | 北京捷通华声科技股份有限公司 | 一种语义匹配方法和系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9058319B2 (en) * | 2007-06-18 | 2015-06-16 | International Business Machines Corporation | Sub-model generation to improve classification accuracy |
CN106407333B (zh) * | 2016-09-05 | 2020-03-03 | 北京百度网讯科技有限公司 | 基于人工智能的口语查询识别方法及装置 |
-
2019
- 2019-01-04 CN CN201910015234.6A patent/CN109815492A/zh not_active Withdrawn
- 2019-05-28 WO PCT/CN2019/088802 patent/WO2020140372A1/zh active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002297635A (ja) * | 2001-03-30 | 2002-10-11 | Seiko Epson Corp | 要約文作成システム及びその方法 |
CN105389307A (zh) * | 2015-12-02 | 2016-03-09 | 上海智臻智能网络科技股份有限公司 | 语句意图类别识别方法及装置 |
CN107329949A (zh) * | 2017-05-24 | 2017-11-07 | 北京捷通华声科技股份有限公司 | 一种语义匹配方法和系统 |
Cited By (52)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110210030A (zh) * | 2019-05-31 | 2019-09-06 | 三角兽(北京)科技有限公司 | 语句分析的方法及装置 |
CN110263854A (zh) * | 2019-06-20 | 2019-09-20 | 广州酷狗计算机科技有限公司 | 直播标签确定方法、装置及存储介质 |
CN110297544A (zh) * | 2019-06-28 | 2019-10-01 | 联想(北京)有限公司 | 输入信息响应方法及装置、计算机系统和可读存储介质 |
CN110297544B (zh) * | 2019-06-28 | 2021-08-17 | 联想(北京)有限公司 | 输入信息响应方法及装置、计算机系统和可读存储介质 |
CN110472027A (zh) * | 2019-07-18 | 2019-11-19 | 平安科技(深圳)有限公司 | 意图识别方法、设备及计算机可读存储介质 |
CN110472027B (zh) * | 2019-07-18 | 2024-05-14 | 平安科技(深圳)有限公司 | 意图识别方法、设备及计算机可读存储介质 |
CN110503143B (zh) * | 2019-08-14 | 2024-03-19 | 平安科技(深圳)有限公司 | 基于意图识别的阈值选取方法、设备、存储介质及装置 |
CN110503143A (zh) * | 2019-08-14 | 2019-11-26 | 平安科技(深圳)有限公司 | 基于意图识别的阈值选取方法、设备、存储介质及装置 |
WO2021057250A1 (zh) * | 2019-09-24 | 2021-04-01 | 苏宁云计算有限公司 | 一种商品搜索的查询策略的生成方法及装置 |
CN110737768A (zh) * | 2019-10-16 | 2020-01-31 | 信雅达系统工程股份有限公司 | 基于深度学习的文本摘要自动生成方法及装置、存储介质 |
CN110737768B (zh) * | 2019-10-16 | 2022-04-08 | 信雅达科技股份有限公司 | 基于深度学习的文本摘要自动生成方法及装置、存储介质 |
CN111008309A (zh) * | 2019-12-06 | 2020-04-14 | 北京百度网讯科技有限公司 | 查询方法及装置 |
CN111008309B (zh) * | 2019-12-06 | 2023-08-08 | 北京百度网讯科技有限公司 | 查询方法及装置 |
CN112989839A (zh) * | 2019-12-18 | 2021-06-18 | 中国科学院声学研究所 | 一种基于关键词特征嵌入语言模型的意图识别方法及系统 |
CN111198938B (zh) * | 2019-12-26 | 2023-12-01 | 深圳市优必选科技股份有限公司 | 一种样本数据处理方法、样本数据处理装置及电子设备 |
CN111198938A (zh) * | 2019-12-26 | 2020-05-26 | 深圳市优必选科技股份有限公司 | 一种样本数据处理方法、样本数据处理装置及电子设备 |
CN111159360A (zh) * | 2019-12-31 | 2020-05-15 | 合肥讯飞数码科技有限公司 | 获得讯询问话题分类模型、讯询问话题分类的方法和装置 |
CN113496118B (zh) * | 2020-04-07 | 2024-05-31 | 北京中科闻歌科技股份有限公司 | 一种新闻主体识别方法、设备和计算机可读存储介质 |
CN113496118A (zh) * | 2020-04-07 | 2021-10-12 | 北京中科闻歌科技股份有限公司 | 一种新闻主体识别方法、设备和计算机可读存储介质 |
CN111581388B (zh) * | 2020-05-11 | 2023-09-19 | 北京金山安全软件有限公司 | 一种用户意图识别方法、装置及电子设备 |
CN111581388A (zh) * | 2020-05-11 | 2020-08-25 | 北京金山安全软件有限公司 | 一种用户意图识别方法、装置及电子设备 |
CN111651600A (zh) * | 2020-06-02 | 2020-09-11 | 携程计算机技术(上海)有限公司 | 语句多意图识别方法、系统、电子设备及存储介质 |
CN111651600B (zh) * | 2020-06-02 | 2023-04-07 | 携程计算机技术(上海)有限公司 | 语句多意图识别方法、系统、电子设备及存储介质 |
CN113806469B (zh) * | 2020-06-12 | 2024-06-11 | 华为技术有限公司 | 语句意图识别方法及终端设备 |
CN113806469A (zh) * | 2020-06-12 | 2021-12-17 | 华为技术有限公司 | 语句意图识别方法及终端设备 |
CN111539208B (zh) * | 2020-06-22 | 2023-11-14 | 北京百度网讯科技有限公司 | 语句处理方法和装置、以及电子设备和可读存储介质 |
CN111539208A (zh) * | 2020-06-22 | 2020-08-14 | 北京百度网讯科技有限公司 | 语句处理方法和装置、以及电子设备和可读存储介质 |
CN111737436A (zh) * | 2020-06-24 | 2020-10-02 | 网易(杭州)网络有限公司 | 语料的意图识别方法及装置、电子设备、存储介质 |
CN111797214A (zh) * | 2020-06-24 | 2020-10-20 | 深圳壹账通智能科技有限公司 | 基于faq数据库的问题筛选方法、装置、计算机设备及介质 |
CN111797115A (zh) * | 2020-06-28 | 2020-10-20 | 中国工商银行股份有限公司 | 一种员工信息的搜索方法及装置 |
CN111832305B (zh) * | 2020-07-03 | 2023-08-25 | 北京小鹏汽车有限公司 | 一种用户意图识别方法、装置、服务器和介质 |
CN111832305A (zh) * | 2020-07-03 | 2020-10-27 | 广州小鹏车联网科技有限公司 | 一种用户意图识别方法、装置、服务器和介质 |
CN112100368B (zh) * | 2020-07-21 | 2024-01-26 | 深思考人工智能科技(上海)有限公司 | 对话交互意图的识别方法和装置 |
CN112100368A (zh) * | 2020-07-21 | 2020-12-18 | 深思考人工智能科技(上海)有限公司 | 对话交互意图的识别方法和装置 |
CN112232068B (zh) * | 2020-09-30 | 2023-05-05 | 和美(深圳)信息技术股份有限公司 | 一种意图识别方法、装置、电子设备及存储介质 |
CN112232068A (zh) * | 2020-09-30 | 2021-01-15 | 和美(深圳)信息技术股份有限公司 | 一种意图识别方法、装置、电子设备及存储介质 |
CN112163415A (zh) * | 2020-09-30 | 2021-01-01 | 北京猎豹移动科技有限公司 | 针对反馈内容的用户意图识别方法、装置及电子设备 |
CN112287108B (zh) * | 2020-10-29 | 2022-08-16 | 四川长虹电器股份有限公司 | 一种物联领域的意图识别优化方法 |
CN112287108A (zh) * | 2020-10-29 | 2021-01-29 | 四川长虹电器股份有限公司 | 一种物联领域的意图识别优化方法 |
CN112800201B (zh) * | 2021-01-28 | 2023-06-09 | 杭州汇数智通科技有限公司 | 自然语言的处理方法、装置及电子设备 |
CN112800201A (zh) * | 2021-01-28 | 2021-05-14 | 杭州汇数智通科技有限公司 | 自然语言的处理方法、装置及电子设备 |
CN113157892A (zh) * | 2021-05-24 | 2021-07-23 | 中国平安人寿保险股份有限公司 | 用户意图处理方法、装置、计算机设备及存储介质 |
CN113707300A (zh) * | 2021-08-30 | 2021-11-26 | 康键信息技术(深圳)有限公司 | 基于人工智能的搜索意图识别方法、装置、设备及介质 |
CN113792549B (zh) * | 2021-09-17 | 2023-08-08 | 中国平安人寿保险股份有限公司 | 一种用户意图识别的方法、装置、计算机设备及存储介质 |
CN113792549A (zh) * | 2021-09-17 | 2021-12-14 | 中国平安人寿保险股份有限公司 | 一种用户意图识别的方法、装置、计算机设备及存储介质 |
CN114422199B (zh) * | 2021-12-28 | 2024-04-16 | 中国电信股份有限公司 | 一种cms识别方法及装置 |
CN114422199A (zh) * | 2021-12-28 | 2022-04-29 | 中国电信股份有限公司 | 一种cms识别方法及装置 |
CN114757267A (zh) * | 2022-03-25 | 2022-07-15 | 北京爱奇艺科技有限公司 | 识别噪声query的方法、装置、电子设备和可读存储介质 |
CN116738973A (zh) * | 2022-09-30 | 2023-09-12 | 荣耀终端有限公司 | 一种搜索意图识别方法、构建预测模型的方法和电子设备 |
CN116738973B (zh) * | 2022-09-30 | 2024-04-19 | 荣耀终端有限公司 | 一种搜索意图识别方法、构建预测模型的方法和电子设备 |
CN116756294A (zh) * | 2023-08-14 | 2023-09-15 | 北京智精灵科技有限公司 | 对话意图识别模型的构建方法、对话意图识别方法及系统 |
CN116756294B (zh) * | 2023-08-14 | 2023-12-26 | 北京智精灵科技有限公司 | 对话意图识别模型的构建方法、对话意图识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
WO2020140372A1 (zh) | 2020-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109815492A (zh) | 一种基于识别模型的意图识别方法、识别设备及介质 | |
Huang et al. | Generative dual adversarial network for generalized zero-shot learning | |
CN109815314B (zh) | 一种意图识别方法、识别设备及计算机可读存储介质 | |
CN107515877B (zh) | 敏感主题词集的生成方法和装置 | |
CN103136504B (zh) | 人脸识别方法及装置 | |
Bavkar et al. | Multimodal sarcasm detection via hybrid classifier with optimistic logic | |
US8050929B2 (en) | Method and system of optimal selection strategy for statistical classifications in dialog systems | |
CN110472027B (zh) | 意图识别方法、设备及计算机可读存储介质 | |
CN107844559A (zh) | 一种文件分类方法、装置及电子设备 | |
US7769759B1 (en) | Data classification based on point-of-view dependency | |
Li et al. | Confidence-based dynamic ensemble for image annotation and semantics discovery | |
CN105787025B (zh) | 网络平台公共账号分类方法及装置 | |
US20050086045A1 (en) | Question answering system and question answering processing method | |
CN110717554B (zh) | 图像识别方法、电子设备及存储介质 | |
US20090055176A1 (en) | Method and System of Optimal Selection Strategy for Statistical Classifications | |
CN106156163B (zh) | 文本分类方法以及装置 | |
CN104834940A (zh) | 一种基于支持向量机的医疗影像检查疾病分类方法 | |
CN112347244A (zh) | 基于混合特征分析的涉黄、涉赌网站检测方法 | |
Probierz et al. | Rapid detection of fake news based on machine learning methods | |
CN106649849A (zh) | 文本信息库建立方法和装置、以及搜索方法、装置和系统 | |
CN102156885A (zh) | 基于级联式码本生成的图像分类方法 | |
CN113254643B (zh) | 文本分类方法、装置、电子设备和 | |
CN112347223B (zh) | 文档检索方法、设备及计算机可读存储介质 | |
Berchtold et al. | An extensible modular recognition concept that makes activity recognition practical | |
CN108287848B (zh) | 用于语义解析的方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20190528 |