CN109815314B - 一种意图识别方法、识别设备及计算机可读存储介质 - Google Patents
一种意图识别方法、识别设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN109815314B CN109815314B CN201910013964.2A CN201910013964A CN109815314B CN 109815314 B CN109815314 B CN 109815314B CN 201910013964 A CN201910013964 A CN 201910013964A CN 109815314 B CN109815314 B CN 109815314B
- Authority
- CN
- China
- Prior art keywords
- intention
- word
- sub
- sentence
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 71
- 230000011218 segmentation Effects 0.000 claims abstract description 152
- 238000012545 processing Methods 0.000 claims abstract description 34
- 238000004590 computer program Methods 0.000 claims description 10
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000004891 communication Methods 0.000 description 7
- 238000000546 chi-square test Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 3
- 239000012634 fragment Substances 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种意图识别方法、识别设备及计算机可读存储介质,应用于人工智能技术领域。其中,该方法包括:接收用户输入的待识别语句,并对所述待识别语句进行分词处理,以得到组成所述待识别语句的多个分词;遍历预置的意图概念树的各意图节点下的关键词,以确定所述多个分词在各意图节点下的关键词中命中的各第一目标关键词;根据各第一目标关键词对应的权值计算所述待识别语句在各意图节点对应的意图的意图得分;确定各意图节点对应的意图的意图得分中的最高意图得分;如果所述最高意图得分大于第一阈值,确定所述待识别语句的意图为所述最高意图得分对应的意图。采用本申请,有助于提升意图识别的准确性。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种意图识别方法、识别设备及计算机可读存储介质。
背景技术
目前的意图识别方式主要是基于机器学习或者深度学习的方法进行意图识别,该机器学习或深度学习往往需要大量的训练样本。而在某些领域或场景下,可提供的训练样本比较少,比如在服务机器人领域,机器人处理特定领域业务咨询过程中,涉及的训练样本较少,如果仍使用该基于机器学习或者深度学习的方法进行意图识别,可能会由于数据训练样本较少使得训练出来的模型无法准确识别出用户意图,甚至无法识别该用户意图,导致无法给用户提供较为准确的业务问答。
发明内容
本申请实施例提供一种意图识别方法、识别设备及计算机可读存储介质,有助于提升意图识别的准确性。
第一方面,本申请实施例提供了一种意图识别方法,包括:
接收用户输入的待识别语句,并对所述待识别语句进行分词处理,以得到组成所述待识别语句的多个分词;
遍历预置的意图概念树的各意图节点下的关键词,以确定所述多个分词在各意图节点下的关键词中命中的各第一目标关键词;其中,所述意图概念树包括多个意图节点,每个意图节点对应一种意图,且每个意图节点下包括多个关键词,每个关键词对应一个权值;
根据各第一目标关键词对应的权值计算所述待识别语句在各意图节点对应的意图的意图得分;
确定各意图节点对应的意图的意图得分中的最高意图得分,并判断所述最高意图得分是否大于预设的第一阈值;
如果所述最高意图得分大于所述第一阈值,确定所述待识别语句的意图为所述最高意图得分对应的意图。
可选的,所述方法还包括:
从预设样本数据库分别选取多种意图的查询语句样本,并分别对每种意图的查询语句样本进行分词处理,以得到每种意图的查询语句样本的分词集合,每种意图的分词集合包括组成该种意图的查询语句样本的多个分词;
按照预设的关键词确定规则分别从每种意图的分词集合中确定出每种意图的关键词,并设置各关键词对应的权值;
根据所述多种意图、每种意图的关键词以及每个关键词的权值建立所述意图概念树。
可选的,所述方法还包括:
如果所述多种意图中存在包括子意图的意图,根据意图的子意图对该种意图的分词集合进行分组,以得到多个分词组,所述子意图和所述分词组一一对应,每个分词组包括一种子意图的查询语句样本的分词;
按照预设的关键词确定规则分别从每种子意图的分词组中确定出每种子意图的关键词,并设置每种子意图的关键词的权值;
所述根据所述多种意图、每种意图的关键词以及每个关键词的权值建立所述意图概念树,包括:
根据所述多种意图、每种意图的关键词、每种子意图的关键词以及每个关键词的权值建立所述意图概念树;其中,每个子意图节点下包括多个关键词;
在所述确定所述待识别语句的意图为所述最高意图得分对应的意图之前,所述方法还包括:
如果所述最高意图得分大于所述第一阈值,确定所述最高意图得分对应的意图节点是否存在子意图节点;
如果存在子意图节点,遍历各子意图节点下的关键词,以确定所述多个分词在各子意图节点下的关键词中命中的各第二目标关键词,并根据各第二目标关键词对应的权值计算所述待识别语句在各子意图节点对应的子意图的子意图得分;
确定各子意图节点对应的子意图的子意图得分中的最高子意图得分,并判断所述最高子意图得分是否大于预设的第二阈值;
如果所述最高子意图得分不大于所述第二阈值,触发所述确定所述待识别语句的意图为所述最高意图得分对应的意图的步骤。
可选的,所述方法还包括:
如果所述最高意图得分不大于所述第一阈值,确定所述待识别语句的意图为各意图节点对应的意图以外的无关意图;
输出预设的提示消息,所述提示消息用于指示用户输入新的待识别语句,以基于所述新的待识别语句进行意图识别。
可选的,所述按照预设的关键词确定规则分别从每种意图的分词集合中确定出每种意图的关键词,包括:
分别计算得到每种意图的分词集合中的每个分词的词频-逆文件频率TF-IDF值;
将每种意图的分词集合中TF-IDF值超过预设阈值的分词确定为该种意图的关键词;或者,
按照TF-IDF值由大到小的顺序对每种意图的分词集合中的分词进行排序,将所述排序前M的TF-IDF值对应的分词确定为该种意图的关键词,其中,M为大于0的整数。
可选的,所述按照预设的关键词确定规则分别从每种意图的分词集合中确定出每种意图的关键词,包括:
分别计算得到每种意图的分词集合中的每个分词的在所述分词集合出现的频率,每个分词对应的频率为该分词在所述分词集合出现的次数与所述分词集合的分词总数目的比值;
将每种意图的分词集合中频率超过预设频率阈值的分词确定为该种意图的关键词;或者,
按照频率由大到小的顺序对每种意图的分词集合中的分词进行排序,将所述排序前N的频率对应的分词确定为该种意图的关键词,其中,N为大于0的整数。
可选的,所述第一目标关键词对应的权值为所述第一目标关键词的词频-逆文件频率TF-IDF值,或者,所述第一目标关键词对应的权值为所述第一目标关键词在对应的意图的分词集合出现的次数或频率;
所述根据各第一目标关键词对应的权值计算所述待识别语句在各意图节点对应的意图的意图得分,包括:
分别计算所述多个分词在各意图节点下命中的第一目标关键词对应的权值的和值,并将每个意图节点对应的和值作为所述待识别语句在该意图节点对应的意图的意图得分,以得到所述待识别语句在各意图节点对应的意图的意图得分。
第二方面,本申请实施例提供了一种识别设备,该识别设备包括用于执行上述第一方面的方法的单元。
第三方面,本申请实施例提供了另一种识别设备,包括处理器和存储器,所述处理器和存储器相互连接,其中,所述存储器用于存储支持识别设备执行上述方法的计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行上述第一方面的方法。可选的,该识别设备还可包括通信接口和/或用户接口。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述第一方面的方法。
本申请实施例能够通过对待识别语句进行分词处理得到多个分词,并通过遍历预置的意图概念树的各意图节点下的关键词,以确定该多个分词在各意图节点下的关键词中命中的关键词,进而根据该命中的关键词对应的权值计算该待识别语句在各意图节点对应的意图下的意图得分,以根据该意图得分确定该待识别语句的意图,从而实现意图识别,这就有助于提升意图识别的准确性。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种意图识别方法的流程示意图;
图2是本申请实施例提供的另一种意图识别方法的流程示意图;
图3是本申请实施例提供的一种识别设备的结构示意图;
图4是本申请实施例提供的另一种识别设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的技术方案可应用于识别设备中,该识别设备可包括服务器、终端、机器人或其他识别设备,用于对用户查询语句的意图进行识别。本申请涉及的终端可以是手机、电脑、平板、个人计算机、智能手表等,本申请不做限定。
具体的,本申请能够通过对获取到的待识别语句进行分词处理以得到多个分词,并通过遍历预置的意图概念树的各意图节点下的关键词,以确定该多个分词在各意图节点下的关键词中命中的关键词,进而根据该命中的关键词对应的权值计算该待识别语句在各意图节点对应的意图下的意图得分,以根据该意图得分确定该待识别语句的意图,从而实现意图识别,这就有助于提升意图识别的准确性,且无需大量样本。以下分别详细说明。
请参见图1,图1是本申请实施例提供的一种意图识别方法的流程示意图。具体的,本实施例的方法可应用于上述的识别设备如机器人中。如图1所示,该意图识别方法可以包括以下步骤:
101、接收用户输入的待识别语句,并对该待识别语句进行分词处理,以得到组成该待识别语句的多个分词。
其中,该待识别语句可以是待进行意图识别的任一语句,比如识别设备如机器人接收到的任一语句。可选的,该语句可以是文本,也可以是语音,也可以是视频中的语句。进一步可选的,如果获取到的语句为文本以外的语句,识别设备在获取到该语句之后,还可将该语句转换为文本语句,以便于快速实现对该语句进行分词处理及意图识别。例如,进行意图识别的对象可以是语音、文本、图片、影像等等,识别设备可通过获取如接收用户输入的语音、文字、图片、影像对象等,从获取到的语音、文字、图片、影像信息中提取出句子文本,或者说将接收到的语音、文字、图片、影像等信息转换为句子文本,以得到该待识别语句,进而对该待识别语句进行分词,以实现对该语音、文字、图片、影像等对象的意图识别。
可选的,该分词处理对应的分词方法可以为结巴分词或斯坦福分词法或其他分词方法,本申请不做限定。
进一步可选的,对该待识别语句进行分词处理,得到的该组成该待识别语句的多个分词(还可称为词、词语、词条等等)可以为组成该待识别语句的所有分词,也可以为组成该待识别语句的所有分词中的部分分词,比如为该所有分词中去掉停用词或其他无意义的分词后的分词,以便于减小后续的关键词匹配开销即遍历概念树的靠小,这就有助于提升意图识别效率。例如,可预置一个过滤列表,该过滤列表可包括各种停用词或其他无意义的词,如“啊”、“哦”、“的”等等,从而在对查询语句进行分词后,能够通过与该过滤列表中的词进行匹配对比的方式确定出查询语句中的停用词等无意义的词,并去掉这些词。
可以理解,该待识别语句可以仅包含一个分词,也即,对该待识别语句进行分词处理,得到的组成该待识别语句的分词可以为一个或多个分词。该基于一个分词的意图识别方法与该基于多个分词的意图识别方法相同,为便于理解,本申请以该多个分词为例进行说明。
102、遍历预置的意图概念树的各意图节点下的关键词,以确定该多个分词在各意图节点下的关键词中命中的各第一目标关键词。
其中,该意图概念树可以是通过选取多种意图的查询语句样本,以确定出每种意图的关键词及设置得到每个关键词的权值,进而根据多种意图、该多种意图中每种意图的关键词以及每个关键词的权值建立/构建的。该意图概念树可包括多个意图节点,每个意图节点对应一种意图,且每个意图节点下可包括预先选取的一个或多个关键词,该一个或多个关键词即为意图节点对应的意图的关键词,每个关键词对应一个权值,该权值可预先设置得到。可选的,该多种意图可以为特定领域的意图,即该意图概念树可根据特定领域的查询语句样本建立的,使得针对特定领域也无需大量样本即可实现意图识别。进一步可选的,不同意图节点对应的意图可以是属于不同的分类,例如,该预置的意图概念树包括意图节点1和意图节点2,该意图节点1对应的意图为天气,该意图节点2对应的意图为机票;或者,不同意图节点对应的意图也可以属于相同的分类,例如,该预置的意图概念树包括意图节点1和意图节点2,该意图节点1对应的意图为天气,该意图节点2对应的意图为查询天气(可看作该天气的子意图),两者同属于天气分类。
可选的,该意图概念树中每个关键词如该第一目标关键词对应的权值可以是根据该关键词的TF-IDF值设置得到的,比如TF-IDF的值越大,权值越大;或者,可以是根据该关键词在对应的意图的分词集合出现的次数或频率等确定出的,比如该次数和/或频率越大,权值越大;或者,该每个关键词的权值可以设置为该TF-IDF值或次数或频率或其他值等等,本申请不做限定。
可以理解,遍历各意图节点下的关键词可以是指将该多个分词与各意图节点下的关键词进行匹配对比,该多个分词在各意图节点下的关键词中命中的第一目标关键词可以是指各意图节点下的关键词中与该多个分词匹配关键词。也就是说,在得到该多个分词之后,识别设备可分别将该多个分词语与各意图节点下的关键词进行匹配对比,以得到该多个分词中与各意图节点下的关键词匹配的分词,或者说得到各意图节点下的关键词中与该多个分词匹配的关键词,即第一目标关键词,以便于基于该第一目标关键词及其对应的意图确定该待识别语句的意图。该确定出的第一目标关键词可以为一个也可以为多个,如果为多个,该多个第一目标关键词对应的意图可以相同也可以不同,即该多个第一目标关键词可以在同一个意图节点下也可以在不同的意图节点下;且该多个第一目标关键词中可以存在相同的第一目标关键词,比如该相同的第一目标关键词对应的意图不同,即该相同的第一目标关键词在不同的意图节点下。
103、根据各第一目标关键词对应的权值计算该待识别语句在各意图节点对应的意图的意图得分。
可选的,识别设备在计算该第一目标关键词对应的意图下的意图得分时,可以分别计算该多个分词在各意图节点下命中的第一目标关键词对应的权值的和值,即针对每个意图节点,计算该意图节点下的第一目标关键词的权值的和值,并将每个意图节点对应的和值作为该待识别语句在该意图节点对应的意图的意图得分,以得到该待识别语句在各意图节点对应的意图的意图得分。或者,可选的,识别设备还可分别计算该多个分词在各意图节点下命中的第一目标关键词对应的权值的乘积的值或对该权值进行处理得到其他值,并将每个意图节点对应的该乘积的值或其他值作为该待识别语句在该意图节点对应的意图下的意图得分,以得到该待识别语句在各意图节点对应的意图下的意图得分,等等,本申请不做限定。
例如,识别设备可针对该多个分词从根节点出发遍历概念树,当分词命中树上意图节点的关键词后,取出关键词的权值并将该意图节点下所有命中的关键词的权值进行累加,这样,所有意图节点都有该待识别语句对应的意图得分。如该意图得分的计算方式如下:
意图得分(score)=意图score+关键词的权值
其中,该关键词可以指上述的第一目标关键词,即命中的关键词。在遍历之前,意图score为0。如果该多个分词在某一意图节点下未命中任何关键词,则该待识别语句在该意图节点对应的意图的意图得分(以下可简称意图节点的意图得分或意图节点的得分)可以视为0。
可以理解,在其他实施例中,该意图得分还可叫做其余名称,本申请不做限定。
104、确定各意图节点对应的意图的意图得分中的最高意图得分,并判断该最高意图得分是否大于预设的第一阈值。
105、如果该最高意图得分大于该第一阈值,确定该待识别语句的意图为该最高意图得分对应的意图。
其中,该第一阈值可以是一个预设的固定值,具体可预先设置得到,本申请不做限定。例如,可预设一个初始阈值,并通过获取样本并执行上述的步骤101-105,以实现对该样本的意图识别,并通过确定出的该样本的意图和存储的该样本的真实意图进行比较,确定意图识别结果是否正确/成功,并计算出预设样本数量(可包括各种意图的样本)对应的识别成功率,进而可根据该识别成功率调整该初始阈值,直到某一初始阈值下对应的识别成功率超过预设成功率阈值(如98%),即可将该初始阈值作为该第一阈值。从而能够进一步提升意图识别的准确性。
可选的,如果该最高意图得分不大于该第一阈值,则可确定该待识别语句的意图为无关意图,即各意图节点对应的意图以外的意图,该待识别语句为无关查询。从而能够识别出无关意图。进一步可选的,在识别出该意图为无关意图之后,还可输出预设的提示消息,该提示消息可用于指示用户输入新的待识别语句,以基于新的待识别语句再次进行意图识别,从而提升意图识别的成功率。
或者,在其他可选的实施例中,该第一阈值还可动态设置得到,或者可设置得到多个第一阈值,比如可以为各意图节点分别设置一个第一阈值,如该第一阈值可以为判断待识别语句是否是各意图的最小判别值。进一步可选的,识别设备还可分别将各意图节点的意图得分与对应的第一阈值进行比较,如果仅存在一个意图节点的意图得分大于对应的第一阈值,则可将该意图节点的意图作为该待识别语句的意图;如果存在多个意图节点的意图得分大于对应的第一阈值,则可将该多个意图节点中意图得分最高的意图节点的意图作为该待识别语句的意图,或者将该多个意图节点中意图得分与对应的第一阈值差值最大的意图节点的意图作为该待识别语句的意图,等等;如果所有意图节点的意图得分均不大于对应的第一阈值,则可确定该待识别语句的意图为无关意图。从而可进一步提升意图识别的可靠性。
进一步可选的,在确定出该待识别语句的意图之后,即可基于该确定出的意图在信息库中查找/检索意图对应的信息,比如意图为天气时查找天气信息,又如意图为机票时查找机票信息等等,并可输出该信息(比如通过文字输出,或者通过语音输出,或者通过其他方式输出等等)或者向该用户对应的终端发送该信息,以供用户查看,对用户进行引导等等。
在本实施例中,识别设备能够通过对待识别语句进行分词处理得到多个分词,并通过遍历预置的意图概念树的各意图节点下的关键词,以确定该多个分词在各意图节点下的关键词中命中的关键词,进而根据该命中的关键词对应的权值计算该待识别语句在各意图节点对应的意图下的意图得分,以根据该意图得分确定该待识别语句的意图,从而实现意图识别,这就有助于提升意图识别的准确性,且无需依赖大量的数据样本。
请参见图2,图2是本申请实施例提供的另一种意图识别方法的流程示意图。具体的,如图2所示,该意图识别方法可以包括以下步骤:
201、从预设样本数据库分别选取多种意图的查询语句样本,并分别对每种意图的查询语句样本进行分词处理,以得到每种意图的查询语句样本的分词集合;如果该多种意图中存在包括子意图的意图,根据意图的子意图对该种意图的分词集合进行分组,以得到多个分词组。
其中,每种意图的分词集合可包括组成该种意图的查询语句样本的多个分词。该子意图可以和该分词组一一对应,每个分词组可包括一种子意图的查询语句样本的分词。
具体的,该预设样本数据库可包括各意图的查询语句样本(语料),该选取的每一种意图的查询语句样本可以包括多个,如每一种意图可对应一个包括选取的该意图的多个查询语句样本的样本集合。每一个查询语句样本可以由文本组成。可选的,各查询语句样本可以与其对应的意图的信息如意图标签关联存储于该样本数据库中,以便于实现样本的快速查找及选取。
在选取出各个意图的样本如某一特定领域的各意图的样本之后,针对每个意图的样本,识别设备可以对该意图的每个样本进行分词处理,得到分词后的多个分词。其中,该分词的方法可采用结巴分词或斯坦福分词方法等等。
可选的,每个分词集合(词袋)包括的分词可以为选取出的该分词集合对应的意图的样本集合中所有查询语句样本的所有分词,也可以为该所有分词中的部分分词,比如为该所有分词中去掉停用词或其他无意义的分词后的分词,以减小计算开销。相应地,每个分词组包括的分词可以为该分词组对应的子意图的样本集合中所有查询语句样本的所有分词,也可以为该所有分词中的部分分词,此处不赘述。
202、按照预设的关键词确定规则分别从每种意图的分词集合中确定出每种意图的关键词,以及从每种子意图的分词组中确定出每种子意图的关键词,并设置各关键词对应的权值。
其中,该关键词确定规则可预先设置得到。例如,该关键词确定规则可包括基于TF-IDF值的关键词确定规则、基于词频的关键词确定规则、基于次数的关键词确定规则、基于卡方校验值的关键词确定规则等中的任一种规则或多种规则组合确定的规则,本申请不做限定。
例如,在一种可能的实施方式中,在确定每种意图的关键词时,识别设备可分别计算得到每种意图的分词集合中的每个分词的词频-逆文件频率TF-IDF值,将每种意图的分词集合中TF-IDF值超过预设阈值的分词确定为该种意图的关键词;或者,按照TF-IDF值由大到小的顺序对每种意图的分词集合中的分词进行排序,将该排序前M的TF-IDF值对应的分词确定为该种意图的关键词,其中,M为大于0的整数。也就是说,针对每种意图的分词集合,可对该分词集合中的分词的进行TF-IDF计算,根据分词的TF-IDF值选取关键词,比如选取TF-IDF值阈值超过某一预设阈值(如0.12)的分词作为该意图的关键词,或者取出TF-IDF值排序靠前的预设数目的词作为该意图的关键词等等。
又如,在一种可能的实施方式中,在确定每种意图的关键词时,识别设备可分别计算得到每种意图的分词集合中的每个分词在该分词集合出现的频率,每个分词对应的频率为该分词在该分词集合出现的次数与该分词集合的分词总数目(如具体可以是去掉停用词后的分词数目)的比值,如词频(term frequency,TF);将每种意图的分词集合中频率超过预设频率阈值的分词确定为该种意图的关键词;或者,按照频率由大到小的顺序对每种意图的分词集合中的分词进行排序,将该排序前N的频率对应的分词确定为该种意图的关键词,其中,N为大于0的整数。也就是说,针对每种意图的分词集合,可统计分词集合的分词的词频,根据分词的词频选取关键词,比如选取词频超过预设频率阈值的分词作为该意图的关键词,或者取出词频排序靠前的一定数目如排在前6的词条作为该意图的关键词等等。
又如,在一种可能的实施方式中,在确定每种意图的关键词时,识别设备可分别计算得到每种意图的分词集合中的每个分词在该分词集合出现的次数,将每种意图的分词集合中次数超过预设次数阈值的分词确定为该种意图的关键词;或者,按照次数由大到小的顺序对每种意图的分词集合中的分词进行排序,将该排序前E的次数对应的分词确定为该种意图的关键词,其中,E为大于0的整数。
又如,在一种可能的实施方式中,在确定每种意图的关键词时,识别设备可对每种意图的分词集合中的分词进行卡方检验,得到每种意图的分词集合中的每个分词的卡方检验的值,将每种意图的分词集合中卡方检验的值超过预设校验阈值的分词确定为该种意图的关键词;或者,按照卡方检验的值由大到小的顺序对每种意图的分词集合中的分词进行排序,将该排序前F的卡方检验的值对应的分词确定为该种意图的关键词,其中,F为大于0的整数。
可选的,在选取意图的关键词时,可以采用上述任一种关键词确定规则来选取,或者可以通过将几种规则结合来选取,比如将上述的一种或多种规则下选取出的相同关键词作为该意图的关键词;或者,可以为每一种选取规则设置一个权重,将上述的各规则下选取出的关键词结合对应规则的权重进一步筛选出取值大于预设阈值的分词作为该意图的关键词,或将取值靠前的预设数目如前20的分词作为该意图的关键词等等。从而能够进一步提升选取出的关键词的可靠性和灵活性,以便于提升意图识别的准确性。
例如,分词集合中每个分词的TF或TF-IDF可以通过如下方式计算得到:
词频可以是指某一个给定的词语在该意图中出现的次数或频率,也即分词在所在意图的分词集合出现的次数或频率,比如为了防止它偏向长的文件,该词频可以为该次数除以集合的分词总数目即意图总词数。
从而能够计算得到每个词的TF。
进一步的,可计算逆向文件频率(inverse document frequency,IDF),IDF的主要思想是:如果包含分词t的意图越少,IDF越大,则说明分词具有很好的类别区分能力,某个分词对语句的重要性越高,它的TF-IDF值就越大。某一特定分词的IDF,可以由总意图数目除以包含该分词之意图的数目加1的和,再将得到的商取对数得到。比如IDF可以为:
计算分词的TF-IDF:
TF-IDFw=TFw×IDFw
从而能够计算得到每个分词的TF-IDF值。
可以理解,从每种子意图的分词组中确定出每种子意图的关键词也可以采用上述的关键词确定规则来进行确定,此处不赘述。可选的,从每种意图的分词集合中确定出每种意图的关键词以及从每种子意图的分词组中确定出每种子意图的关键词两者确定关键词的方式可以相同也可以不同,即两者所采用的关键词确定规则可以相同也可以不同,本申请不做限定。
进一步的,在确定出该关键词之后,即可为各关键词设置权值。比如可以直接将计算出来的关键词的TF-IDF值(或该词频或次数或卡方校验值等等)作为该关键词的权值,或者可以对TF-IDF值(或词频或次数或卡方校验值等等)进行归一化处理后作为关键词的权值(即所有的权值加起来为1),或者也可以根据用户的需求修改关键词的权值,或者也可以手动增加需要的关键词并根据用户需求对其进行赋值,等等,此处不一一列举。
203、根据该多种意图、每种意图的关键词、每种子意图的关键词以及每个关键词的权值建立意图概念树。
其中,每个意图节点可包括一个多个子意图节点,每个子意图节点下可包括一个或多个关键词。可以理解,意图节点下可以不存在/不包括子意图节点。
在选取意图的关键词并确定各关键词的权值之后,即可构建意图概念树,该意图概念树可以包括一层或多层意图,如第一层为意图节点(其父节点为根节点),第二层为该意图节点的子意图节点,其下还可以有第三层如该子意图节点的子意图节点,等等。其中,每一个意图都是从根节点出发,根节点下面是各大意图(分类)的关键词,各意图还可能存在子意图。从而能够通过建立概念树实现特定领域下的意图识别,无需依赖大量的数据样本,且意图识别的可靠性较高。
例如,“机票”意图下有{‘机票’,‘航班’,‘航线’,‘机场’,‘天气’,‘温度’,‘气温’,‘旅游’,‘延误险’,‘意外险’,...,‘登机’}等关键词;在“股票”意图下有{‘股票’,‘行情’,‘大盘’,‘推荐’,‘指数’,‘涨幅’,‘K线’,‘炒股’,‘股市’,‘持有’,‘赚钱’,‘分析’,...,‘长期’}等关键词。又如,在“机票”的意图下会有“查看”子意图,子意图下也会有相应的关键词库。每个意图的关键词都可设置有关键词的权值。
204、接收用户输入的待识别语句,并对该待识别语句进行分词处理,以得到组成该待识别语句的多个分词。
可选的,该分词处理对应的分词方法可以为斯坦福分词方法或结巴分词方法等,并可在分词之后去掉其中无意义的词,具体可参照上述相关描述,此处不赘述。从而可以减小遍历意图节点进行意图识别带来的开销,因为需要为每一个分词遍历概念树。
205、遍历该意图概念树的各意图节点下的关键词,以确定该多个分词命中的各第一目标关键词。
其中,该意图概念树可包括多个意图节点,每个意图节点对应一种意图,且每个意图节点下可包括一个或多个关键词,每个关键词对应一个权值。
206、根据各第一目标关键词对应的权值计算该待识别语句在各各意图节点对应的意图的意图得分,确定出各意图节点对应的意图的意图得分中的最高意图得分,并判断该最高意图得分是否大于预设的第一阈值。
具体的,识别设备可将该多个分词从根节点出发逐层遍历概念树,当分词命中树上意图节点的关键词即第一目标关键词后,取出关键词的权值并将意图下所有命中的关键词的权值进行累加,这样,每一层如该意图节点层的所有意图节点都有该输入句子在该层上的意图得分。
可选的,该步骤204-206的其他描述可参照上述图1所示实施例中步骤101-104的相关描述,此处不赘述。
207、如果该最高意图得分大于该第一阈值,确定该最高意图得分对应的意图节点是否存在子意图节点。
208、如果存在子意图节点,遍历各子意图节点下的关键词,以确定该多个分词在各子意图节点下的关键词中命中的各第二目标关键词,并根据各第二目标关键词对应的权值计算该待识别语句在各子意图节点对应的子意图的子意图得分。
其中,该子意图节点可以为一个或多个,该第二目标关键词可以为一个或多个。
209、确定各子意图节点对应的子意图的子意图得分中的最高子意图得分,并判断该最高子意图得分是否大于预设的第二阈值。
其中,该第二阈值可预先设置得到,该第二阈值与该第一阈值可以相同也可以不同,本申请不做限定。
可以理解,遍历该最高意图得分对应的意图节点下各子意图节点下的关键词,以确定命中的各第二目标关键词,以及计算各子意图节点对应的子意图得分的方式,与上述遍历各意图节点下的关键词,以确定命中的各第一目标关键词,以及计算各意图节点对应的意图得分的方式相同,此处不赘述。
可选的,如果确定出的最高意图得分有多个,则可分别确定各最高意图得分的意图节点下的各子意图节点的子意图得分,并确定各子意图得分中的最高子意图得分将其与第二阈值进行比较以实现意图识别。
210、如果该最高子意图得分不大于该第二阈值,确定该待识别语句的意图为该最高意图得分对应的意图。
可选的,如果该最高子意图得分大于该第二阈值,则可确定该待识别语句的意图为该最高子意图得分对应的意图,即将该最高子意图得分对应的意图确定为该待识别语句的意图。
在对待识别语句进行意图识别时,对于任一层节点,如果最高得分超过该层意图阈值,则判断是否有子意图节点,如果有子意图节点,则遍历节点下的子意图节点的关键词及进行后续流程;如果没有子意图节点,则可确定该待识别语句的意图为该最高得分对应的意图,如可输出该最高得分对应的意图为待识别语句的意图;如果最高得分没有超过该层意图阈值,则可确定该待识别语句的意图为该父节点的意图,如可输出该节点的父节点意图为待识别语句的意图,如果父节点为根节点,则可确定该待识别语句的意图为无关意图,如可输出没有意图,或者可输出提示消息以指示用户输入新的待识别语句,以基于该新的待识别语句进行意图识别。也就是说,本方案能够通过取该层意图得分最高的节点,判断是否超过设定阈值,如果没有超过,则判定意图为上一层的节点的意图。如果超过,则判断是否有子意图,如果有则继续遍历子意图。如果判定没有子意图,则判定该句子就是属于所在节点意图。如果子意图得分最高的节点没有超过设定的阈值,则判定意图为上一层的节点的意图。其中,每一层设定的阈值可以相同也可以不同。
举例来说,假设该意图概念树只包括两个意图节点(即两个意图),一个是天气另外一个是机票,天气意图下包括今天、天气等关键词(假设今天的权值为0.2,天气的权值为0.3),机票意图下包括天气、航班等关键词(假设天气的权值为0.05,航班的权值为0.4)。接收到待识别语句之后,可以将句子分词,并将分词后的词一个一个遍历概念树的上的关键词。例如,输入的句子是:“今天天气怎么样?”分词后得到:“今天天气怎么样”这三个分词。“今天”这个词在机票意图没有出现,那么机票意图score=0,而“今天”这个词在天气意图出现了,那么天气意图score=0.2。接着同样方式遍历“天气”这个词,这个时候机票意图里面有“天气”的关键词且权值为0.05,则此时机票意图score=0+0.05,天气意图也有“天气”的关键词且权值为0.3,则天气score=0.2+0.3。接着遍历“怎么样”这个词,“怎么样”这个词在机票和天气意图里面都没有相应的意图关键词,所以,此时机票意图score=0+0.05+0=0.05,天气意图score=0.2+0.3+0=0.5。当句子的词都遍历过一遍后,统计这一层意图score是哪一个意图节点最高(天气意图节点0.5,机票意图节点0.05),现在是天气意图节点最高0.5。然后判断最高得分意图节点是否超过这一层的意图阈值(即上述的第一阈值,假设该层意图阈值设置为0.3),此时最高意图天气意图的score为0.5超过所设定阈值,则可确定天气是否存在子意图,或者说确定天气意图节点是否存在子意图节点,如果存在,则可继续以同样的方式遍历天气的子意图节点。若天气意图没有子意图节点则可确定/返回这句话的判断意图就是属于“天气”意图。若天气有子意图(假如是“询问天气“意图)且得分超过子意图层设定的阈值(即上述的第二阈值),则可确定/返回”今天天气怎么样”句子的意图为“询问天气”。假如该子意图得分没有超过阈值,则可确定/返回子意图的父节点的意图,即“天气”意图。在识别出用户意图之后,即可根据该意图向用户返回信息、对客户进行引导等等。
可选的,在构建多层概念树之后,还可调整各关键词的权值,比如可根据一段时间内(如一周、一个月等等)输出意图对应的关键词的频率,更改该关键词的权值,输出意图对应关键词的频率越高,增加该关键词的权值,反之,则减小该关键词的权值,如可设置得到该频率与权值的增加值/减少值的对应关系。此外,还可收集输出没有意图的句子,对这些句子进行训练分析,整理出新的意图及其关键词和权值,并将该新的意图关键词及其权值更新到多层概念树中,以提升意图识别的成功率和可靠性。
在本实施例中,识别设备能够通过选取意图的关键词建立特定领域下的概念树,通过遍历概念树中关键词与概念树所设置的关键词权值确定出句子的所属的意图,以实现在样本较少的特定领域下的可靠意图识别,无需依赖大量的数据样本,意图识别的准确性和可靠性较高。
上述方法实施例都是对本申请的意图识别方法的举例说明,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
请参见图3,图3是本申请实施例提供的一种识别设备的结构示意图。本申请实施例的识别设备(装置)可包括用于执行上述意图识别方法的单元。具体的,本实施例的识别设备300可包括:通信单元301和处理单元302。其中,
通信单元301,用于接收用户输入的待识别语句;
处理单元302,用于对所述待识别语句进行分词处理,以得到组成所述待识别语句的多个分词;
处理单元302,还用于遍历预置的意图概念树的各意图节点下的关键词,以确定所述多个分词在各意图节点下的关键词中命中的各第一目标关键词;其中,所述意图概念树包括多个意图节点,每个意图节点对应一种意图,且每个意图节点下包括多个关键词,每个关键词对应一个权值;
处理单元302,还用于根据各第一目标关键词对应的权值计算所述待识别语句在各意图节点对应的意图的意图得分;确定各意图节点对应的意图的意图得分中的最高意图得分,并判断所述最高意图得分是否大于预设的第一阈值;如果所述最高意图得分大于所述第一阈值,确定所述待识别语句的意图为所述最高意图得分对应的意图。
可选的,所述识别设备还可包括获取单元303;
获取单元303,用于从预设样本数据库分别选取多种意图的查询语句样本;
处理单元302,还用于分别对每种意图的查询语句样本进行分词处理,以得到每种意图的查询语句样本的分词集合,每种意图的分词集合包括组成该种意图的查询语句样本的多个分词;
处理单元302,还用于按照预设的关键词确定规则分别从每种意图的分词集合中确定出每种意图的关键词,并设置各关键词对应的权值;根据所述多种意图、每种意图的关键词以及每个关键词的权值建立所述意图概念树。
可选的,处理单元302,还可用于当所述多种意图中存在包括子意图的意图时,根据意图的子意图对该种意图的分词集合进行分组,以得到多个分词组,所述子意图和所述分词组一一对应,每个分词组包括一种子意图的查询语句样本的分词;
按照预设的关键词确定规则分别从每种子意图的分词组中确定出每种子意图的关键词,并设置每种子意图的关键词的权值;
处理单元302,在执行所述根据所述多种意图、每种意图的关键词以及每个关键词的权值建立所述意图概念树时,可具体用于:
根据所述多种意图、每种意图的关键词、每种子意图的关键词以及每个关键词的权值建立所述意图概念树;其中,每个子意图节点下包括多个关键词;
处理单元302,还可用于当所述最高意图得分大于所述第一阈值时,确定所述最高意图得分对应的意图节点是否存在子意图节点;如果存在子意图节点,遍历各子意图节点下的关键词,以确定所述多个分词在各子意图节点下的关键词中命中的各第二目标关键词,并根据各第二目标关键词对应的权值计算所述待识别语句在各子意图节点对应的子意图的子意图得分;确定各子意图节点对应的子意图的子意图得分中的最高子意图得分,并判断所述最高子意图得分是否大于预设的第二阈值;如果所述最高子意图得分不大于所述第二阈值,触发确定所述待识别语句的意图为所述最高意图得分对应的意图。
可选的,处理单元302,还可用于当所述最高意图得分不大于所述第一阈值时,确定所述待识别语句的意图为各意图节点对应的意图以外的无关意图;
通信单元301,还可用于输出预设的提示消息,所述提示消息用于指示用户输入新的待识别语句,以基于所述新的待识别语句进行意图识别。
可选的,处理单元302在执行所述按照预设的关键词确定规则分别从每种意图的分词集合中确定出每种意图的关键词时,可具体用于:
分别计算得到每种意图的分词集合中的每个分词的词频-逆文件频率TF-IDF值;
将每种意图的分词集合中TF-IDF值超过预设阈值的分词确定为该种意图的关键词;或者,
按照TF-IDF值由大到小的顺序对每种意图的分词集合中的分词进行排序,将所述排序前M的TF-IDF值对应的分词确定为该种意图的关键词,其中,M为大于0的整数。
可选的,处理单元302在执行所述按照预设的关键词确定规则分别从每种意图的分词集合中确定出每种意图的关键词时,可具体用于:
分别计算得到每种意图的分词集合中的每个分词的在所述分词集合出现的频率,每个分词对应的频率为该分词在所述分词集合出现的次数与所述分词集合的分词总数目的比值;
将每种意图的分词集合中频率超过预设频率阈值的分词确定为该种意图的关键词;或者,
按照频率由大到小的顺序对每种意图的分词集合中的分词进行排序,将所述排序前N的频率对应的分词确定为该种意图的关键词,其中,N为大于0的整数。
可选的,所述第一目标关键词对应的权值为所述第一目标关键词的词频-逆文件频率TF-IDF值,或者,所述第一目标关键词对应的权值为所述第一目标关键词在对应的意图的分词集合出现的次数或频率;
处理单元302在执行所述根据各第一目标关键词对应的权值计算所述待识别语句在各意图节点对应的意图的意图得分时,可具体用于:
分别计算所述多个分词在各意图节点下命中的第一目标关键词对应的权值的和值,并将每个意图节点对应的和值作为所述待识别语句在该意图节点对应的意图的意图得分,以得到所述待识别语句在各意图节点对应的意图的意图得分。
具体的,该识别设备可通过上述单元实现上述图1至图2所示实施例中的意图识别方法中的部分或全部步骤。应理解,本申请实施例是对应方法实施例的装置实施例,对方法实施例的描述,也适用于本申请实施例。
请参见图4,图4是本申请实施例提供的另一种识别设备的结构示意图。该识别设备用于执行上述的方法。如图4所示,本实施例中的识别设备400可以包括:一个或多个处理器401和存储器402。可选的,该识别设备还可包括一个或多个用户接口403,和/或,一个或多个通信接口404。上述处理器401、用户接口403、通信接口404和存储器402可通过总线405连接,或者可以通过其他方式连接,图4中以总线方式进行示例说明。其中,存储器402用于存储计算机程序,所述计算机程序包括程序指令,处理器401用于执行存储器402存储的程序指令。其中,处理器401可用于调用所述程序指令执行上述图1至图2中的部分或全部步骤。
例如,处理器401可用于调用所述程序指令执行以下步骤:通过用户接口403接收用户输入的待识别语句,并对所述待识别语句进行分词处理,以得到组成所述待识别语句的多个分词;遍历预置的意图概念树的各意图节点下的关键词,以确定所述多个分词在各意图节点下的关键词中命中的各第一目标关键词;其中,所述意图概念树包括多个意图节点,每个意图节点对应一种意图,且每个意图节点下包括多个关键词,每个关键词对应一个权值;根据各第一目标关键词对应的权值计算所述待识别语句在各意图节点对应的意图的意图得分;确定各意图节点对应的意图的意图得分中的最高意图得分,并判断所述最高意图得分是否大于预设的第一阈值;如果所述最高意图得分大于所述第一阈值,确定所述待识别语句的意图为所述最高意图得分对应的意图。
可选的,处理器401还可执行以下步骤:从预设样本数据库分别选取多种意图的查询语句样本,并分别对每种意图的查询语句样本进行分词处理,以得到每种意图的查询语句样本的分词集合,每种意图的分词集合包括组成该种意图的查询语句样本的多个分词;按照预设的关键词确定规则分别从每种意图的分词集合中确定出每种意图的关键词,并设置各关键词对应的权值;根据所述多种意图、每种意图的关键词以及每个关键词的权值建立所述意图概念树。
可选的,处理器401还可执行以下步骤:如果所述多种意图中存在包括子意图的意图,根据意图的子意图对该种意图的分词集合进行分组,以得到多个分词组,所述子意图和所述分词组一一对应,每个分词组包括一种子意图的查询语句样本的分词;按照预设的关键词确定规则分别从每种子意图的分词组中确定出每种子意图的关键词,并设置每种子意图的关键词的权值;
处理器401在执行所述根据所述多种意图、每种意图的关键词以及每个关键词的权值建立所述意图概念树时,可具体执行以下步骤:根据所述多种意图、每种意图的关键词、每种子意图的关键词以及每个关键词的权值建立所述意图概念树;其中,每个子意图节点下包括多个关键词;
处理器401在执行所述确定所述待识别语句的意图为所述最高意图得分对应的意图之前,还可执行以下步骤:如果所述最高意图得分大于所述第一阈值,确定所述最高意图得分对应的意图节点是否存在子意图节点;如果存在子意图节点,遍历各子意图节点下的关键词,以确定所述多个分词在各子意图节点下的关键词中命中的各第二目标关键词,并根据各第二目标关键词对应的权值计算所述待识别语句在各子意图节点对应的子意图的子意图得分;确定各子意图节点对应的子意图的子意图得分中的最高子意图得分,并判断所述最高子意图得分是否大于预设的第二阈值;如果所述最高子意图得分不大于所述第二阈值,触发所述确定所述待识别语句的意图为所述最高意图得分对应的意图的步骤。
可选的,处理器401还可执行以下步骤:如果所述最高意图得分不大于所述第一阈值,确定所述待识别语句的意图为各意图节点对应的意图以外的无关意图;通过用户接口403输出预设的提示消息,所述提示消息用于指示用户输入新的待识别语句,以基于所述新的待识别语句进行意图识别。
可选的,处理器401在执行所述按照预设的关键词确定规则分别从每种意图的分词集合中确定出每种意图的关键词时,可具体执行以下步骤:分别计算得到每种意图的分词集合中的每个分词的词频-逆文件频率TF-IDF值;将每种意图的分词集合中TF-IDF值超过预设阈值的分词确定为该种意图的关键词;或者,按照TF-IDF值由大到小的顺序对每种意图的分词集合中的分词进行排序,将所述排序前M的TF-IDF值对应的分词确定为该种意图的关键词,其中,M为大于0的整数。
可选的,处理器401在执行所述按照预设的关键词确定规则分别从每种意图的分词集合中确定出每种意图的关键词时,可具体执行以下步骤:分别计算得到每种意图的分词集合中的每个分词的在所述分词集合出现的频率,每个分词对应的频率为该分词在所述分词集合出现的次数与所述分词集合的分词总数目的比值;将每种意图的分词集合中频率超过预设频率阈值的分词确定为该种意图的关键词;或者,按照频率由大到小的顺序对每种意图的分词集合中的分词进行排序,将所述排序前N的频率对应的分词确定为该种意图的关键词,其中,N为大于0的整数。
可选的,所述第一目标关键词对应的权值为所述第一目标关键词的词频-逆文件频率TF-IDF值,或者,所述第一目标关键词对应的权值为所述第一目标关键词在对应的意图的分词集合出现的次数或频率;
处理器401在执行所述根据各第一目标关键词对应的权值计算所述待识别语句在各意图节点对应的意图的意图得分时,可具体执行以下步骤:分别计算所述多个分词在各意图节点下命中的第一目标关键词对应的权值的和值,并将每个意图节点对应的和值作为所述待识别语句在该意图节点对应的意图的意图得分,以得到所述待识别语句在各意图节点对应的意图的意图得分。
其中,所述处理器401可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
用户接口403可包括输入设备和输出设备,输入设备可以包括触控板、麦克风等,输出设备可以包括显示器(LCD等)、扬声器等。
通信接口404可包括接收器和发射器,用于与其他设备进行通信。
存储器402可以包括只读存储器和随机存取存储器,并向处理器401提供指令和数据。存储器402的一部分还可以包括非易失性随机存取存储器。例如,存储器402还可以存储上述的关键词、权值等等。
具体实现中,本申请实施例中所描述的处理器401等可执行上述图1至图2所示的方法实施例中所描述的实现方式,也可执行本申请实施例图3所描述的各单元的实现方式,此处不赘述。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现图1至图2所对应实施例中描述的意图识别方法中的部分或全部步骤,也可实现本申请图3或图4所示实施例的识别设备的功能,此处不赘述。
本申请实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述方法中的部分或全部步骤。
所述计算机可读存储介质可以是前述任一实施例所述的识别设备的内部存储单元,例如识别设备的硬盘或内存。所述计算机可读存储介质也可以是所述识别设备的外部存储设备,例如所述识别设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
在本申请中,术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
以上所述,仅为本申请的部分实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。
Claims (9)
1.一种意图识别方法,其特征在于,包括:
接收用户输入的待识别语句,并对所述待识别语句进行分词处理,以得到组成所述待识别语句的多个分词;
遍历预置的意图概念树的各意图节点下的关键词,以确定所述多个分词在各意图节点下的关键词中命中的各第一目标关键词;其中,所述意图概念树包括多个意图节点,每个意图节点对应一种意图,且每个意图节点下包括多个关键词,每个关键词对应一个权值;
根据各第一目标关键词对应的权值计算所述待识别语句在各意图节点对应的意图的意图得分;
确定各意图节点对应的意图的意图得分中的最高意图得分,并判断所述最高意图得分是否大于预设的第一阈值;
如果所述最高意图得分大于所述第一阈值,确定所述最高意图得分对应的意图节点是否存在子意图节点;如果存在子意图节点,遍历各子意图节点下的关键词,以确定所述多个分词在各子意图节点下的关键词中命中的各第二目标关键词,并根据各第二目标关键词对应的权值计算所述待识别语句在各子意图节点对应的子意图的子意图得分;
确定各子意图节点对应的子意图的子意图得分中的最高子意图得分,并判断所述最高子意图得分是否大于预设的第二阈值;
如果所述最高子意图得分不大于所述第二阈值,确定所述待识别语句的意图为所述最高意图得分对应的意图。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
从预设样本数据库分别选取多种意图的查询语句样本,并分别对每种意图的查询语句样本进行分词处理,以得到每种意图的查询语句样本的分词集合,每种意图的分词集合包括组成该种意图的查询语句样本的多个分词;
按照预设的关键词确定规则分别从每种意图的分词集合中确定出每种意图的关键词,并设置各关键词对应的权值;
如果所述多种意图中存在包括子意图的意图,根据意图的子意图对该种意图的分词集合进行分组,以得到多个分词组,所述子意图和所述分词组一一对应,每个分词组包括一种子意图的查询语句样本的分词;
按照预设的关键词确定规则分别从每种子意图的分词组中确定出每种子意图的关键词,并设置每种子意图的关键词的权值;
根据所述多种意图、每种意图的关键词、每种子意图的关键词以及每个关键词的权值建立所述意图概念树。
3.根据权利要求1-2任一项所述的方法,其特征在于,所述方法还包括:
如果所述最高意图得分不大于所述第一阈值,确定所述待识别语句的意图为各意图节点对应的意图以外的无关意图;
输出预设的提示消息,所述提示消息用于指示用户输入新的待识别语句,以基于所述新的待识别语句进行意图识别。
4.根据权利要求2所述的方法,其特征在于,所述按照预设的关键词确定规则分别从每种意图的分词集合中确定出每种意图的关键词,包括:
分别计算得到每种意图的分词集合中的每个分词的词频-逆文件频率TF-IDF值;
将每种意图的分词集合中TF-IDF值超过预设阈值的分词确定为该种意图的关键词;或者,
按照TF-IDF值由大到小的顺序对每种意图的分词集合中的分词进行排序,将所述排序前M的TF-IDF值对应的分词确定为该种意图的关键词,其中,M为大于0的整数。
5.根据权利要求2所述的方法,其特征在于,所述按照预设的关键词确定规则分别从每种意图的分词集合中确定出每种意图的关键词,包括:
分别计算得到每种意图的分词集合中的每个分词的在所述分词集合出现的频率,每个分词对应的频率为该分词在所述分词集合出现的次数与所述分词集合的分词总数目的比值;
将每种意图的分词集合中频率超过预设频率阈值的分词确定为该种意图的关键词;或者,
按照频率由大到小的顺序对每种意图的分词集合中的分词进行排序,将所述排序前N的频率对应的分词确定为该种意图的关键词,其中,N为大于0的整数。
6.根据权利要求1所述的方法,其特征在于,所述第一目标关键词对应的权值为所述第一目标关键词的词频-逆文件频率TF-IDF值,或者,所述第一目标关键词对应的权值为所述第一目标关键词在对应的意图的分词集合出现的次数或频率;
所述根据各第一目标关键词对应的权值计算所述待识别语句在各意图节点对应的意图的意图得分,包括:
分别计算所述多个分词在各意图节点下命中的第一目标关键词对应的权值的和值,并将每个意图节点对应的和值作为所述待识别语句在该意图节点对应的意图的意图得分,以得到所述待识别语句在各意图节点对应的意图的意图得分。
7.一种识别设备,其特征在于,包括用于执行如权利要求1-6任一项权利要求所述的方法的单元。
8.一种识别设备,其特征在于,包括处理器和存储器,所述处理器和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-6任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-6任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910013964.2A CN109815314B (zh) | 2019-01-04 | 2019-01-04 | 一种意图识别方法、识别设备及计算机可读存储介质 |
PCT/CN2019/088804 WO2020140373A1 (zh) | 2019-01-04 | 2019-05-28 | 一种意图识别方法、识别设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910013964.2A CN109815314B (zh) | 2019-01-04 | 2019-01-04 | 一种意图识别方法、识别设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109815314A CN109815314A (zh) | 2019-05-28 |
CN109815314B true CN109815314B (zh) | 2023-08-08 |
Family
ID=66604064
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910013964.2A Active CN109815314B (zh) | 2019-01-04 | 2019-01-04 | 一种意图识别方法、识别设备及计算机可读存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN109815314B (zh) |
WO (1) | WO2020140373A1 (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110472027B (zh) * | 2019-07-18 | 2024-05-14 | 平安科技(深圳)有限公司 | 意图识别方法、设备及计算机可读存储介质 |
CN110399462B (zh) * | 2019-07-26 | 2022-03-04 | 沈阳民航东北凯亚有限公司 | 一种信息的查询方法及装置 |
CN110414005B (zh) * | 2019-07-31 | 2023-10-10 | 达闼机器人股份有限公司 | 意图识别方法、电子设备及存储介质 |
CN110503143B (zh) * | 2019-08-14 | 2024-03-19 | 平安科技(深圳)有限公司 | 基于意图识别的阈值选取方法、设备、存储介质及装置 |
US11935521B2 (en) * | 2019-09-12 | 2024-03-19 | Oracle International Corporation | Real-time feedback for efficient dialog processing |
CN110955767A (zh) * | 2019-12-04 | 2020-04-03 | 中国太平洋保险(集团)股份有限公司 | 一种机器人对话系统中生成意图候选集列表集合的算法及装置 |
CN111125332B (zh) * | 2019-12-20 | 2023-07-21 | 东软集团股份有限公司 | 计算词的tf-idf值的方法、装置、设备及存储介质 |
CN111309383B (zh) * | 2020-02-28 | 2022-05-20 | 深圳数联天下智能科技有限公司 | 指令识别方法、装置、设备及存储介质 |
CN111581388B (zh) * | 2020-05-11 | 2023-09-19 | 北京金山安全软件有限公司 | 一种用户意图识别方法、装置及电子设备 |
CN112232068B (zh) * | 2020-09-30 | 2023-05-05 | 和美(深圳)信息技术股份有限公司 | 一种意图识别方法、装置、电子设备及存储介质 |
CN112101044B (zh) * | 2020-11-02 | 2021-11-12 | 北京淇瑀信息科技有限公司 | 一种意图识别方法、装置及电子设备 |
CN112863499B (zh) * | 2021-01-13 | 2023-01-24 | 北京小米松果电子有限公司 | 语音识别方法及装置、存储介质 |
CN113157892B (zh) * | 2021-05-24 | 2024-09-06 | 中国平安人寿保险股份有限公司 | 用户意图处理方法、装置、计算机设备及存储介质 |
CN113707300B (zh) * | 2021-08-30 | 2024-06-25 | 康键信息技术(深圳)有限公司 | 基于人工智能的搜索意图识别方法、装置、设备及介质 |
CN114880472B (zh) * | 2022-04-28 | 2024-08-06 | 支付宝(杭州)信息技术有限公司 | 数据处理方法、装置及设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107146610A (zh) * | 2017-04-10 | 2017-09-08 | 北京猎户星空科技有限公司 | 一种用户意图的确定方法及装置 |
CN107679035A (zh) * | 2017-10-11 | 2018-02-09 | 石河子大学 | 一种信息意图检测方法、装置、设备和存储介质 |
CN107992608A (zh) * | 2017-12-15 | 2018-05-04 | 南开大学 | 一种基于关键字上下文的sparql查询语句自动生成方法 |
CN108804532A (zh) * | 2018-05-03 | 2018-11-13 | 腾讯科技(深圳)有限公司 | 一种查询意图的挖掘和查询意图的识别方法、装置 |
CN109033075A (zh) * | 2018-06-29 | 2018-12-18 | 北京百度网讯科技有限公司 | 意图匹配的方法、装置、存储介质和终端设备 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106598999B (zh) * | 2015-10-19 | 2020-02-04 | 北京国双科技有限公司 | 一种计算文本主题归属度的方法及装置 |
CN106528531B (zh) * | 2016-10-31 | 2019-09-03 | 北京百度网讯科技有限公司 | 基于人工智能的意图分析方法及装置 |
US11172063B2 (en) * | 2017-05-22 | 2021-11-09 | Genesys Telecommunications Laboratories, Inc. | System and method for extracting domain model for dynamic dialog control |
CN108920579B (zh) * | 2018-06-22 | 2019-07-23 | 龙马智芯(珠海横琴)科技有限公司 | 句子的分类方法、装置、终端设备及存储介质 |
CN109492222B (zh) * | 2018-10-31 | 2023-04-07 | 平安科技(深圳)有限公司 | 基于概念树的意图识别方法、装置及计算机设备 |
-
2019
- 2019-01-04 CN CN201910013964.2A patent/CN109815314B/zh active Active
- 2019-05-28 WO PCT/CN2019/088804 patent/WO2020140373A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107146610A (zh) * | 2017-04-10 | 2017-09-08 | 北京猎户星空科技有限公司 | 一种用户意图的确定方法及装置 |
CN107679035A (zh) * | 2017-10-11 | 2018-02-09 | 石河子大学 | 一种信息意图检测方法、装置、设备和存储介质 |
CN107992608A (zh) * | 2017-12-15 | 2018-05-04 | 南开大学 | 一种基于关键字上下文的sparql查询语句自动生成方法 |
CN108804532A (zh) * | 2018-05-03 | 2018-11-13 | 腾讯科技(深圳)有限公司 | 一种查询意图的挖掘和查询意图的识别方法、装置 |
CN109033075A (zh) * | 2018-06-29 | 2018-12-18 | 北京百度网讯科技有限公司 | 意图匹配的方法、装置、存储介质和终端设备 |
Also Published As
Publication number | Publication date |
---|---|
CN109815314A (zh) | 2019-05-28 |
WO2020140373A1 (zh) | 2020-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109815314B (zh) | 一种意图识别方法、识别设备及计算机可读存储介质 | |
US11194965B2 (en) | Keyword extraction method and apparatus, storage medium, and electronic apparatus | |
CN108376151B (zh) | 问题分类方法、装置、计算机设备和存储介质 | |
WO2020140372A1 (zh) | 一种基于识别模型的意图识别方法、识别设备及介质 | |
CN107609101B (zh) | 智能交互方法、设备及存储介质 | |
CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
CN110472027B (zh) | 意图识别方法、设备及计算机可读存储介质 | |
CN107797984B (zh) | 智能交互方法、设备及存储介质 | |
CN105787025B (zh) | 网络平台公共账号分类方法及装置 | |
CN107844559A (zh) | 一种文件分类方法、装置及电子设备 | |
CN108446295B (zh) | 信息检索方法、装置、计算机设备和存储介质 | |
EP3608799A1 (en) | Search method and apparatus, and non-temporary computer-readable storage medium | |
CN105955976A (zh) | 一种自动应答系统及方法 | |
CN106897290B (zh) | 一种建立关键词模型的方法及装置 | |
CN113254643B (zh) | 文本分类方法、装置、电子设备和 | |
CN111538903B (zh) | 搜索推荐词确定方法、装置、电子设备及计算机可读介质 | |
CN111309916B (zh) | 摘要抽取方法和装置、存储介质和电子装置 | |
CN111767393A (zh) | 一种文本核心内容提取方法及装置 | |
CN113704623A (zh) | 一种数据推荐方法、装置、设备及存储介质 | |
JP5098631B2 (ja) | メール分類システム、メール検索システム | |
US11176209B2 (en) | Dynamically augmenting query to search for content not previously known to the user | |
CN113177061B (zh) | 一种搜索方法、装置和电子设备 | |
CN112487159B (zh) | 检索方法、检索装置及计算机可读存储介质 | |
CN107908649B (zh) | 一种文本分类的控制方法 | |
CN116628142B (zh) | 知识检索方法、装置、设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |