CN109766414A - 一种意图识别方法及系统 - Google Patents
一种意图识别方法及系统 Download PDFInfo
- Publication number
- CN109766414A CN109766414A CN201910047093.6A CN201910047093A CN109766414A CN 109766414 A CN109766414 A CN 109766414A CN 201910047093 A CN201910047093 A CN 201910047093A CN 109766414 A CN109766414 A CN 109766414A
- Authority
- CN
- China
- Prior art keywords
- keyword
- searching
- frequency
- information
- query
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 239000000284 extract Substances 0.000 claims abstract description 21
- 239000004744 fabric Substances 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 7
- 241000282693 Cercopithecidae Species 0.000 description 24
- 241000234295 Musa Species 0.000 description 20
- 235000018290 Musa x paradisiaca Nutrition 0.000 description 20
- 238000010586 diagram Methods 0.000 description 8
- 241000283153 Cetacea Species 0.000 description 4
- 230000008901 benefit Effects 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 239000007921 spray Substances 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 230000006870 function Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Abstract
本发明属于数据处理技术领域,公开了一种意图识别方法及系统,其方法包括:获取大量语料信息;提取每条语料信息中的关键词;统计所述关键词在所述大量语料信息中出现的频率,得到所述关键词的频率分布;获取用户输入的查询信息;提取所述查询信息中的查询关键词;根据所述关键词的频率分布,在所述查询关键词中查找目标查询关键词;根据所述目标查询关键词,识别所述查询信息对应的意图。本发明根据大数据得到的关键词的频率分布来分析得到用户最可能的意图,以提高意图识别的准确率的概率,并可提高用户的使用体验。
Description
技术领域
本发明属于数据处理技术领域,特别涉及一种意图识别方法及系统。
背景技术
随着智能终端及网络技术的迅速发展,人们越来越习惯地使用智能终端完成各种需求,如在学习的过程中,碰到不理解的知识点、不会解的习题时,在智能学习设备中语音输入相关内容,智能学习设备通过识别用户的意图,搜索对应的答案和知识讲解并推荐给用户,以便对用户进行学习辅导。
在进行信息查询时,准确理解用户的意图是做出正确应答的基础。目前,在根据用户输入的查询信息进行意图识别时,可以通过分词的方式从查询信息中提取出关键词,然后根据关键词识别用户的意图。但是,由于从查询信息中提取的关键词可能有多个,且每个关键词可能关联多种意图,使得无法判断用户的真实意图,得到的查询结果可能与用户的意图相差甚远,降低用户的使用体验。
发明内容
本发明的目的是提供一种意图识别方法及系统,实现从多个关键词或多个关联意图中获取用户的真实意图。
本发明提供的技术方案如下:
一方面,提供一种意图识别方法,包括:
获取大量语料信息;
提取每条语料信息中的关键词;
统计所述关键词在所述大量语料信息中出现的频率,得到所述关键词的频率分布;
获取用户输入的查询信息;
提取所述查询信息中的查询关键词;
根据所述关键词的频率分布,在所述查询关键词中查找目标查询关键词;
根据所述目标查询关键词,识别所述查询信息对应的意图。
进一步优选地,所述根据所述关键词的频率分布,在所述查询关键词中查找目标查询关键词具体包括:
当所述查询关键词的数量为一个时,将所述查询关键词作为目标查询关键词;
当所述查询关键词的数量为多个时,根据所述关键词的频率分布,在多个所述查询关键词中选取频率最高的查询关键词作为目标查询关键词。
进一步优选地,所述当所述查询关键词的数量为多个时,根据所述关键词的频率分布,在多个所述查询关键词中选取频率最高的查询关键词作为目标查询关键词具体包括:
当所述查询关键词的数量为多个时,根据所述关键词的频率分布,得到每个查询关键词的频率;
在所述查询关键词中提取出频率最高的查询关键词;
当频率最高的查询关键词的数量为一个时,将所述频率最高的查询关键词作为目标查询关键词;
当频率最高的查询关键词的数量为多个时,选取在所述查询信息中排序在前的一个频率最高的查询关键词作为目标查询关键词。
进一步优选地,所述提取每条语料信息中的关键词之后,所述获取用户输入的查询信息之前还包括:
当所述关键词具有关联关键词时,获取所述关联关键词的频率分布;
所述根据所述目标查询关键词,识别所述查询信息对应的意图具体包括:
当所述目标查询关键词具有关联关键词时,根据所述关联关键词的频率分布,在所述目标查询关键词对应的关联关键词中确定出至少一个目标关联关键词;
根据所述目标关联关键词,识别所述查询信息对应的意图。
进一步优选地,所述提取每条语料信息中的关键词具体包括:
对每条语料信息进行分词标注,得到每条语料信息对应的词语及词语对应的词性;
根据每条语料信息对应的词语的词性,从每条语料信息对应的词语中提取出关键词。
另一方面,还提供一种意图识别系统,包括:
语料信息获取模块,用于获取大量语料信息;
关键词提取模块,用于提取每条语料信息中的关键词;
统计模块,用于统计所述关键词在所述大量语料信息中出现的频率,得到所述关键词的频率分布;
查询信息获取模块,用于获取用户输入的查询信息;
查询关键词提取模块,用于提取所述查询信息中的查询关键词;
查找模块,用于根据所述关键词的频率分布,在所述查询关键词中查找目标查询关键词;
意图识别模块,用于根据所述目标查询关键词,识别所述查询信息对应的意图。
进一步优选地,所述查找模块包括:
查找单元,用于当所述查询关键词的数量为一个时,将所述查询关键词作为目标查询关键词;
所述查找单元,还用于当所述查询关键词的数量为多个时,根据所述关键词的频率分布,在多个所述查询关键词中选取频率最高的查询关键词作为目标查询关键词。
进一步优选地,所述查找单元包括:
频率获取子单元,用于当所述查询关键词的数量为多个时,根据所述关键词的频率分布,得到每个查询关键词的频率;
提取子单元,用于在所述查询关键词中提取出频率最高的查询关键词;
查找子单元,用于当频率最高的查询关键词的数量为一个时,将所述频率最高的查询关键词作为目标查询关键词;
所述查找子单元,还用于当频率最高的查询关键词的数量为多个时,选取在所述查询信息中排序在前的一个频率最高的查询关键词作为目标查询关键词。
进一步优选地,还包括:
关联关键词获取模块,用于当所述关键词具有关联关键词时,获取所述关联关键词的频率分布;
所述意图识别模块包括:
目标关联关键词确定单元,用于当所述目标查询关键词具有关联关键词时,根据所述关联关键词的频率分布,在所述目标查询关键词对应的关联关键词中确定出至少一个目标关联关键词;
意图识别单元,用于根据所述目标关联关键词,识别所述查询信息对应的意图。
进一步优选地,所述关键词提取模块包括:
分词标注单元,用于对每条语料信息进行分词标注,得到每条语料信息对应的词语及词语对应的词性;
关键词提取单元,用于根据每条语料信息对应的词语的词性,从每条语料信息对应的词语中提取出关键词。
与现有技术相比,本发明提供的一种意图识别方法及系统具有以下有益效果:
1、本发明先根据大量的语料信息形成关键词的频率分布,然后从用户输入的查询信息中提取出查询关键词,最后根据预先形成的关键词的频率分布,从查询关键词中提取出目标查询关键词,即可得到查询信息最可能的意图,本发明根据大数据得到的关键词的频率分布来分析得到用户最可能的意图,以提高意图识别的准确率的概率,并可提高用户的使用体验。
2、在本发明一优选实施例中,通过选取在查询信息中排序在前的频率最高的查询关键词作为目标查询关键词,可提高意图识别准确率的概率。
附图说明
下面将以明确易懂的方式,结合附图说明优选实施方式,对一种意图识别方法及系统的上述特性、技术特征、优点及其实现方式予以进一步说明。
图1是本发明一种意图识别方法的第一实施例的流程示意图一;
图2是本发明一种意图识别方法的第一实施例的流程示意图二;
图3是本发明一种意图识别方法的第二实施例的流程示意图;
图4是本发明一种意图识别方法的第三实施例的流程示意图;
图5是本发明一种意图识别方法的第四实施例的流程示意图;
图6是本发明一种意图识别方法的第五实施例的流程示意图;
图7是本发明一种意图识别方法的第六实施例的流程示意图;
图8是本发明一种意图识别系统的一个实施例的结构示意框图。
附图标号说明
100、语料信息获取模块; 200、关键词提取模块;
210、分词标注单元; 220、关键词提取单元;
300、统计模块; 350、关联关键词获取模块;
400、查询信息获取模块; 500、查询关键词提取模块;
600、查找模块; 610、查找单元;
611、频率获取子单元; 612、提取子单元;
613、查找子单元; 700、意图识别模块;
710、目标关联关键词确定单元; 720、意图识别单元。
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
为使图面简洁,各图中只示意性地表示出了与本发明相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。
根据本发明提供的第一实施例,如图1所示,一种意图识别方法,包括:
S100获取大量语料信息;
S200提取每条语料信息中的关键词;
S300统计所述关键词在所述大量语料信息中出现的频率,得到所述关键词的频率分布;
S400获取用户输入的查询信息;
S500提取所述查询信息中的查询关键词;
S600根据所述关键词的频率分布,在所述查询关键词中查找目标查询关键词;
S700根据所述目标查询关键词,识别所述查询信息对应的意图;
具体地,在本实施例中,先收集大量的语料信息,形成语料库,语料信息可以为文本信息,如用户文字输入的一句话,语料信息还可以是用户输入的语音信息或录制的音频信息等。
然后对每条语料信息进行处理,提取每条语料信息中的关键词,即可得到大量的关键词,然后统计每个关键词出现的频率,根据每个关键词出现的频率对所有关键词进行排序,得到所有关键词的频率分布,即根据大数据分析,得到提取出的所有关键词的频率分布。
当获取到用户输入的查询信息后,先提取出查询信息中的查询关键词,然后根据关键词的频率分布,在查询关键词中查找出目标查询关键词。
示例性地,例如从语料1中提取出的关键词为关键词1和关键词2;从语料2中提取出的关键词为关键词1和关键词3;从语料3中提取出的关键词为关键词1和关键词4;从语料4中提取出的关键词为关键词2和关键词4。
统计关键词1、关键词2、关键词3和关键词4在语料中出现的频率即为:关键词1出现的频率为3次,关键词2出现的频率为2次,关键词3出现的频率为1次,关键词4出现的频率为2次,根据关键词出现的频率对关键词进行排序即可得到关键词1、关键词2、关键词4、关键词3。
当从用户输入的查询信息中提取出的查询关键词为关键词1和关键词2,根据关键词1和关键词2的概率分布,确定出的目标查询关键词为关键词1,根据关键词1即可确定查询信息对应的意图。
本实施例中,先根据大量的语料信息形成关键词的频率分布,然后从用户输入的查询信息中提取出查询关键词,最后根据预先形成的关键词的频率分布,从查询关键词中提取出目标查询关键词,即可得到查询信息最可能的意图,本发明根据大数据得到的关键词的频率分布来分析得到用户最可能的意图,以提高意图识别的准确率的概率,并可提高用户的使用体验。
本实施例适用于一些特定的应用场景,如用户输入的为一句话“猴子吃香蕉”,但是百度百科、360百科等工具无法查询该语句的解析,因此,需要在该句话中提取出查询关键词“猴子”和“香蕉”,提取出查询关键词后则需要判断该句话中的主要意图是“猴子”还是“香蕉”,此时即可使用本实施例的方法来识别用户最可能的意图。
优选地,如图2所示,步骤S600根据所述关键词的频率分布,在所述查询关键词中查找目标查询关键词具体包括:
S610当所述查询关键词的数量为一个时,将所述查询关键词作为目标查询关键词;
S620当所述查询关键词的数量为多个时,根据所述关键词的频率分布,在多个所述查询关键词中查找出频率最高的查询关键词作为目标查询关键词
具体地,当提取出的查询关键词的数量为一个时,该查询关键词即为查询信息对应的意图。当提取出的查询关键词的数量为多个时,根据关键词的频率分布,在多个查询关键词中选择频率最高的查询关键词作为目标查询关键词,得到目标查询关键词后即可确定查询信息对应的意图。
根据本发明提供的第二实施例,如图3所示,一种意图识别方法,包括:
S100获取大量语料信息;
S200提取每条语料信息中的关键词;
S300统计所述关键词在所述大量语料信息中出现的频率,得到所述关键词的频率分布;
S400获取用户输入的查询信息;
S500提取所述查询信息中的查询关键词;
S610当所述查询关键词的数量为一个时,将所述查询关键词作为目标查询关键词;
S621当所述查询关键词的数量为多个时,根据所述关键词的频率分布,得到每个查询关键词的频率;
S622在所述查询关键词中提取出频率最高的查询关键词;
S623当频率最高的查询关键词的数量为一个时,将所述频率最高的查询关键词作为目标查询关键词;
S624当频率最高的查询关键词的数量为多个时,选取在所述查询信息中排序在前的一个频率最高的查询关键词作为目标查询关键词;
S700根据所述目标查询关键词,识别所述查询信息对应的意图。
具体地,在确定目标查询关键词时,若查询关键词的数量为多个,则先根据预先得到的关键词的频率分布,得到每个查询关键词的频率,然后根据每个查询关键词的频率,在查询关键词中提取出频率最高的查询关键词,当提取出的频率最高的查询关键词的数量为一个时,则该频率最高的查询关键词即为目标查询关键词。当提取出的频率最高的查询关键词的数量为多个时,则选取在查询信息中排序在前的一个频率最高的查询关键词作为目标查询关键词,或者在这多个频率最高的查询关键词中随机选取一个频率最高的查询关键词作为目标查询关键词。例如查询信息“猴子吃香蕉”、“周杰伦的歌”等,在查询信息中排在前面的主语“猴子”或定语“周杰伦”等都是查询信息中比较重要的词语,因此,选取在查询信息中排序在前的频率最高的查询关键词作为目标查询关键词,可提高意图识别准确率的概率。
示例性地,例如查询关键词为关键词1和关键词2,若在预先得到的关键词的频率分布中,关键词1的频率大于关键词2的频率,则选取关键词1作为目标查询关键词。若在预先得到的关键词的频率分布中,关键词1与关键词2的频率相同,则根据关键词1和关键词2在查询信息中的先后顺序进行选取,若关键词1在关键词2的前面,则选取关键词1为目标查询关键词,若关键词2在关键词1的前面,则选取关键词2为目标查询关键词。或者在关键词1和关键词2中随机选取一个作为目标查询关键词。
根据本发明提供的第三实施例,如图4所示,一种意图识别方法,包括:
S100获取大量语料信息;
S200提取每条语料信息中的关键词;
S300统计所述关键词在所述大量语料信息中出现的频率,得到所述关键词的频率分布;
S350当所述关键词具有关联关键词时,获取所述关联关键词的频率分布;
S400获取用户输入的查询信息;
S500提取所述查询信息中的查询关键词;
S600根据所述关键词的频率分布,在所述查询关键词中查找目标查询关键词;
S710当所述目标查询关键词具有关联关键词时,根据所述关联关键词的频率分布,在所述目标查询关键词对应的关联关键词中确定出至少一个目标关联关键词;
S720根据所述目标关联关键词,识别所述查询信息对应的意图。
具体地,从大量语料信息中提取出关键词后,由于关键词可能包含关联关键词,因此,还需要获取关键词的关联关键词的频率分布,此处的关联关键词是指关键词包含的下级概念,例如,关键词“唐诗”的关联关键词为“李白”、“杜甫”等。
例如,提取出的关键词为关键词1、关键词2、关键词3、关键词4、关键词5和关键词6,通过分析这多个关键词之间的关系,发现关键词3和关键词4为关键词1的关联关键词,则统计关键词3和关键词4在大量语料信息中出现的频率,得到关键词3和关键词4的频率分布。
当根据上述实施例一或实施例二的方法得到目标查询关键词后,若目标查询关键词具有关联关键词,则根据关联关键词的频率分布,从目标查询关键词对应的一个或多个关联关键词中确定出至少一个目标关联关键词,然后根据目标关联关键词确定查询信息对应的意图。
示例性地,例如,查询信息为“猴子吃香蕉”,在该查询信息中提取出的查询关键词为“猴子”和“香蕉”,而“猴子”和“香蕉”均只包含一个语义,无关联关键词,因此,若“猴子”的频率分布大于“香蕉”时,则“猴子”为查询信息对应的意图。
若查询信息为“唐诗”,则“唐诗”为目标查询关键词,由于“唐诗”具有关联关键词,因此先获取“唐诗”的关联关键词“李白”、“杜甫”等,若在大量语料信息中“李白”出现的频率大于“杜甫”,则“李白”为目标关联关键词,即输出李白的诗。
本实施例中,通过进一步获取目标查询关键词的关联关键词,以提高意识识别准确率的概率。
根据本发明提供的第四实施例,如图5所示,一种意图识别方法,包括:
S100获取大量语料信息;
S210对每条语料信息进行分词标注,得到每条语料信息对应的词语及词语对应的词性;
S220根据每条语料信息对应的词语的词性,从每条语料信息对应的词语中提取出关键词;
S300统计所述关键词在所述大量语料信息中出现的频率,得到所述关键词的频率分布;
S400获取用户输入的查询信息;
S500提取所述查询信息中的查询关键词;
S600根据所述关键词的频率分布,在所述查询关键词中查找目标查询关键词;
S700根据所述目标查询关键词,识别所述查询信息对应的意图。
具体地,在从每条语料信息中提取关键词时,先对每条语料信息进行分词标注,得到每条语料信息对应的分词后的词语以及每个词语的词性,然后根据每个词语的词性,从所有词语中提取出关键词,本实施例中,提取出的关键词为分词后得到的所有词语中的名词。
例如,语料信息1为“猴子吃香蕉”,则从语料信息1中提取出的关键词为“猴子”和“香蕉”;若语料信息2为“鲸鱼为什么会喷水”,则从语料信息2中提取出的关键词为“鲸鱼”;若语料信息3为“周杰伦的歌曲”,则从语料信息3中提取出的关键词为“周杰伦”和“歌曲”。
根据本发明提供的第五实施例,如图6所示,一种意图识别方法,包括:
S100获取大量语料信息;
S210对每条语料信息进行分词标注,得到每条语料信息对应的词语及词语对应的词性;
S220根据每条语料信息对应的词语的词性,从每条语料信息对应的词语中提取出关键词;
S300统计所述关键词在所述大量语料信息中出现的频率,得到所述关键词的频率分布;
S400获取用户输入的查询信息;
S500提取所述查询信息中的查询关键词;
S610当所述查询关键词的数量为一个时,将所述查询关键词作为目标查询关键词;
S621当所述查询关键词的数量为多个时,根据所述关键词的频率分布,得到每个查询关键词的频率;
S622在所述查询关键词中提取出频率最高的查询关键词;
S623当频率最高的查询关键词的数量为一个时,将所述频率最高的查询关键词作为目标查询关键词;
S624当频率最高的查询关键词的数量为多个时,选取在所述查询信息中排序在前的一个频率最高的查询关键词作为目标查询关键词;
S700根据所述目标查询关键词,识别所述查询信息对应的意图。
本实施例中的各个步骤的具体描述已经在上述对应的实施例中进行了详细描述,此处将不做详细阐述说明。
根据本发明提供的第六实施例,如图7所示,一种意图识别方法,包括:
S100获取大量语料信息;
S210对每条语料信息进行分词标注,得到每条语料信息对应的词语及词语对应的词性;
S220根据每条语料信息对应的词语的词性,从每条语料信息对应的词语中提取出关键词;
S300统计所述关键词在所述大量语料信息中出现的频率,得到所述关键词的频率分布;
S350当所述关键词具有关联关键词时,获取所述关联关键词的频率分布;
S400获取用户输入的查询信息;
S500提取所述查询信息中的查询关键词;
S600根据所述关键词的频率分布,在所述查询关键词中查找目标查询关键词;
S710当所述目标查询关键词具有关联关键词时,根据所述关联关键词的频率分布,在所述目标查询关键词对应的关联关键词中确定出至少一个目标关联关键词;
S720根据所述目标关联关键词,识别所述查询信息对应的意图。
本实施例中的各个步骤的具体描述已经在上述对应的实施例中进行了详细描述,此处将不做详细阐述说明。
根据本发明提供的第七实施例,如图8所示,一种意图识别系统,包括:
语料信息获取模块100,用于获取大量语料信息;
关键词提取模块200,用于提取每条语料信息中的关键词;
统计模块300,用于统计所述关键词在所述大量语料信息中出现的频率,得到所述关键词的频率分布;
查询信息获取模块400,用于获取用户输入的查询信息;
查询关键词提取模块500,用于提取所述查询信息中的查询关键词;
查找模块600,用于根据所述关键词的频率分布,在所述查询关键词中查找目标查询关键词;
意图识别模块700,用于根据所述目标查询关键词,识别所述查询信息对应的意图。
具体地,具体地,在本实施例中,先收集大量的语料信息,形成语料库,语料信息可以为文本信息,如用户文字输入的一句话,语料信息还可以是用户输入的语音信息或录制的音频信息等。
然后对每条语料信息进行处理,提取每条语料信息中的关键词,即可得到大量的关键词,然后统计每个关键词出现的频率,根据每个关键词出现的频率对所有关键词进行排序,得到所有关键词的频率分布,即根据大数据分析,得到提取出的所有关键词的频率分布。
当获取到用户输入的查询信息后,先提取出查询信息中的查询关键词,然后根据关键词的频率分布,在查询关键词中查找出目标查询关键词。
示例性地,例如从语料1中提取出的关键词为关键词1和关键词2;从语料2中提取出的关键词为关键词1和关键词3;从语料3中提取出的关键词为关键词1和关键词4;从语料4中提取出的关键词为关键词2和关键词4。
统计关键词1、关键词2、关键词3和关键词4在语料中出现的频率即为:关键词1出现的频率为3次,关键词2出现的频率为2次,关键词3出现的频率为1次,关键词4出现的频率为2次,根据关键词出现的频率对关键词进行排序即可得到关键词1、关键词2、关键词4、关键词3。
当从用户输入的查询信息中提取出的查询关键词为关键词1和关键词2,根据关键词1和关键词2的概率分布,确定出的目标查询关键词为关键词1,根据关键词1即可确定查询信息对应的意图。
本实施例中,先根据大量的语料信息形成关键词的频率分布,然后从用户输入的查询信息中提取出查询关键词,最后根据预先形成的关键词的频率分布,从查询关键词中提取出目标查询关键词,即可得到查询信息最可能的意图,本发明根据大数据得到的关键词的频率分布来分析得到用户最可能的意图,以提高意图识别的准确率的概率,并可提高用户的使用体验。
本实施例适用于一些特定的应用场景,如用户输入的为一句话“猴子吃香蕉”,但是百度百科、360百科等工具无法查询该语句的解析,因此,需要在该句话中提取出查询关键词“猴子”和“香蕉”,提取出查询关键词后则需要判断该句话中的主要意图是“猴子”还是“香蕉”,此时即可使用本实施例的方法来识别用户最可能的意图。
优选地,所述查找模块600包括:
查找单元610,用于当所述查询关键词的数量为一个时,将所述查询关键词作为目标查询关键词;
所述查找单元610,还用于当所述查询关键词的数量为多个时,根据所述关键词的频率分布,在多个所述查询关键词中选取频率最高的查询关键词作为目标查询关键词。
具体地,当提取出的查询关键词的数量为一个时,该查询关键词即为查询信息对应的意图。当提取出的查询关键词的数量为多个时,根据关键词的频率分布,在多个查询关键词中选择频率最高的查询关键词作为目标查询关键词,得到目标查询关键词后即可确定查询信息对应的意图。
优选地,所述查找单元610包括:
频率获取子单元611,用于当所述查询关键词的数量为多个时,根据所述关键词的频率分布,得到每个查询关键词的频率;
提取子单元612,用于在所述查询关键词中提取出频率最高的查询关键词;
查找子单元613,用于当频率最高的查询关键词的数量为一个时,将所述频率最高的查询关键词作为目标查询关键词;
所述查找子单元613,还用于当频率最高的查询关键词的数量为多个时,选取在所述查询信息中排序在前的一个频率最高的查询关键词作为目标查询关键词。
具体地,在确定目标查询关键词时,若查询关键词的数量为多个,则先根据预先得到的关键词的频率分布,得到每个查询关键词的频率,然后根据每个查询关键词的频率,在查询关键词中提取出频率最高的查询关键词,当提取出的频率最高的查询关键词的数量为一个时,则该频率最高的查询关键词即为目标查询关键词。当提取出的频率最高的查询关键词的数量为多个时,则选取在查询信息中排序在前的一个频率最高的查询关键词作为目标查询关键词,或者在这多个频率最高的查询关键词中随机选取一个频率最高的查询关键词作为目标查询关键词。例如查询信息“猴子吃香蕉”、“周杰伦的歌”等,在查询信息中排在前面的主语“猴子”或定语“周杰伦”等都是查询信息中比较重要的词语,因此,选取在查询信息中排序在前的频率最高的查询关键词作为目标查询关键词,可提高意图识别准确率的概率。
示例性地,例如查询关键词为关键词1和关键词2,若在预先得到的关键词的频率分布中,关键词1的频率大于关键词2的频率,则选取关键词1作为目标查询关键词。若在预先得到的关键词的频率分布中,关键词1与关键词2的频率相同,则根据关键词1和关键词2在查询信息中的先后顺序进行选取,若关键词1在关键词2的前面,则选取关键词1为目标查询关键词,若关键词2在关键词1的前面,则选取关键词2为目标查询关键词。或者在关键词1和关键词2中随机选取一个作为目标查询关键词。
优选地,还包括:
关联关键词获取模块350,用于当所述关键词具有关联关键词时,获取所述关联关键词的频率分布;
所述意图识别模块700包括:
目标关联关键词确定单元710,用于当所述目标查询关键词具有关联关键词时,根据所述关联关键词的频率分布,在所述目标查询关键词对应的关联关键词中确定出至少一个目标关联关键词;
意图识别单元720,用于根据所述目标关联关键词,识别所述查询信息对应的意图。
具体地,从大量语料信息中提取出关键词后,由于关键词可能包含关联关键词,因此,还需要获取关键词的关联关键词的频率分布,此处的关联关键词是指关键词包含的下级概念,例如,关键词“唐诗”的关联关键词为“李白”、“杜甫”等。
例如,提取出的关键词为关键词1、关键词2、关键词3、关键词4、关键词5和关键词6,通过分析这多个关键词之间的关系,发现关键词3和关键词4为关键词1的关联关键词,则统计关键词3和关键词4在大量语料信息中出现的频率,得到关键词3和关键词4的频率分布。
当根据上述实施例一或实施例二的方法得到目标查询关键词后,若目标查询关键词具有关联关键词,则根据关联关键词的频率分布,从目标查询关键词对应的一个或多个关联关键词中确定出至少一个目标关联关键词,然后根据目标关联关键词确定查询信息对应的意图。
示例性地,例如,查询信息为“猴子吃香蕉”,在该查询信息中提取出的查询关键词为“猴子”和“香蕉”,而“猴子”和“香蕉”均只包含一个语义,无关联关键词,因此,若“猴子”的频率分布大于“香蕉”时,则“猴子”为查询信息对应的意图。
若查询信息为“唐诗”,则“唐诗”为目标查询关键词,由于“唐诗”具有关联关键词,因此先获取“唐诗”的关联关键词“李白”、“杜甫”等,若在大量语料信息中“李白”出现的频率大于“杜甫”,则“李白”为目标关联关键词,即输出李白的诗。
本实施例中,通过进一步获取目标查询关键词的关联关键词,以提高意识识别准确率的概率。
优选地,所述关键词提取模块200包括:
分词标注单元210,用于对每条语料信息进行分词标注,得到每条语料信息对应的词语及词语对应的词性;
关键词提取单元220,用于根据每条语料信息对应的词语的词性,从每条语料信息对应的词语中提取出关键词。
具体地,在从每条语料信息中提取关键词时,先对每条语料信息进行分词标注,得到每条语料信息对应的分词后的词语以及每个词语的词性,然后根据每个词语的词性,从所有词语中提取出关键词,本实施例中,提取出的关键词为分词后得到的所有词语中的名词。
例如,语料信息1为“猴子吃香蕉”,则从语料信息1中提取出的关键词为“猴子”和“香蕉”;若语料信息2为“鲸鱼为什么会喷水”,则从语料信息2中提取出的关键词为“鲸鱼”;若语料信息3为“周杰伦的歌曲”,则从语料信息3中提取出的关键词为“周杰伦”和“歌曲”。
应当说明的是,上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种意图识别方法,其特征在于,包括:
获取大量语料信息;
提取每条语料信息中的关键词;
统计所述关键词在所述大量语料信息中出现的频率,得到所述关键词的频率分布;
获取用户输入的查询信息;
提取所述查询信息中的查询关键词;
根据所述关键词的频率分布,在所述查询关键词中查找目标查询关键词;
根据所述目标查询关键词,识别所述查询信息对应的意图。
2.根据权利要求1所述的一种意图识别方法,其特征在于,所述根据所述关键词的频率分布,在所述查询关键词中查找目标查询关键词具体包括:
当所述查询关键词的数量为一个时,将所述查询关键词作为目标查询关键词;
当所述查询关键词的数量为多个时,根据所述关键词的频率分布,在多个所述查询关键词中选取频率最高的查询关键词作为目标查询关键词。
3.根据权利要求2所述的一种意图识别方法,其特征在于,所述当所述查询关键词的数量为多个时,根据所述关键词的频率分布,在多个所述查询关键词中选取频率最高的查询关键词作为目标查询关键词具体包括:
当所述查询关键词的数量为多个时,根据所述关键词的频率分布,得到每个查询关键词的频率;
在所述查询关键词中提取出频率最高的查询关键词;
当频率最高的查询关键词的数量为一个时,将所述频率最高的查询关键词作为目标查询关键词;
当频率最高的查询关键词的数量为多个时,选取在所述查询信息中排序在前的一个频率最高的查询关键词作为目标查询关键词。
4.根据权利要求1所述的一种意图识别方法,其特征在于,所述提取每条语料信息中的关键词之后,所述获取用户输入的查询信息之前还包括:
当所述关键词具有关联关键词时,获取所述关联关键词的频率分布;
所述根据所述目标查询关键词,识别所述查询信息对应的意图具体包括:
当所述目标查询关键词具有关联关键词时,根据所述关联关键词的频率分布,在所述目标查询关键词对应的关联关键词中确定出至少一个目标关联关键词;
根据所述目标关联关键词,识别所述查询信息对应的意图。
5.根据权利要求1-4任一项所述的一种意图识别方法,其特征在于,所述提取每条语料信息中的关键词具体包括:
对每条语料信息进行分词标注,得到每条语料信息对应的词语及词语对应的词性;
根据每条语料信息对应的词语的词性,从每条语料信息对应的词语中提取出关键词。
6.一种意图识别系统,其特征在于,包括:
语料信息获取模块,用于获取大量语料信息;
关键词提取模块,用于提取每条语料信息中的关键词;
统计模块,用于统计所述关键词在所述大量语料信息中出现的频率,得到所述关键词的频率分布;
查询信息获取模块,用于获取用户输入的查询信息;
查询关键词提取模块,用于提取所述查询信息中的查询关键词;
查找模块,用于根据所述关键词的频率分布,在所述查询关键词中查找目标查询关键词;
意图识别模块,用于根据所述目标查询关键词,识别所述查询信息对应的意图。
7.根据权利要求6所述的一种意图识别系统,其特征在于,所述查找模块包括:
查找单元,用于当所述查询关键词的数量为一个时,将所述查询关键词作为目标查询关键词;
所述查找单元,还用于当所述查询关键词的数量为多个时,根据所述关键词的频率分布,在多个所述查询关键词中选取频率最高的查询关键词作为目标查询关键词。
8.根据权利要求7所述的一种意图识别系统,其特征在于,所述查找单元包括:
频率获取子单元,用于当所述查询关键词的数量为多个时,根据所述关键词的频率分布,得到每个查询关键词的频率;
提取子单元,用于在所述查询关键词中提取出频率最高的查询关键词;
查找子单元,用于当频率最高的查询关键词的数量为一个时,将所述频率最高的查询关键词作为目标查询关键词;
所述查找子单元,还用于当频率最高的查询关键词的数量为多个时,选取在所述查询信息中排序在前的一个频率最高的查询关键词作为目标查询关键词。
9.根据权利要求6所述的一种意图识别系统,其特征在于,还包括:
关联关键词获取模块,用于当所述关键词具有关联关键词时,获取所述关联关键词的频率分布;
所述意图识别模块包括:
目标关联关键词确定单元,用于当所述目标查询关键词具有关联关键词时,根据所述关联关键词的频率分布,在所述目标查询关键词对应的关联关键词中确定出至少一个目标关联关键词;
意图识别单元,用于根据所述目标关联关键词,识别所述查询信息对应的意图。
10.根据权利要求6-9任一项所述的一种意图识别系统,其特征在于,所述关键词提取模块包括:
分词标注单元,用于对每条语料信息进行分词标注,得到每条语料信息对应的词语及词语对应的词性;
关键词提取单元,用于根据每条语料信息对应的词语的词性,从每条语料信息对应的词语中提取出关键词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910047093.6A CN109766414A (zh) | 2019-01-18 | 2019-01-18 | 一种意图识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910047093.6A CN109766414A (zh) | 2019-01-18 | 2019-01-18 | 一种意图识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109766414A true CN109766414A (zh) | 2019-05-17 |
Family
ID=66454154
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910047093.6A Pending CN109766414A (zh) | 2019-01-18 | 2019-01-18 | 一种意图识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109766414A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080120276A1 (en) * | 2006-11-16 | 2008-05-22 | Yahoo! Inc. | Systems and Methods Using Query Patterns to Disambiguate Query Intent |
CN102722558A (zh) * | 2012-05-29 | 2012-10-10 | 百度在线网络技术(北京)有限公司 | 一种为用户推荐提问的方法和装置 |
CN104765769A (zh) * | 2015-03-06 | 2015-07-08 | 大连理工大学 | 一种基于词矢量的短文本查询扩展及检索方法 |
US20150347500A1 (en) * | 2014-05-27 | 2015-12-03 | Baidu Online Network Technology (Beijing) Co., Ltd. | Interactive searching method and apparatus |
CN105389307A (zh) * | 2015-12-02 | 2016-03-09 | 上海智臻智能网络科技股份有限公司 | 语句意图类别识别方法及装置 |
CN106708904A (zh) * | 2015-11-17 | 2017-05-24 | 北京奇虎科技有限公司 | 对图像进行搜索的方法及装置 |
-
2019
- 2019-01-18 CN CN201910047093.6A patent/CN109766414A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080120276A1 (en) * | 2006-11-16 | 2008-05-22 | Yahoo! Inc. | Systems and Methods Using Query Patterns to Disambiguate Query Intent |
CN102722558A (zh) * | 2012-05-29 | 2012-10-10 | 百度在线网络技术(北京)有限公司 | 一种为用户推荐提问的方法和装置 |
US20150347500A1 (en) * | 2014-05-27 | 2015-12-03 | Baidu Online Network Technology (Beijing) Co., Ltd. | Interactive searching method and apparatus |
CN104765769A (zh) * | 2015-03-06 | 2015-07-08 | 大连理工大学 | 一种基于词矢量的短文本查询扩展及检索方法 |
CN106708904A (zh) * | 2015-11-17 | 2017-05-24 | 北京奇虎科技有限公司 | 对图像进行搜索的方法及装置 |
CN105389307A (zh) * | 2015-12-02 | 2016-03-09 | 上海智臻智能网络科技股份有限公司 | 语句意图类别识别方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108804521B (zh) | 一种基于知识图谱的问答方法及农业百科问答系统 | |
CN110765257B (zh) | 一种知识图谱驱动型的法律智能咨询系统 | |
CN108345690B (zh) | 智能问答方法与系统 | |
CN107515877B (zh) | 敏感主题词集的生成方法和装置 | |
CN109543178B (zh) | 一种司法文本标签体系构建方法及系统 | |
CN103605665B (zh) | 一种基于关键词的评审专家智能检索与推荐方法 | |
CN103956169B (zh) | 一种语音输入方法、装置和系统 | |
CN107729468A (zh) | 基于深度学习的答案抽取方法及系统 | |
CN103970733B (zh) | 一种基于图结构的中文新词识别方法 | |
CN105653706A (zh) | 一种基于文献内容知识图谱的多层引文推荐方法 | |
CN110222045A (zh) | 一种数据报表获取方法、装置及计算机设备、存储介质 | |
CN106601237A (zh) | 交互式语音应答系统及其语音识别方法 | |
CN106202211A (zh) | 一种基于微博类型的集成微博谣言识别方法 | |
CN106407484A (zh) | 一种基于弹幕语义关联的视频标签提取方法 | |
CN105718585B (zh) | 文档与标签词语义关联方法及其装置 | |
CN105138507A (zh) | 一种基于模式自学习的中文开放式关系抽取方法 | |
CN105912629A (zh) | 一种智能问答方法及装置 | |
CN104537341B (zh) | 人脸图片信息获取方法和装置 | |
CN105787134B (zh) | 智能问答方法、装置及系统 | |
CN106446162A (zh) | 一种面向领域的本体知识库文本检索方法 | |
CN107943514A (zh) | 一种软件文档中核心代码元素的挖掘方法及系统 | |
EP3232336A1 (en) | Method and device for recognizing stop word | |
CN110705292B (zh) | 一种基于知识库和深度学习的实体名称提取方法 | |
CN109522396B (zh) | 一种面向国防科技领域的知识处理方法及系统 | |
CN104331523A (zh) | 一种基于概念对象模型的问句检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190517 |
|
RJ01 | Rejection of invention patent application after publication |