CN109871543B - 一种意图获取方法及系统 - Google Patents
一种意图获取方法及系统 Download PDFInfo
- Publication number
- CN109871543B CN109871543B CN201910186086.4A CN201910186086A CN109871543B CN 109871543 B CN109871543 B CN 109871543B CN 201910186086 A CN201910186086 A CN 201910186086A CN 109871543 B CN109871543 B CN 109871543B
- Authority
- CN
- China
- Prior art keywords
- intention
- corpus
- current
- knowledge graph
- regular expression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000014509 gene expression Effects 0.000 claims abstract description 135
- 230000011218 segmentation Effects 0.000 claims description 24
- 238000002372 labelling Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 abstract description 8
- 241000283153 Cetacea Species 0.000 description 4
- 239000007921 spray Substances 0.000 description 4
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明属于数据处理领域,公开了一种意图获取方法及系统,其方法包括:获取语料集,所述语料集包括多条语料;根据所述语料集生成正则表达式库,所述正则表达式库包括至少一个正则表达式;根据所述语料集中的语料生成意图知识图谱;获取用户输入的当前信息;根据所述正则表达式库中的正则表达式识别所述当前信息的当前意图;根据所述当前意图和所述意图知识图谱确定与所述当前意图对应的相关意图。本发明根据之前建立的意图知识图谱和当前意图获取到与当前意图相关的意图,从而更全面的为用户推荐相关的内容,方便用户获取更多信息,简化用户的搜索过程,进而提高用户的使用体验。
Description
技术领域
本发明属于数据处理技术领域,特别涉及一种意图获取方法及系统。
背景技术
随着智能终端及网络技术的迅速发展,人们越来越习惯地使用智能设备完成各种需求,如在学习的过程中,碰到不理解的知识点、不会解的习题时,在智能学习设备中语音输入相关知识点,搜索对应的答案和知识讲解,以便对用户进行学习辅导。
在进行信息查询时,准确理解用户的意图是做出正确应答的基础。目前,在一般的语音类产品中,只能针对精准意图进行判定,而对精准意图以外的相关意图,则一般无法联想获取。
发明内容
本发明的目的是提供一种意图获取方法及系统,在识别出用户的意图的同时获取与用户的意图相关的意图。
本发明提供的技术方案如下:
一方面,提供一种意图获取方法,包括:
获取语料集,所述语料集包括多条语料;
根据所述语料集生成正则表达式库,所述正则表达式库包括至少一个正则表达式;
根据所述语料集中的语料生成意图知识图谱;
获取用户输入的当前信息;
根据所述正则表达式库中的正则表达式识别所述当前信息的当前意图;
根据所述当前意图和所述意图知识图谱确定与所述当前意图对应的相关意图。
进一步优选地,所述根据所述语料集生成正则表达式库具体包括:
对所述语料集中的每条语料进行分词,并标注分词后词语的词性;
对每条语料进行语法分析,提取每条语料的句式主体;
获取所述句式主体对应的字词的语义槽;
根据每条语料的句式主体、所述句式主体对应的语义槽以及每条语料中剩余的非主体部分生成正则表达式;
将所述语料集中的每条语料对应的正则表达式组合生成正则表达式库。
进一步优选地,所述根据所述语料集中的语料生成意图知识图谱具体包括:
提取所述语料集中语料的关键词,并生成语义槽;
根据所述语义槽之间的关系生成意图知识图谱。
进一步优选地,所述根据所述语义槽之间的关系生成意图知识图谱具体包括:
对所述语义槽进行分类组合,生成至少一个大类意图;
根据每个大类意图中的语义槽之间的关系生成每个大类意图对应的意图知识图谱;
所述根据所述当前意图和所述意图知识图谱确定与所述当前意图对应的相关意图具体包括:
根据所述当前意图确定目标大类意图;
根据所述当前意图和所述目标大类意图对应的意图知识图谱,确定与所述当前意图对应的相关意图。
进一步优选地,所述提取所述语料集中语料的关键词,并生成语义槽之后,所述根据所述语义槽之间的关系生成意图知识图谱之前还包括:
统计所述关键词在所述语料集中出现的频率;
所述根据所述语义槽之间的关系生成意图知识图谱之后还包括:
根据所述关键词的频率在所述意图知识图谱中标记节点的权重;
所述根据所述当前意图和所述意图知识图谱确定与所述当前意图对应的相关意图具体包括:
在所述意图知识图谱中查找到与所述当前意图匹配的目标节点;
根据与所述目标节点相关的节点的权重,确定与所述当前意图对应的相关意图。
另一方面,还提供一种意图获取系统,包括:
语料集获取模块,用于获取语料集,所述语料集包括多条语料;
正则表达式生成模块,用于根据所述语料集生成正则表达式库,所述正则表达式库包括至少一个正则表达式;
知识图谱生成模块,用于根据所述语料集中的语料生成意图知识图谱;
信息获取模块,用于获取用户输入的当前信息;
意图识别模块,用于根据所述正则表达式库中的正则表达式识别所述当前信息的当前意图;
相关意图获取模块,用于根据所述当前意图和所述意图知识图谱确定与所述当前意图对应的相关意图。
进一步优选地,所述正则表达式生成模块包括:
分词标注单元,用于对所述语料集中的每条语料进行分词,并标注分词后词语的词性;
句式主体提取单元,用于对每条语料进行语法分析,提取每条语料的句式主体;
语义槽获取单元,用于获取所述句式主体对应的字词的语义槽;
正则表达式生成单元,用于根据每条语料的句式主体、所述句式主体对应的语义槽以及每条语料中剩余的非主体部分生成正则表达式;
组合单元,用于将所述语料集中的每条语料对应的正则表达式组合生成正则表达式库。
进一步优选地,所述知识图谱生成模块包括:
关键词提取单元,用于提取所述语料集中语料的关键词,并生成语义槽;
知识图谱生成单元,用于根据所述语义槽之间的关系生成意图知识图谱。
进一步优选地,所述知识图谱生成单元包括:
分类组合子单元,用于对所述语义槽进行分类组合,生成至少一个大类意图;
知识图谱生成子单元,用于根据每个大类意图中的语义槽之间的关系生成每个大类意图对应的意图知识图谱;
所述相关意图获取模块包括:
目标大类意图确定单元,用于根据所述当前意图确定目标大类意图;
相关意图获取单元,用于根据所述当前意图和所述目标大类意图对应的意图知识图谱,确定与所述当前意图对应的相关意图。
进一步优选地,所述知识图谱生成模块还包括:
频率统计单元,用于统计所述关键词在所述语料集中出现的频率;
权重标记单元,用于根据所述关键词的频率在所述意图知识图谱中标记节点的权重;
所述相关意图获取模块包括:
目标节点查找单元,用于在所述意图知识图谱中查找到与所述当前意图匹配的目标节点;
相关意图获取单元,用于根据与所述目标节点相关的节点的权重,确定与所述当前意图对应的相关意图。
与现有技术相比,本发明提供的一种意图获取方法及系统具有以下有益效果:
1、本发明先通过收集的语料集建立正则表达式库和意图知识图谱,当用户输入新的文本或语音信息后,可先通过正则表达式中的正则表达式识别出用户输入的信息对应的当前意图,然后根据之前建立的意图知识图谱和当前意图获取到与当前意图相关的意图,从而更全面的为用户推荐相关的内容,方便用户获取更多信息,简化用户的搜索过程,进而提高用户的使用体验。
2、在本发明一优选实施例中,先将意图进行分类,然后根据分类情况生成对应的意图知识图谱,当通过正则表达式识别出用户的当前意图后,先根据当前意图确定对应的大类意图,然后再在大类意图中查找与当前意图对应的相关意图,将意图进行分类,可简化相关意图的查找过程,提高查找匹配速度。
3、在本发明一优选实施例中,根据大数据得到的关键词的频率来向用户推荐相关意图,以提高向用户推荐相关意图的准确率的概率,进而提高用户的使用体验。
附图说明
下面将以明确易懂的方式,结合附图说明优选实施方式,对一种意图获取方法及系统的上述特性、技术特征、优点及其实现方式予以进一步说明。
图1是本发明一种意图获取方法的第一实施例的流程示意图;
图2是本发明一种意图获取方法的第二实施例的流程示意图;
图3是本发明一种意图获取方法的第三实施例的流程示意图;
图4是本发明一种意图获取方法的第四实施例的流程示意图;
图5是本发明一种意图获取方法的第五实施例的流程示意图;
图6是本发明一种意图获取系统的一个实施例的结构示意框图。
附图标号说明
100、语料集获取模块; 200、正则表达式生成模块;
210、分词标注单元; 220、句式主体提取单元;
230、语义槽获取单元; 240、正则表达式生成单元;
250、组合单元; 300、知识图谱生成模块;
310、关键词提取单元; 320、知识图谱生成单元;
321、分类组合子单元; 322、知识图谱生成子单元;
330、频率统计单元; 340、权重标记单元;
400、信息获取模块; 500、意图识别模块;
600、相关意图获取模块; 610、目标大类意图确定单元;
620、相关意图获取单元; 630、目标节点查找单元。
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
为使图面简洁,各图中只示意性地表示出了与本发明相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。
根据本发明提供的第一实施例,如图1所示,一种意图获取方法,包括:
S100获取语料集,所述语料集包括多条语料;
具体地,先收集大量语料形成语料集,语料可以为文本信息、语音信息或录制的音频信息;如在计算机或智能设备上存储的用户文字输入的一句话,或存储的用户语音输入的语音信息,或在其他音频信息中截取的某一句话。
S200根据所述语料集生成正则表达式库,所述正则表达式库包括至少一个正则表达式;
具体地,正则表达式是指用来描述或者匹配一系列符合某个句法规则的字符串。正则表达式一般由普通字符和元字符组成,普通字符包括数字和大小写的字母,而元字符是具有特殊含义的字符。
例如,“s”表示任何空白字符,包括空格、制表符、换页符等,“.”表示除换行元字符“”以外的任意字符,“*”表示前面的子表达式重复零次或多次。
得到语料集后,根据语料集中的每个语料的句法结构生成对应的正则表达式,句法结构相同或相似的多个语料可以生成一个正则表达式,如主谓宾结构可以生成一个正则表达式,生成的正则表达式为“##名词库##动词库##名词库##”。再如,语料1:“鲸鱼为什么会喷水”和语料2:“小鸟为什么会飞”生成的正则表达式为“##名词库##[为什么][会]##动词库##”。根据语料集中的大量语料生成大量的正则表达式后,将生成大量的正则表达式组合成正则表达式库。
S300根据所述语料集中的语料生成意图知识图谱;
具体地,知识图谱可以理解成一张由知识点相互连接而成的语义网络,语义网络由相互连接的节点和边组成,节点表示概念或者对象,边表示他们之间的关系。得到语料集后,根据语料集中的语料对应的意图即可生成意图知识图谱。
S400获取用户输入的当前信息;
S500根据所述正则表达式库中的正则表达式识别所述当前信息的当前意图;
S600根据所述当前意图和所述意图知识图谱确定与所述当前意图对应的相关意图。
具体地,当根据收集的大量语料信息生成正则表达式库和意图知识图谱后,即可通过正则表达式库中的正则表达式识别用户新输入的信息对应的当前意图,并且还可根据意图知识图谱获取当前意图对应的相关意图。用户新输入的当前信息可为文本信息或语音信息等。
例如,用户新输入的当前信息为“播放歌手A的B歌曲”,用户输入的当前信息对应的当前意图是“播放B歌曲”,在为用户播放B歌曲时,还可通过意图知识图谱获取到与B歌曲相关的内容(意图),如与B歌曲风格相同或相似的歌曲,或B歌曲的歌手A的其他歌曲,然后将与当前意图对应的相关意图推荐给用户,便于用户获取其他相关内容,提高用户的使用体验。
本实施例中,先通过收集的语料集建立正则表达式库和意图知识图谱,当用户输入新的文本或语音信息后,可先通过正则表达式中的正则表达式识别出用户输入的信息对应的当前意图,然后根据之前建立的意图知识图谱和当前意图获取到与当前意图相关的意图,从而更全面的为用户推荐相关的内容,方便用户获取更多信息,简化用户的搜索过程,进而提高用户的使用体验。
根据本发明提供的第二实施例,如图2所示,一种意图获取方法,包括:
S100获取语料集,所述语料集包括多条语料;
S210对所述语料集中的每条语料进行分词,并标注分词后词语的词性;
具体地,获取语料集后,先对语料集中的每条语料进行分词,若语料为语音信息,可先将语音信息转化为文本信息,然后对文本信息进行分词。分词是指将一个汉字序列切分成一个一个单独的词,即将一句话切分成一个个单独的词。将语料进行分词后,标注分词后各个词语的词性。
例如,语料为“小鸟为什么会飞”,分词后变为“小鸟”、“为什么”、“会”、“飞”。然后标注分词后各个词语的词性,如“小鸟”为名词,“为什么”为副词,“会”为助动词,“飞”为动词。
S220对每条语料进行语法分析,提取每条语料的句式主体;
具体地,对每条语料进行分词标注后,对每条语料进行语法分析,提取出每条语料的句式主体,如提取出语料中的主语、谓语、宾语、定语等。
例如,语料为“小鸟为什么会飞”,提取出的句式主体为“小鸟飞”,“小鸟”为主语,“飞”为谓语。
S230获取所述句式主体对应的字词的语义槽;
具体地,在语料中提取出句式主体后,根据句式主体的字词的词性,将句式主体的字词转换为对应的语义槽,语义槽可为该字词对应的词性的所有词语,也可以为与该字词语义相同的词语。例如,句式主体为“小鸟飞”,其中,“小鸟”为名词,“飞”为动词,“小鸟”对应的语义槽可为名词库,“飞”对应的语义槽可为动词库。
S240根据每条语料的句式主体、所述句式主体对应的语义槽以及每条语料中剩余的非主体部分生成正则表达式;
具体地,得到每条语料的句式主体以及句式主体的字词对应的语义槽后,即可根据句式主体、语义槽和当前语料信息中剩余的非主体部分生成语料对应的正则表达式。
示例性地,语料信息为“小鸟为什么会飞”,提取出的句式主体为“小鸟飞”,“小鸟”对应的语义槽为名词库,“飞”对应的语义槽为动词库,剩余的非主体部分为“为什么会”,根据得到的上述信息生成的正则表达式为“##名词库##[为什么][会]##动词库##”。该正则表达式“##名词库##[为什么][会]##动词库##”可用于解析“a为什么会b”的句子,如,可解析出语料“鲸鱼为什么会喷水”的意图。
S250将所述语料集中的每条语料对应的正则表达式组合生成正则表达式库;
具体地,根据语料集中的每条语料的句式结构生成大量正则表达式后,即可形成正则表达式库。
S300根据所述语料集中的语料生成意图知识图谱;
S400获取用户输入的当前信息;
S500根据所述正则表达式库中的正则表达式识别所述当前信息的当前意图;
S600根据所述当前意图和所述意图知识图谱确定与所述当前意图对应的相关意图。
根据本发明提供的第三实施例,如图3所示,一种意图获取方法,包括:
S100获取语料集,所述语料集包括多条语料;
S200根据所述语料集生成正则表达式库,所述正则表达式库包括至少一个正则表达式;
S310提取所述语料集中语料的关键词,并生成语义槽;
具体地,在生成意图知识图谱时,先提取出语料集中的每条语料的关键词。例如,语料为“播放歌手A的B歌曲”,提取出的关键词为“歌手A”和“B歌曲”,再如,语料为“学习一元一次方程”,提取出的关键词为“一元一次方程”。提取语料的关键词后,再根据关键词生成语义槽,本实施例中的语义槽是指语义相同的关键词组成的词库;如关键词1为“方程”,关键词2为“方程式”,由于,关键词1和关键词2属于语义相同的两个关键词,应将“方程”和“方程式”这两个关键词归为一个语义槽,即本实施例中的语义槽中存储的是语义相同的一个或多个关键词。
S320根据所述语义槽之间的关系生成意图知识图谱;
具体地,得到语义槽,根据语义槽之间的层级关系即可生成意图知识图谱。知识图谱节点代表实体(entity)或者概念(concept),边代表实体/概念之间的各种关系。
例如,语义槽1为“方程”,语义槽2为“一元一次方程”,则语义槽1与语义槽2之间是包含关系。再如,语义槽3为“旅游”,语义槽4为“旅游景点”,语义槽5为“旅游景点门票”,则语义槽3、语义槽4和语义槽5之间的关系是语义槽3包括语义槽4,语义槽4包括语义槽5,因此,根据各个语义槽之间的层级关系即可生成意图知识图谱。
S400获取用户输入的当前信息;
S500根据所述正则表达式库中的正则表达式识别所述当前信息的当前意图;
S600根据所述当前意图和所述意图知识图谱确定与所述当前意图对应的相关意图。
具体地,根据本实施例的方法生成意图知识图谱后,当用户输入新的信息时,先根据生成的正则表达式对用户新输入的当前信息进行语义解析和意图识别,然后根据识别出的当前意图,在生成的意图知识图谱中查找到与当前意图相关联的关联意图。例如,用户的当前意图是搜索旅游景点,根据旅游景点在意图知识图谱中的层级关系,为用户推荐与意图知识图谱相关的意图,如为用户推荐各个旅游景点的门票信息。
根据本发明提供的第四实施例,如图4所示,一种意图获取方法,包括:
S100获取语料集,所述语料集包括多条语料;
S200根据所述语料集生成正则表达式库,所述正则表达式库包括至少一个正则表达式;
S310提取所述语料集中语料的关键词,并生成语义槽;
S321对所述语义槽进行分类组合,生成至少一个大类意图;
S322根据每个大类意图中的语义槽之间的关系生成每个大类意图对应的意图知识图谱;
具体地,提取出语料集中的每条语料的关键词并生成语义槽后,先对语义槽进行分类组合,将语义槽分成多个大类意图,如可以分为:美食、医疗、体育、音乐、旅游、游戏、视频、购物等,即将属于美食意图下的语义槽分为一组,将属于医疗意图下的语义槽分为一组,将属于体育意图下的语义槽分为一组,将属于音乐意图下的语义槽分为一组,将属于旅游意图下的语义槽分为一组,将属于游戏意图下的语义槽分为一组,将属于视频意图下的语义槽分为一组,将属于购物意图下的语义槽分为一组。
对语义槽进行分组后,再根据各个大类意图中的语义槽之间的层级关系生成每个大类意图对应的意图知识图谱。
S400获取用户输入的当前信息;
S500根据所述正则表达式库中的正则表达式识别所述当前信息的当前意图;
S610根据所述当前意图确定目标大类意图;
S620根据所述当前意图和所述目标大类意图对应的意图知识图谱,确定与所述当前意图对应的相关意图。
具体地,当根据正则表达式识别出当前信息对应的当前意图后,先根据当前意图确定目标大类意图,然后根据大类意图对应的意图知识图谱确定与当前意图对应的相关意图。
本实施例中,先将意图进行分类,然后根据分类情况生成对应的意图知识图谱,当通过正则表达式识别出用户的当前意图后,先根据当前意图确定对应的大类意图,然后再在大类意图中查找与当前意图对应的相关意图,将意图进行分类,可简化相关意图的查找过程,提高查找匹配速度。
根据本发明提供的第五实施例,如图5所示,一种意图获取方法,包括:
S100获取语料集,所述语料集包括多条语料;
S200根据所述语料集生成正则表达式库,所述正则表达式库包括至少一个正则表达式;
S310提取所述语料集中语料的关键词,并生成语义槽;
S315统计所述关键词在所述语料集中出现的频率;
具体地,在语料集中的每条语料中提取出关键词后,即可得到大量的关键词,统计每个关键词在语料集中出现的频率。
示例性地,例如从语料1中提取出的关键词为关键词1和关键词2;从语料2中提取出的关键词为关键词2和关键词3;从语料3中提取出的关键词为关键词1和关键词3;从语料4中提取出的关键词为关键词2和关键词4。
统计关键词1、关键词2、关键词3和关键词4在语料中出现的频率即为:关键词1出现的频率为2次,关键词2出现的频率为3次,关键词3出现的频率为2次,关键词4出现的频率为1次。
S320根据所述语义槽之间的关系生成意图知识图谱;
S350根据所述关键词的频率在所述意图知识图谱中标记节点的权重;
具体地,根据语义槽之间的层级关系生成意图知识图谱后,根据关键词在语料集中出现的频率在意图知识图谱中标记节点的权重,在意图知识图谱中,一个节点代表一个语义槽。如语义槽中包括多个关键词,则根据这多个关键词的频率之和在意图知识图谱中标记节点的权重。
S400获取用户输入的当前信息;
S500根据所述正则表达式库中的正则表达式识别所述当前信息的当前意图;
S630在所述意图知识图谱中查找到与所述当前意图匹配的目标节点;
S640根据与所述目标节点相关的节点的权重,确定与所述当前意图对应的相关意图。
具体地,当在意图知识图谱中查找到与当前意图匹配的目标节点后,根据与目标节点相关的节点的权重确定与当前意图对应的相关意图。如向用户推荐与目标节点连接的节点的权重排名前几的相关意图给用户。同理,在每个大类意图对应的意图知识图谱中,也是先查找到与当前意图匹配的目标节点,然后根据与目标节点相关的节点的权重确定与当前意图对应的相关意图。
本实施例中,根据大数据得到的关键词的频率来向用户推荐相关意图,以提高向用户推荐相关意图的准确率的概率,进而提高用户的使用体验。
根据本发明提供的第六实施例,如图6所示,一种意图获取系统,包括:
语料集获取模块100,用于获取语料集,所述语料集包括多条语料;
具体地,先收集大量语料形成语料集,语料可以为文本信息、语音信息或录制的音频信息;如在计算机或智能设备上存储的用户文字输入的一句话,或存储的用户语音输入的语音信息,或在其他音频信息中截取的某一句话。
正则表达式生成模块200,用于根据所述语料集生成正则表达式库,所述正则表达式库包括至少一个正则表达式;
具体地,正则表达式是指用来描述或者匹配一系列符合某个句法规则的字符串。正则表达式一般由普通字符和元字符组成,普通字符包括数字和大小写的字母,而元字符是具有特殊含义的字符。
例如,“s”表示任何空白字符,包括空格、制表符、换页符等,“.”表示除换行元字符“”以外的任意字符,“*”表示前面的子表达式重复零次或多次。
得到语料集后,根据语料集中的每个语料的句法结构生成对应的正则表达式,句法结构相同或相似的多个语料可以生成一个正则表达式,如主谓宾结构可以生成一个正则表达式,生成的正则表达式为“##名词库##动词库##名词库##”。再如,语料1:“鲸鱼为什么会喷水”和语料2:“小鸟为什么会飞”生成的正则表达式为“##名词库##[为什么][会]##动词库##”。根据语料集中的大量语料生成大量的正则表达式后,将生成大量的正则表达式组合成正则表达式库。
知识图谱生成模块300,用于根据所述语料集中的语料生成意图知识图谱;
具体地,知识图谱可以理解成一张由知识点相互连接而成的语义网络,语义网络由相互连接的节点和边组成,节点表示概念或者对象,边表示他们之间的关系。得到语料集后,根据语料集中的语料对应的意图即可生成意图知识图谱。
信息获取模块400,用于获取用户输入的当前信息;
意图识别模块500,用于根据所述正则表达式库中的正则表达式识别所述当前信息的当前意图;
相关意图获取模块600,用于根据所述当前意图和所述意图知识图谱确定与所述当前意图对应的相关意图。
具体地,当根据收集的大量语料信息生成正则表达式库和意图知识图谱后,即可通过正则表达式库中的正则表达式识别用户新输入的信息对应的当前意图,并且还可根据意图知识图谱获取当前意图对应的相关意图。用户新输入的当前信息可为文本信息或语音信息等。
例如,用户新输入的当前信息为“播放歌手A的B歌曲”,用户输入的当前信息对应的当前意图是“播放B歌曲”,在为用户播放B歌曲时,还可通过意图知识图谱获取到与B歌曲相关的内容(意图),如与B歌曲风格相同或相似的歌曲,或B歌曲的歌手A的其他歌曲,然后将与当前意图对应的相关意图推荐给用户,便于用户获取其他相关内容,提高用户的使用体验。
本实施例中,先通过收集的语料集建立正则表达式库和意图知识图谱,当用户输入新的文本或语音信息后,可先通过正则表达式中的正则表达式识别出用户输入的信息对应的当前意图,然后根据之前建立的意图知识图谱和当前意图获取到与当前意图相关的意图,从而更全面的为用户推荐相关的内容,方便用户获取更多信息,简化用户的搜索过程,进而提高用户的使用体验。
优选地,所述正则表达式生成模块200包括:
分词标注单元210,用于对所述语料集中的每条语料进行分词,并标注分词后词语的词性;
具体地,获取语料集后,先对语料集中的每条语料进行分词,若语料为语音信息,可先将语音信息转化为文本信息,然后对文本信息进行分词。分词是指将一个汉字序列切分成一个一个单独的词,即将一句话切分成一个个单独的词。将语料进行分词后,标注分词后各个词语的词性。
例如,语料为“小鸟为什么会飞”,分词后变为“小鸟”、“为什么”、“会”、“飞”。然后标注分词后各个词语的词性,如“小鸟”为名词,“为什么”为副词,“会”为助动词,“飞”为动词。
句式主体提取单元220,用于对每条语料进行语法分析,提取每条语料的句式主体;
具体地,对每条语料进行分词标注后,对每条语料进行语法分析,提取出每条语料的句式主体,如提取出语料中的主语、谓语、宾语、定语等。
例如,语料为“小鸟为什么会飞”,提取出的句式主体为“小鸟飞”,“小鸟”为主语,“飞”为谓语。
语义槽获取单元230,用于获取所述句式主体对应的字词的语义槽;
具体地,在语料中提取出句式主体后,根据句式主体的字词的词性,将句式主体的字词转换为对应的语义槽,语义槽可为该字词对应的词性的所有词语,也可以为与该字词语义相同的词语。例如,句式主体为“小鸟飞”,其中,“小鸟”为名词,“飞”为动词,“小鸟”对应的语义槽可为名词库,“飞”对应的语义槽可为动词库。
正则表达式生成单元240,用于根据每条语料的句式主体、所述句式主体对应的语义槽以及每条语料中剩余的非主体部分生成正则表达式;
具体地,得到每条语料的句式主体以及句式主体的字词对应的语义槽后,即可根据句式主体、语义槽和当前语料信息中剩余的非主体部分生成语料对应的正则表达式。
示例性地,语料信息为“小鸟为什么会飞”,提取出的句式主体为“小鸟飞”,“小鸟”对应的语义槽为名词库,“飞”对应的语义槽为动词库,剩余的非主体部分为“为什么会”,根据得到的上述信息生成的正则表达式为“##名词库##[为什么][会]##动词库##”。该正则表达式“##名词库##[为什么][会]##动词库##”可用于解析“a为什么会b”的句子,如,可解析出语料“鲸鱼为什么会喷水”的意图。
组合单元250,用于将所述语料集中的每条语料对应的正则表达式组合生成正则表达式库。
具体地,根据语料集中的每条语料的句式结构生成大量正则表达式后,即可形成正则表达式库。
优选地,所述知识图谱生成模块300包括:
关键词提取单元310,用于提取所述语料集中语料的关键词,并生成语义槽;
具体地,在生成意图知识图谱时,先提取出语料集中的每条语料的关键词。例如,语料为“播放歌手A的B歌曲”,提取出的关键词为“歌手A”和“B歌曲”,再如,语料为“学习一元一次方程”,提取出的关键词为“一元一次方程”。提取语料的关键词后,再根据关键词生成语义槽,本实施例中的语义槽是指语义相同的关键词组成的词库;如关键词1为“方程”,关键词2为“方程式”,由于,关键词1和关键词2属于语义相同的两个关键词,应将“方程”和“方程式”这两个关键词归为一个语义槽,即本实施例中的语义槽中存储的是语义相同的一个或多个关键词。
知识图谱生成单元320,用于根据所述语义槽之间的关系生成意图知识图谱。
具体地,得到语义槽,根据语义槽之间的层级关系即可生成意图知识图谱。知识图谱节点代表实体(entity)或者概念(concept),边代表实体/概念之间的各种关系。
例如,语义槽1为“方程”,语义槽2为“一元一次方程”,则语义槽1与语义槽2之间是包含关系。再如,语义槽3为“旅游”,语义槽4为“旅游景点”,语义槽5为“旅游景点门票”,则语义槽3、语义槽4和语义槽5之间的关系是语义槽3包括语义槽4,语义槽4包括语义槽5,因此,根据各个语义槽之间的层级关系即可生成意图知识图谱。
根据本实施例的方法生成意图知识图谱后,当用户输入新的信息时,先根据生成的正则表达式对用户新输入的当前信息进行语义解析和意图识别,然后根据识别出的当前意图,在生成的意图知识图谱中查找到与当前意图相关联的关联意图。例如,用户的当前意图是搜索旅游景点,根据旅游景点在意图知识图谱中的层级关系,为用户推荐与意图知识图谱相关的意图,如为用户推荐各个旅游景点的门票信息。
优选地,所述知识图谱生成单元320包括:
分类组合子单元321,用于对所述语义槽进行分类组合,生成至少一个大类意图;
知识图谱生成子单元322,用于根据每个大类意图中的语义槽之间的关系生成每个大类意图对应的意图知识图谱;
具体地,提取出语料集中的每条语料的关键词并生成语义槽后,先对语义槽进行分类组合,将语义槽分成多个大类意图,如可以分为:美食、医疗、体育、音乐、旅游、游戏、视频、购物等,即将属于美食意图下的语义槽分为一组,将属于医疗意图下的语义槽分为一组,将属于体育意图下的语义槽分为一组,将属于音乐意图下的语义槽分为一组,将属于旅游意图下的语义槽分为一组,将属于游戏意图下的语义槽分为一组,将属于视频意图下的语义槽分为一组,将属于购物意图下的语义槽分为一组。
对语义槽进行分组后,再根据各个大类意图中的语义槽之间的层级关系生成每个大类意图对应的意图知识图谱。
所述相关意图获取模块600包括:
目标大类意图确定单元610,用于根据所述当前意图确定目标大类意图;
相关意图获取单元620,用于根据所述当前意图和所述目标大类意图对应的意图知识图谱,确定与所述当前意图对应的相关意图。
具体地,当根据正则表达式识别出当前信息对应的当前意图后,先根据当前意图确定目标大类意图,然后根据大类意图对应的意图知识图谱确定与当前意图对应的相关意图。
本实施例中,先将意图进行分类,然后根据分类情况生成对应的意图知识图谱,当通过正则表达式识别出用户的当前意图后,先根据当前意图确定对应的大类意图,然后再在大类意图中查找与当前意图对应的相关意图,将意图进行分类,可简化相关意图的查找过程,提高查找匹配速度。
优选地,所述知识图谱生成模块300还包括:
频率统计单元330,用于统计所述关键词在所述语料集中出现的频率;
具体地,在语料集中的每条语料中提取出关键词后,即可得到大量的关键词,统计每个关键词在语料集中出现的频率。
示例性地,例如从语料1中提取出的关键词为关键词1和关键词2;从语料2中提取出的关键词为关键词2和关键词3;从语料3中提取出的关键词为关键词1和关键词3;从语料4中提取出的关键词为关键词2和关键词4。
统计关键词1、关键词2、关键词3和关键词4在语料中出现的频率即为:关键词1出现的频率为2次,关键词2出现的频率为3次,关键词3出现的频率为2次,关键词4出现的频率为1次。
权重标记单元340,用于根据所述关键词的频率在所述意图知识图谱中标记节点的权重;
具体地,根据语义槽之间的层级关系生成意图知识图谱后,根据关键词在语料集中出现的频率在意图知识图谱中标记节点的权重,在意图知识图谱中,一个节点代表一个语义槽。如语义槽中包括多个关键词,则根据这多个关键词的频率之和在意图知识图谱中标记节点的权重。
所述相关意图获取模块600包括:
目标节点查找单元630,用于在所述意图知识图谱中查找到与所述当前意图匹配的目标节点;
相关意图获取单元620,用于根据与所述目标节点相关的节点的权重,确定与所述当前意图对应的相关意图。
具体地,当在意图知识图谱中查找到与当前意图匹配的目标节点后,根据与目标节点相关的节点的权重确定与当前意图对应的相关意图。如向用户推荐与目标节点连接的节点的权重排名前几的相关意图给用户。同理,在每个大类意图对应的意图知识图谱中,也是先查找到与当前意图匹配的目标节点,然后根据与目标节点相关的节点的权重确定与当前意图对应的相关意图。
本实施例中,根据大数据得到的关键词的频率来向用户推荐相关意图,以提高向用户推荐相关意图的准确率的概率,进而提高用户的使用体验。
应当说明的是,上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (4)
1.一种意图获取方法,其特征在于,包括:
获取语料集,所述语料集包括多条语料;
根据所述语料集生成正则表达式库,所述正则表达式库包括至少一个正则表达式;
根据所述语料集中的语料生成意图知识图谱;
获取用户输入的当前信息;
根据所述正则表达式库中的正则表达式识别所述当前信息的当前意图;
根据所述当前意图和所述意图知识图谱确定与所述当前意图对应的相关意图,其中,所述相关意图是指相关的其它意图;
所述根据所述语料集生成正则表达式库具体包括:
对所述语料集中的每条语料进行分词,并标注分词后词语的词性;
对每条语料进行语法分析,提取每条语料的句式主体;
获取所述句式主体对应的字词的语义槽;
根据每条语料的句式主体、所述句式主体对应的语义槽以及每条语料中剩余的非主体部分生成正则表达式;
将所述语料集中的每条语料对应的正则表达式组合生成正则表达式库;
所述根据所述语料集中的语料生成意图知识图谱具体包括:
提取所述语料集中语料的关键词,并生成语义槽;
根据所述语义槽之间的关系生成意图知识图谱;
所述根据所述语义槽之间的关系生成意图知识图谱具体包括:
对所述语义槽进行分类组合,生成至少一个大类意图;
根据每个大类意图中的语义槽之间的关系生成每个大类意图对应的意图知识图谱;
所述根据所述当前意图和所述意图知识图谱确定与所述当前意图对应的相关意图具体包括:
根据所述当前意图确定目标大类意图;
根据所述当前意图和所述目标大类意图对应的意图知识图谱,确定与所述当前意图对应的相关意图。
2.根据权利要求1所述的一种意图获取方法,其特征在于,所述提取所述语料集中语料的关键词,并生成语义槽之后,所述根据所述语义槽之间的关系生成意图知识图谱之前还包括:
统计所述关键词在所述语料集中出现的频率;
所述根据所述语义槽之间的关系生成意图知识图谱之后还包括:
根据所述关键词的频率在所述意图知识图谱中标记节点的权重;
所述根据所述当前意图和所述意图知识图谱确定与所述当前意图对应的相关意图具体包括:
在所述意图知识图谱中查找到与所述当前意图匹配的目标节点;
根据与所述目标节点相关的节点的权重,确定与所述当前意图对应的相关意图。
3.一种意图获取系统,其特征在于,包括:
语料集获取模块,用于获取语料集,所述语料集包括多条语料;
正则表达式生成模块,用于根据所述语料集生成正则表达式库,所述正则表达式库包括至少一个正则表达式;
知识图谱生成模块,用于根据所述语料集中的语料生成意图知识图谱;
信息获取模块,用于获取用户输入的当前信息;
意图识别模块,用于根据所述正则表达式库中的正则表达式识别所述当前信息的当前意图;
相关意图获取模块,用于根据所述当前意图和所述意图知识图谱确定与所述当前意图对应的相关意图,其中,所述相关意图是指相关的其它意图;
所述正则表达式生成模块包括:
分词标注单元,用于对所述语料集中的每条语料进行分词,并标注分词后词语的词性;
句式主体提取单元,用于对每条语料进行语法分析,提取每条语料的句式主体;
语义槽获取单元,用于获取所述句式主体对应的字词的语义槽;
正则表达式生成单元,用于根据每条语料的句式主体、所述句式主体对应的语义槽以及每条语料中剩余的非主体部分生成正则表达式;
组合单元,用于将所述语料集中的每条语料对应的正则表达式组合生成正则表达式库;
所述知识图谱生成模块包括:
关键词提取单元,用于提取所述语料集中语料的关键词,并生成语义槽;
知识图谱生成单元,用于根据所述语义槽之间的关系生成意图知识图谱;
所述知识图谱生成单元包括:
分类组合子单元,用于对所述语义槽进行分类组合,生成至少一个大类意图;
知识图谱生成子单元,用于根据每个大类意图中的语义槽之间的关系生成每个大类意图对应的意图知识图谱;
所述相关意图获取模块包括:
目标大类意图确定单元,用于根据所述当前意图确定目标大类意图;
相关意图获取单元,用于根据所述当前意图和所述目标大类意图对应的意图知识图谱,确定与所述当前意图对应的相关意图。
4.根据权利要求3所述的一种意图获取系统,其特征在于,所述知识图谱生成模块还包括:
频率统计单元,用于统计所述关键词在所述语料集中出现的频率;
权重标记单元,用于根据所述关键词的频率在所述意图知识图谱中标记节点的权重;
所述相关意图获取模块包括:
目标节点查找单元,用于在所述意图知识图谱中查找到与所述当前意图匹配的目标节点;
相关意图获取单元,用于根据与所述目标节点相关的节点的权重,确定与所述当前意图对应的相关意图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910186086.4A CN109871543B (zh) | 2019-03-12 | 2019-03-12 | 一种意图获取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910186086.4A CN109871543B (zh) | 2019-03-12 | 2019-03-12 | 一种意图获取方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109871543A CN109871543A (zh) | 2019-06-11 |
CN109871543B true CN109871543B (zh) | 2023-10-24 |
Family
ID=66920213
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910186086.4A Active CN109871543B (zh) | 2019-03-12 | 2019-03-12 | 一种意图获取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109871543B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110263180B (zh) * | 2019-06-13 | 2021-06-04 | 北京百度网讯科技有限公司 | 意图知识图谱生成方法、意图识别方法及装置 |
CN110334183B (zh) * | 2019-07-02 | 2021-07-27 | 思必驰科技股份有限公司 | 使用任意文本词库的方法及装置 |
CN110458207A (zh) * | 2019-07-24 | 2019-11-15 | 厦门快商通科技股份有限公司 | 一种语料意图预测方法、语料标注方法及电子设备 |
CN110543592B (zh) * | 2019-08-27 | 2022-04-01 | 北京百度网讯科技有限公司 | 信息搜索方法、装置以及计算机设备 |
CN110825949A (zh) * | 2019-09-19 | 2020-02-21 | 平安科技(深圳)有限公司 | 基于卷积神经网络的信息检索方法、及其相关设备 |
CN111508494B (zh) * | 2020-04-20 | 2023-03-07 | 广东工业大学 | 一种智能纳税语音咨询方法和系统 |
WO2021243575A1 (zh) * | 2020-06-02 | 2021-12-09 | 深圳市欢太科技有限公司 | 文本信息的分类方法、移动终端及计算机可读存储介质 |
CN112463920A (zh) * | 2020-11-25 | 2021-03-09 | 联想(北京)有限公司 | 一种信息应答方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107688614A (zh) * | 2017-08-04 | 2018-02-13 | 平安科技(深圳)有限公司 | 意图获取方法、电子装置及计算机可读存储介质 |
WO2018149326A1 (zh) * | 2017-02-16 | 2018-08-23 | 阿里巴巴集团控股有限公司 | 一种自然语言问句答案的生成方法、装置及服务器 |
CN108920497A (zh) * | 2018-05-23 | 2018-11-30 | 北京奇艺世纪科技有限公司 | 一种人机交互方法及装置 |
CN109145153A (zh) * | 2018-07-02 | 2019-01-04 | 北京奇艺世纪科技有限公司 | 意图类别的识别方法和装置 |
CN109388700A (zh) * | 2018-10-26 | 2019-02-26 | 广东小天才科技有限公司 | 一种意图识别方法及系统 |
CN109408717A (zh) * | 2018-10-23 | 2019-03-01 | 广东小天才科技有限公司 | 一种内容推荐方法及系统 |
-
2019
- 2019-03-12 CN CN201910186086.4A patent/CN109871543B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018149326A1 (zh) * | 2017-02-16 | 2018-08-23 | 阿里巴巴集团控股有限公司 | 一种自然语言问句答案的生成方法、装置及服务器 |
CN107688614A (zh) * | 2017-08-04 | 2018-02-13 | 平安科技(深圳)有限公司 | 意图获取方法、电子装置及计算机可读存储介质 |
CN108920497A (zh) * | 2018-05-23 | 2018-11-30 | 北京奇艺世纪科技有限公司 | 一种人机交互方法及装置 |
CN109145153A (zh) * | 2018-07-02 | 2019-01-04 | 北京奇艺世纪科技有限公司 | 意图类别的识别方法和装置 |
CN109408717A (zh) * | 2018-10-23 | 2019-03-01 | 广东小天才科技有限公司 | 一种内容推荐方法及系统 |
CN109388700A (zh) * | 2018-10-26 | 2019-02-26 | 广东小天才科技有限公司 | 一种意图识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109871543A (zh) | 2019-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109871543B (zh) | 一种意图获取方法及系统 | |
US10678816B2 (en) | Single-entity-single-relation question answering systems, and methods | |
Tahmasebi et al. | Survey of computational approaches to lexical semantic change detection | |
Zhang et al. | Entity linking leveraging automatically generated annotation | |
Madabushi et al. | Integrating question classification and deep learning for improved answer selection | |
Gupta et al. | A survey of text question answering techniques | |
CN102227724B (zh) | 对于音译的机器学习 | |
CN103886034A (zh) | 一种建立索引及匹配用户的查询输入信息的方法和设备 | |
Yada et al. | A bootstrap method for automatic rule acquisition on emotion cause extraction | |
CN108038099B (zh) | 基于词聚类的低频关键词识别方法 | |
JP2006244262A (ja) | 質問回答検索システム、方法およびプログラム | |
CN112989208B (zh) | 一种信息推荐方法、装置、电子设备及存储介质 | |
JP2014120053A (ja) | 質問応答装置、方法、及びプログラム | |
JP2011118689A (ja) | 検索方法及びシステム | |
Bellare et al. | Lightly-supervised attribute extraction | |
Jiang et al. | A CRD-WEL system for chemical-disease relations extraction | |
Mohasseb et al. | A customised grammar framework for query classification | |
Shnarch et al. | Extracting lexical reference rules from Wikipedia | |
Gorla et al. | Named Entity Recognition for Telugu News Articles using Naïve Bayes Classifier. | |
US20110106849A1 (en) | New case generation device, new case generation method, and new case generation program | |
Raza et al. | Saraiki Language Word Prediction And Spell Correction Framework | |
Buck et al. | Analyzing language learned by an active question answering agent | |
Sang et al. | Extraction of hypernymy information from text∗ | |
Nothman | Learning named entity recognition from Wikipedia | |
Zayed et al. | A Novel Approach for Detecting Arabic Persons' Names using Limited Resources. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |