CN109753609B - 一种多意图查询方法、装置以及终端 - Google Patents

一种多意图查询方法、装置以及终端 Download PDF

Info

Publication number
CN109753609B
CN109753609B CN201810995473.8A CN201810995473A CN109753609B CN 109753609 B CN109753609 B CN 109753609B CN 201810995473 A CN201810995473 A CN 201810995473A CN 109753609 B CN109753609 B CN 109753609B
Authority
CN
China
Prior art keywords
word
merger tree
participle
tree
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810995473.8A
Other languages
English (en)
Other versions
CN109753609A (zh
Inventor
吴石磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810995473.8A priority Critical patent/CN109753609B/zh
Publication of CN109753609A publication Critical patent/CN109753609A/zh
Application granted granted Critical
Publication of CN109753609B publication Critical patent/CN109753609B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种多意图查询方法、装置和终端,所述方法包括:根据查询语句建立原始归并树;利用原始归并树建立虚拟归并树,虚拟归并树包括由查询语句得到的分词以及各分词的同义词;从虚拟归并树中选择多个核心词以及与各核心词对应的召回词;利用各核心词及其对应的召回词构成单意图查询结果;输出所有的单意图查询结果。能够动态地决定省略哪些分词以及各分词的同义词,有效扩大了多意图查询的结果。

Description

一种多意图查询方法、装置以及终端
技术领域
本发明涉及计算机技术领域,具体涉及一种多意图查询方法、装置以及终端。
背景技术
用户在查询电子地图时,输入的查询语句变换多样,有些查询语句包含了多种同级的查询成分,单从查询语句很难区分查询的主次,这些查询语句称之为多意图查询语句。
多意图查询语句通常包括两种情况:第一种情况,比如查询语句是“顺丰圆通速运”,用户想查的顺丰速运还是圆通速运并不明确。类似的查询语句还有“西县金寨路”等。对于这类查询需求,目前的电子地图给出的查询结构都不太理想。一方面原因是,电子地图中的兴趣点数据中,并没有既包含顺丰速运又包含圆通速运的兴趣点;另一方面,这类查询语句在查询语句解析时很难先验地判定就是多意图,需要根据数据库的召回情况进行后验决策;还有一种情况,虽然用户查询需求是一个明确的地图兴趣点,但是地图兴趣点数据缺失,导致无法满足用户需求。比如,用户搜“长兴路试验路”,用户实际上想要找到这两条路的交叉口,但是由于地图兴趣点数据中没有两条路的交叉口数据,导致无法地图检索召回用户想要的结果。
目前,地图检索系统对于多意图查询语句理论上可以在查询语句解析时,通过查询省略,将多意图的查询语句降级为单意图的查询语句来满足用户需求。比如查询语句=“长兴路试验路”,通过省略“试验路”,将查询语句转换成“长兴路”,然后检索召回只包含“长兴路”的结果。又比如,查询语句=“顺丰圆通速运”可以省略“圆通”,转换成查询语句=“顺丰速运”。图1是地图检索与召回相关的三个服务,AS是高级检索模块,DA是查询语句分析模块,BS是基础召回模块。先前的检索省略召回过程如下:(1)AS接收到请求,会访问DA进行查询语句解析。(2)DA对查询语句进行分词,将查询语句分成一系列的分词,DA会生成原始查询计划,和省略查询计划,比如查询语句是“奎科大厦A楼西门”,DA可以生成“奎科大厦A楼”的省略查询计划。(3)之后AS将DA生成的所有查询计划并发地发送到BS进行查询,有几个查询计划,就会独立地访问BS几次。(4)BS对每个AS的请求都进行独立的召回,并将结果返回到AS。(5)AS对多个查询队列的结果进行选择。
现有的检索省略查询,具有如下几个缺点:(1)DA是纯先验的分析,无法基于后验的数据索引情况决定产出哪些查询。从而导致分析的准确性不足。特别是,对于多意图的查询语句,查询语句中的分词成分都是同级别的(都是核心词),查询语句解析时很难决定应该省略哪一个,最后只能回归数据索引层进行决策。比如,地图数据中也可能只有“长兴路”,没有“试验路”,如果错误地省略了“长兴路”,导致无法召回任何结果。(2)DA每个用户的查询语句都要产出多个查询队列,实际上多个查询队列之间可以复用的资源需要重复申请,且有很多重复计算。检索服务在资源和性能方面压力巨大。从图1中可以看出,每多出一个省略,AS就会多给BS发送一个请求,省略太多对系统的性能将会是很大的冲击。(3)DA产出多个查询计划,在AS再根据BS返回的召回情况,进行一个选择,很容易出现查询计划选择错误的情况。或者好的结果分布在多个计划中,无法有效的合并。(4)就算在查询语句解析时,进行激进的省略,我们一个省略只能实现一个意图,无法满足用户的多个意图。比如“顺丰圆通速运”,就算我们把“圆通”省略了,只召回了“顺丰速运”的结果,只满足了用户的一部分需求。
发明内容
本发明实施例提供一种多意图查询方法、装置以及终端,以至少解决现有技术中的以上技术问题。
第一方面,本发明实施例提供了一种多意图查询方法,包括:
根据查询语句建立原始归并树;
利用所述原始归并树建立虚拟归并树,所述虚拟归并树包括由所述查询语句得到的分词以及各分词的同义词;
从所述虚拟归并树中选择多个核心词以及与各核心词对应的召回词;
利用各核心词及其对应的召回词构成单意图查询结果;
输出所有的所述单意图查询结果。
结合第一方面,本发明在第一方面的第一种实施方式中,根据查询语句建立原始归并树的步骤包括:
获取用户输入的所述查询语句;
对所述查询语句进行切词处理,生成多个分词;
获取各所述分词对应的同义词和同义片段;
根据各所述分词及其对应的同义词和同义片段建立所述原始归并树,所述原始归并树包括原始归并树的根节点和叶子节点,所述叶子节点包括各所述分词及其对应的同义词和同义片段。
结合第一方面的第一种实施方式,本发明在第一方面的第二种实施方式中,
利用所述原始归并树建立虚拟归并树的步骤包括:
将所述原始归并树的根节点复制,生成所述虚拟归并树的根节点;
在所述虚拟归并树的根节点中存放指向所述原始归并树中各所述分词及其对应的同义词对应的指针;
根据所述指针指向的各所述分词及其对应的同义词建立所述虚拟归并树,所述虚拟归并树的叶子节点包括各所述分词及其对应的同义词。
结合第一方面,本发明在第一方面的第三种实施方式中,从所述虚拟归并树中选择至少一个核心词的步骤包括:
按照权重以及逆文本频率对所述虚拟归并树中的各所述分词及其对应的同义词进行排序;
将排序后的首位词选择为所述核心词;
利用剩余位置上的所述分词及其对应的同义词将所述首位词依次替换,替换后的首位词选择为所述核心词。
结合第一方面的第三种实施方式,本发明在第一方面的第四种实施方式中,
按照权重以及逆文本频率对所述虚拟归并树中的所述分词及其对应的同义词进行排序的步骤包括:
按照所述权重由大到小的顺序进行排序,得到基于权重的词序列;
在所述基于权重的词序列中,提取权重相等的所述分词及其对应的同义词;
将权重相等的所述分词及其对应的同义词按照所述逆文本频率由大到小的顺序进行排序。
结合第一方面或其任意一种实施方式,从所述虚拟归并树中选择与各核心词对应的召回词的步骤包括:
每选择出一个所述核心词时,剩余的所述分词及其对应的同义词构成候选省略词的集合;
判断所述核心词对应的属性值集合与各所述候选省略词对应的属性值集合之间是否有交集,若有,则将所述候选省略词表示为所述召回词。
第二方面,本发明提供了一种多意图查询装置,包括:
原始归并树建立模块,用于根据查询语句建立原始归并树;
虚拟归并树建立模块,用于利用所述原始归并树建立虚拟归并树,所述虚拟归并树包括由所述查询语句得到的分词以及各分词的同义词;
核心词选择模块,用于从所述虚拟归并树中选择多个核心词以及与各核心词对应的召回词;
单意图查询结果生成模块,用于利用各核心词及其对应的召回词构成单意图查询结果;
多意图查询结果输出模块,用于输出所有的所述单意图查询结果。
结合第二方面,本发明在第二方面的第一种实施方式中,所述原始归并树建立模块包括:
查询语句获取单元,用于获取用户输入的所述查询语句;
查询语句切词单元,用于对所述查询语句进行切词处理,生成多个分词;
分词同义获取单元,用于获取各所述分词对应的同义词和同义片段;
原始归并树建立单元,用于根据各所述分词及其对应的同义词和同义片段建立所述原始归并树,所述原始归并树包括原始归并树的根节点和叶子节点,所述叶子节点包括各所述分词及其对应的同义词和同义片段。
结合第二方面,本发明在第二方面的第二种实施方式中,所述虚拟归并树建立模块包括:
根节点复制单元,用于将所述原始归并树的根节点复制,生成所述虚拟归并树的根节点;
指针存放单元,用于在所述虚拟归并树的根节点中存放指向所述原始归并树中各所述分词及其对应的指针;
虚拟归并树建立单元,用于根据所述指针指向的各所述分词及其对应的同义词建立所述虚拟归并树,所述虚拟归并树的叶子节点包括各所述分词及其对应的同义词。
结合第二方面,本发明在第二方面的第三种实施方式中,所述核心词选择模块包括:
排序单元,用于按照权重以及逆文本频率对所述虚拟归并树中的各所述分词及其对应的同义词进行排序;
核心词选择单元,用于将排序后的首位词选择为所述核心词;
首位词替换单元,用于利用剩余位置上的所述分词及其对应的同义词将所述首位词依次替换;
其中,所述核心词选择单元还用于将替换后的首位词选择为所述核心词。
结合第二方面的第三种实施方式,本发明在第二方面的第四种实施方式中,所述核心词选择模块还包括:
候选省略词获取单元,用于每选择出一个所述核心词时,剩余的所述分词及其对应的同义词构成候选省略词的集合;
召回词获取单元,用于判断所述核心词对应的属性值集合与各所述候选省略词对应的属性值集合之间是否有交集,若有,则将所述候选省略词表示为所述召回词。
第三方面,本发明实施例提供了一种多意图查询终端,包括处理器和存储器,所述存储器用于存储支持多意图查询终端装置执行上述第一方面中多意图查询方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述终端还可以包括通信接口,用于所述终端与其他设备或通信网络通信。
所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
第四方面,本发明实施例提供了一种计算机可读存储介质,用于一种多意图查询装置所用的计算机软件指令,其包括用于执行上述第一方面中多意图查询方法为多意图查询装置所涉及的程序。
上述技术方案中的一个技术方案具有如下优点或有益效果:本方案基于原始归并树进行扩展,提出虚拟归并树的概念。虚拟归并树并没有创建新的节点和索引,而是复用了原始归并树的节点,形成虚拟根节点。在虚拟归并树的根节点中存放了一个线性有序数组,即指向原始归并树的叶子节点的指针(地址值)。可以在不影响原始归并树的前提下,仅仅需要通过调整指针就能实现虚拟归并树树形调整,节省了资源。虚拟归并树包括查询语句得到的分词以及各分词的同义词,剔除了同义片段,将原始归并树中存在耦合的分词进行独立,实现了各个分词及其同义词之间的独立性。任何一个分词进行省略,都不会和其它分词存在关系。之后从虚拟归并树中选择核心词以及与该核心词对应的召回词,构成单意图查询结果。之后对核心词进行切换,获取每次切换后的核心词对应的召回词,直到构成多个单意图查询结果。将这些单意图查询结果输出,完成多意图查询。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本发明进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本发明公开的一些实施方式,而不应将其视为是对本发明范围的限制。
图1为背景技术提供的多意图查询方法示意图;
图2为本发明实施例提供的一种多意图查询方法流程图;
图3为本发明实施例提供的一种原始归并树的示意图;
图4为本发明实施例提供的一种虚拟归并树的示意图;
图5为本发明实施例提供的一种多意图查询装置示意图;
图6为本发明实施例提供的一种多意图查询终端示意图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
实施例一
在一种具体的实施方式中,如图2所示,提供了一种多意图查询方法,包括:
步骤S100:根据查询语句建立原始归并树。
步骤S200:利用原始归并树建立虚拟归并树,虚拟归并树包括由查询语句得到的分词以及各分词的同义词。
步骤300:从虚拟归并树中选择多个核心词以及与各核心词对应的召回词。
步骤400:利用各核心词及其对应的召回词构成单意图查询结果。
步骤500:输出所有的单意图查询结果。
在一种具体实施方式中,根据查询语句建立原始归并树的步骤包括:
获取用户输入的查询语句;
对查询语句进行切词处理,生成多个分词;
获取各分词对应的同义词和同义片段;
根据各分词及其对应的同义词和同义片段建立原始归并树,原始归并树包括原始归并树的根节点和叶子节点,叶子节点包括各分词及其对应的同义词和同义片段。
在一种示例中,如图3所示,当用户输入的查询语句为“北京长途汽车站”时,对查询语句进行切词处理,生成多个分词。分词包括:“北京”、“长途”、“汽车”、“站”。获取各分词对应的同义词,“北京”的同义词是“首都”,“汽车”的同义词是“客车”,“汽车”和“站”的同义片段是“客运”和“站”。原始归并树中包括原始归并树的根节点100和多个叶子节点,叶子节点包括逻辑节点,逻辑节点包括“与”节点200(用“&”表示)和“或”节点300(用“|”表示),每个逻辑节点中包括了分词以及各分词的同义词,表示了各个分词以及各分词的同义词之间的逻辑索引关系。
在一种具体实施方式中,利用原始归并树建立虚拟归并树的步骤包括:
将原始归并树的根节点复制,生成虚拟归并树的根节点;
在虚拟归并树的根节点中存放指向原始归并树中各分词及其对应的同义词的指针;
根据指针指向的各所述分词及其对应的同义词建立所述虚拟归并树,虚拟归并树的叶子节点包括各分词及其对应的同义词。
如图4所示,T1、T2、T3、T4、T5和T6为分词,S1、S2、S3为各分词的同义词,M1、M2、M3、M4为同义片段。虚拟归并树的根节点101是复制原始归并树的根节点100得来的。虚拟归并树的根节点101中存放了原始归并树中各个指向分词及其分词的同义词的指针。虚拟归并树的根节点101的建立使得不影响原始归并树的前提下,仅仅通过调整指针就能实现虚拟归并树树形调整,节省了资源。虚拟归并树的根节点101中并未存放指向原始归并树中的同义片段的指针。目的是将原始归并树中存在耦合的分词进行独立,实现了各个分词及其同义词之间的独立性。任何一个分词进行省略,都不会和其它分词存在关系。
在一种具体实施方式中,从虚拟归并树中选择至少一个核心词的步骤包括:
按照权重以及逆文本频率对虚拟归并树中的各分词及其对应的同义词进行排序;
将排序后的首位词选择为核心词;
利用剩余位置上的分词及其对应的同义词将首位词依次替换,替换后的首位词选择为核心词。
在一种示例中,以“顺丰|圆通|速运”为例进行说明。首先对指针指向的分词及其分词的同义词按照权重以及逆文本频率进行排序。假设经过排序后,顺序为“圆通,顺丰,速运”。将排序后位于首位的分词或同义词作为核心词。例如,将“圆通”作为核心词,之后进行步骤S300中的选择“圆通”对应的召回词“速运”,直至输出单意图的查询结果“圆通速运”。之后,再将分词“顺丰”和“圆通”互换位置,分词“顺丰”就排在了首位,作为新的核心词。之后进行步骤S300中的选择“顺丰”对应的召回词“速运”,直至输出单意图的查询结果“顺丰速运”。
在一种具体实施方式中,按照权重以及逆文本频率对虚拟归并树中的分词及其对应的同义词进行排序的步骤包括:
按照权重由大到小的顺序进行排序,得到基于权重的词序列;
在基于权重的词序列中,提取权重相等的分词及其对应的同义词;
将权重相等的分词及其对应的同义词按照逆文本频率由大到小的顺序进行排序。
在一种示例中,以“北京第三人民医院”为例,按照权重排序后得到“第三|人民|医院|北京”。“北京”和“医院”的权重相等,由于“北京”的逆文本频率小于“医院”,因此,调整后得到“第三|人民|医院|北京”。
在一种具体实施方式中,从虚拟归并树中选择与各核心词对应的召回词的步骤包括:
每选择出一个核心词时,剩余的分词及其对应的同义词构成候选省略词的集合;
判断核心词对应的属性值集合与各候选省略词对应的属性值集合之间是否有交集,若有,则将候选省略词表示为召回词。
在一种示例中,以“顺丰|圆通|速运”为例进行说明。如果将“圆通”作为核心词,其它词构成候选省略词集合。对核心词对应的属性值集合和各个候选省略词对应的属性值集合分别求交集,在求交集的过程中,通过实时的后验来决定省略哪些分词及其同义词。例如,假设核心词“圆通”在属性值集合中召回某个地图兴趣点(id=1234)。而候选省略词“顺丰”的属性值集合中不存在id=1234,二者并无交集,则将“顺丰”省略。且候选省略词“速运”的属性值集合中存在id=1234,将“速运”设置为召回词。依次遍历核心词对应的属性值集合中的每个地图兴趣点,重复进行求交集的过程,直到遍历完成。至此,召回了以当前核心词“圆通”为参考的所有查询结果。接下来,将分词“顺丰”就排在首位,作为新的核心词。以新的核心词为参考,执行上述步骤。执行完之后,就可以召回以新的核心词“顺丰”为参考的所有查询结果。与基于先验的查询分析相比,使得召回率和准确率大大提升。第一轮召回了“圆通速运”的单意图查询结果,第二轮召回了“顺丰速运”的单意图查询结果。依次类推,假设有更多的分词及其同义词,采用类似的方式进行处理,将多个单意图查询结果输出,得到多意图查询结果。
实施例二
在另一种具体的实施方式中,如图5所示,提供了一种多意图查询装置,包括:
原始归并树建立模块10,用于根据查询语句建立原始归并树;
虚拟归并树建立模块20,用于利用原始归并树建立虚拟归并树,虚拟归并树包括由查询语句得到的分词以及各分词的同义词;
核心词选择模块30,用于从虚拟归并树中选择多个核心词以及与各核心词对应的召回词;
单意图查询结果生成模块40,用于利用各核心词及其对应的召回词构成单意图查询结果;
多意图查询结果输出模块50,用于输出所有的单意图查询结果。
在一种实施方式中,原始归并树建立模块10包括:
查询语句获取单元,用于获取用户输入的所述查询语句;
查询语句切词单元,用于对所述查询语句进行切词处理,生成多个分词;
分词同义获取单元,用于获取各所述分词对应的同义词和同义片段;
原始归并树建立单元,用于根据各所述分词及其对应的同义词和同义片段建立所述原始归并树,所述原始归并树包括原始归并树的根节点和叶子节点,所述叶子节点包括各所述分词及其对应的同义词和同义片段。
在一种实施方式中,虚拟归并树建立模块20包括:
根节点复制单元,用于将所述原始归并树的根节点复制,生成所述虚拟归并树的根节点;
指针存放单元,用于在所述虚拟归并树的根节点中存放指向所述原始归并树中各所述分词及其对应的指针;
虚拟归并树建立单元,用于根据所述指针指向的各所述分词及其对应的同义词建立所述虚拟归并树,所述虚拟归并树的叶子节点包括各所述分词及其对应的同义词。
在一种实施方式中,核心词选择模块30包括:
排序单元,用于按照权重以及逆文本频率对所述虚拟归并树中的各所述分词及其对应的同义词进行排序;
核心词选择单元,用于将排序后的首位词选择为所述核心词;
首位词替换单元,用于利用剩余位置上的所述分词及其对应的同义词将所述首位词依次替换;
其中,所述核心词选择单元还用于将替换后的首位词选择为所述核心词。
在一种实施方式中,核心词选择模块30还包括:
候选省略词获取单元,用于每选择出一个所述核心词时,剩余的所述分词及其对应的同义词构成候选省略词的集合;
召回词获取单元,用于判断所述核心词对应的属性值集合与各所述候选省略词对应的属性值集合之间是否有交集,若有,则将所述候选省略词表示为所述召回词。
实施例三
本发明实施例提供了一种多意图查询终端,如图6所示,包括:
存储器400和处理器500,存储器400内存储有可在处理器500上运行的计算机程序。处理器500执行所述计算机程序时实现上述实施例中的多意图查询方法。存储器400和处理器500的数量可以为一个或多个。
通信接口600,用于存储器400和处理器500与外部进行通信。
存储器400可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
如果存储器400、处理器500以及通信接口600独立实现,则存储器400、处理器500以及通信接口600可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,PeripheralComponent)总线或扩展工业标准体系结构(EISA,Extended Industry StandardComponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器400、处理器500以及通信接口600集成在一块芯片上,则存储器400、处理器500及通信接口600可以通过内部接口完成相互间的通信。
实施例四
一种计算机可读存储介质,其存储有计算机程序,所述程序被处理器执行时实现如实施例一包括的任一所述的多意图查询方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (13)

1.一种多意图查询方法,其特征在于,包括:
根据查询语句建立原始归并树,所述原始归并树包括由所述查询语句得到的各分词及其对应的同义词;
利用所述原始归并树建立虚拟归并树,所述虚拟归并树包括指向所述原始归并树中的各分词及其对应的同义词的指针;
按照权重以及逆文本频率,从所述虚拟归并树的指针指向的各分词及其对应的同义词中选择多个核心词以及与各核心词对应的召回词;
利用各核心词及其对应的召回词构成单意图查询结果;
输出所有的所述单意图查询结果。
2.如权利要求1所述的方法,其特征在于,根据查询语句建立原始归并树的步骤包括:
获取用户输入的所述查询语句;
对所述查询语句进行切词处理,生成多个分词;
获取各所述分词对应的同义词和同义片段;
根据各所述分词及其对应的同义词和同义片段建立所述原始归并树,所述原始归并树包括原始归并树的根节点和叶子节点,所述叶子节点包括各所述分词及其对应的同义词和同义片段。
3.如权利要求2所述的方法,其特征在于,利用所述原始归并树建立虚拟归并树的步骤包括:
将所述原始归并树的根节点复制,生成所述虚拟归并树的根节点;
在所述虚拟归并树的根节点中存放指向所述原始归并树中的各分词及其对应的同义词的指针;
根据指向所述原始归并树中的各分词及其对应的同义词的指针建立所述虚拟归并树。
4.如权利要求1所述的方法,其特征在于,按照根据权重以及逆文本频率,从所述虚拟归并树的指针指向的各分词及其对应的同义词中选择多个核心词以及与各核心词对应的召回词,包括:
按照权重以及逆文本频率对所述虚拟归并树中的各所述分词及其对应的同义词进行排序;
将排序后的首位词选择为所述核心词;
利用剩余位置上的所述分词及其对应的同义词将所述首位词依次替换,替换后的首位词选择为所述核心词。
5.如权利要求4所述的方法,其特征在于,按照权重以及逆文本频率对所述虚拟归并树中的所述分词及其对应的同义词进行排序的步骤包括:
按照所述权重由大到小的顺序进行排序,得到基于权重的词序列;
在所述基于权重的词序列中,提取权重相等的所述分词及其对应的同义词;
将权重相等的所述分词及其对应的同义词按照所述逆文本频率由大到小的顺序进行排序。
6.如权利要求1至5中任一项所述的方法,其特征在于,从所述虚拟归并树中选择与各核心词对应的召回词的步骤包括:
每选择出一个所述核心词时,剩余的所述分词及其对应的同义词构成候选省略词的集合;
判断所述核心词对应的属性值集合与各所述候选省略词对应的属性值集合之间是否有交集,若有,则将所述候选省略词表示为所述召回词。
7.一种多意图查询装置,其特征在于,包括:
原始归并树建立模块,用于根据查询语句建立原始归并树,所述原始归并树包括由所述查询语句得到的各分词及其对应的同义词;
虚拟归并树建立模块,用于利用所述原始归并树建立虚拟归并树,所述虚拟归并树包括指向所述原始归并树中的各分词及其对应的同义词的指针;
核心词选择模块,用于根据权重以及逆文本频率,从所述虚拟归并树的指针指向的各分词及其对应的同义词中选择多个核心词以及与各核心词对应的召回词;
单意图查询结果生成模块,用于利用各核心词及其对应的召回词构成单意图查询结果;
多意图查询结果输出模块,用于输出所有的所述单意图查询结果。
8.如权利要求7所述的装置,其特征在于,所述原始归并树建立模块包括:
查询语句获取单元,用于获取用户输入的所述查询语句;
查询语句切词单元,用于对所述查询语句进行切词处理,生成多个分词;
分词同义获取单元,用于获取各所述分词对应的同义词和同义片段;
原始归并树建立单元,用于根据各所述分词及其对应的同义词和同义片段建立所述原始归并树,所述原始归并树包括原始归并树的根节点和叶子节点,所述叶子节点包括各所述分词及其对应的同义词和同义片段。
9.如权利要求7所述的装置,其特征在于,所述虚拟归并树建立模块包括:
根节点复制单元,用于将所述原始归并树的根节点复制,生成所述虚拟归并树的根节点;
指针存放单元,用于在所述虚拟归并树的根节点中存放指向所述原始归并树中的各分词及其对应的同义词的指针;
虚拟归并树建立单元,用于根据指向所述原始归并树中的各分词及其对应的同义词的指针建立所述虚拟归并树。
10.如权利要求7所述的装置,其特征在于,所述核心词选择模块包括:
排序单元,用于按照权重以及逆文本频率对所述虚拟归并树中的各所述分词及其对应的同义词进行排序;
核心词选择单元,用于将排序后的首位词选择为所述核心词;
首位词替换单元,用于利用剩余位置上的所述分词及其对应的同义词将所述首位词依次替换;
其中,所述核心词选择单元还用于将替换后的首位词选择为所述核心词。
11.如权利要求10所述的装置,其特征在于,所述核心词选择模块还包括:
候选省略词获取单元,用于每选择出一个所述核心词时,剩余的所述分词及其对应的同义词构成候选省略词的集合;
召回词获取单元,用于判断所述核心词对应的属性值集合与各所述候选省略词对应的属性值集合之间是否有交集,若有,则将所述候选省略词表示为所述召回词。
12.一种多意图查询终端,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。
13.一种计算机可读存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的方法。
CN201810995473.8A 2018-08-29 2018-08-29 一种多意图查询方法、装置以及终端 Active CN109753609B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810995473.8A CN109753609B (zh) 2018-08-29 2018-08-29 一种多意图查询方法、装置以及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810995473.8A CN109753609B (zh) 2018-08-29 2018-08-29 一种多意图查询方法、装置以及终端

Publications (2)

Publication Number Publication Date
CN109753609A CN109753609A (zh) 2019-05-14
CN109753609B true CN109753609B (zh) 2019-10-15

Family

ID=66402423

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810995473.8A Active CN109753609B (zh) 2018-08-29 2018-08-29 一种多意图查询方法、装置以及终端

Country Status (1)

Country Link
CN (1) CN109753609B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110795456B (zh) * 2019-10-28 2022-06-28 北京百度网讯科技有限公司 图谱的查询方法、装置、计算机设备以及存储介质
CN113822051B (zh) * 2020-06-19 2024-01-30 北京彩智科技有限公司 一种数据处理的方法、装置及电子设备
CN112256863A (zh) * 2020-09-18 2021-01-22 华为技术有限公司 一种确定语料意图的方法、装置及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101246492A (zh) * 2008-02-26 2008-08-20 华中科技大学 基于自然语言的全文检索系统
CN101770473A (zh) * 2008-12-30 2010-07-07 华中科技大学 层次化语义脉络文档查询方法
CN101872354A (zh) * 2009-04-24 2010-10-27 洛克威尔自动控制技术股份有限公司 动态可持续性搜索引擎
CN103150356A (zh) * 2013-02-22 2013-06-12 百度在线网络技术(北京)有限公司 一种应用的泛需求检索方法及系统
CN103365924A (zh) * 2012-04-09 2013-10-23 北京大学 一种搜索信息的方法、装置和终端

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7004754B2 (en) * 2003-07-23 2006-02-28 Orametrix, Inc. Automatic crown and gingiva detection from three-dimensional virtual model of teeth
KR101266358B1 (ko) * 2008-12-22 2013-05-22 한국전자통신연구원 다중 길이 시그니처 파일 기반 분산 색인 시스템 및 방법
CN102270234A (zh) * 2011-08-01 2011-12-07 北京航空航天大学 一种图像搜索方法及其搜索引擎

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101246492A (zh) * 2008-02-26 2008-08-20 华中科技大学 基于自然语言的全文检索系统
CN101770473A (zh) * 2008-12-30 2010-07-07 华中科技大学 层次化语义脉络文档查询方法
CN101872354A (zh) * 2009-04-24 2010-10-27 洛克威尔自动控制技术股份有限公司 动态可持续性搜索引擎
CN103365924A (zh) * 2012-04-09 2013-10-23 北京大学 一种搜索信息的方法、装置和终端
CN103150356A (zh) * 2013-02-22 2013-06-12 百度在线网络技术(北京)有限公司 一种应用的泛需求检索方法及系统

Also Published As

Publication number Publication date
CN109753609A (zh) 2019-05-14

Similar Documents

Publication Publication Date Title
CN109753609B (zh) 一种多意图查询方法、装置以及终端
CN108345690B (zh) 智能问答方法与系统
CN105893349B (zh) 类目标签匹配映射方法及装置
CN109063221A (zh) 基于混合策略的查询意图识别方法和装置
CN108255958A (zh) 数据查询方法、装置和存储介质
CN104636478A (zh) 信息查询方法和设备
JP2016532942A (ja) イベント知識データベースの構築方法および装置
CN102810094A (zh) 报表生成方法及装置
CN103678491A (zh) 一种基于Hadoop中小文件优化和倒排索引的方法
CN108509437A (zh) 一种ElasticSearch查询加速方法
CN104391908B (zh) 一种图上基于局部敏感哈希的多关键字索引方法
CN106991276A (zh) 一种基于openEHR模板的数据接口动态生成方法
CN104484477A (zh) 一种电子地图搜索方法、装置及系统
CN108846138A (zh) 一种融合答案信息的问题分类模型构建方法、装置和介质
CN112102840B (zh) 语义识别方法、装置、终端及存储介质
CN105740264A (zh) 一种分布式xml数据库的排序方法及装置
CN108920608A (zh) 一种面向企业数据的搜索领域知识图谱构建方法及系统
CN106713394A (zh) 一种数据传输方法和装置
CN103389976A (zh) 用于终端的搜索方法及系统
JP7109572B2 (ja) トランザクション処理の方法およびサーバー、ならびにトランザクション処理のシステム
CN102129457A (zh) 大规模语义数据路径查询的方法
CN105653576A (zh) 信息搜索的方法及装置、人工座席服务方法及系统
CN105069101A (zh) 分布式索引构建及检索方法
CN110532282A (zh) 数据查询方法及装置
CN106131134A (zh) 一种消息内容合并去重方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant