CN103927328B - 查询意图挖掘的方法和系统 - Google Patents
查询意图挖掘的方法和系统 Download PDFInfo
- Publication number
- CN103927328B CN103927328B CN201410101649.2A CN201410101649A CN103927328B CN 103927328 B CN103927328 B CN 103927328B CN 201410101649 A CN201410101649 A CN 201410101649A CN 103927328 B CN103927328 B CN 103927328B
- Authority
- CN
- China
- Prior art keywords
- candidate
- numerical value
- intended
- value
- intention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种查询意图挖掘的方法,包括如下步骤:获取搜索查询、识别搜索查询中的关键概念、识别关键概念中的数值类型、对于每一个识别得到的数值类型生成数值查询实例、从数据源中挖掘对应的候选意图、通过数值查询实例计算与其对应的候选意图的取值范围、对候选意图进行聚类、输出意图列表。本发明还公开了一种查询意图挖掘的系统,包括搜索查询获取模块、关键概念识别模块、数值类型识别模块、数值查询实例生成模块、候选意图挖掘模块、计算模块、聚类模块以及显示模块。采用本发明的技术方案根据搜索用户的查询意图对搜索结果进行有效的索引和组织等处理,有效地提高了准确率,避免了搜索用户筛选并非自己意图的搜索结果所造成的时间和精力的浪费。
Description
技术领域
本发明涉及信息检索领域,尤其涉及一种查询意图挖掘的方法和系统。
背景技术
互联网是官方发布科技信息、个人发布日记或博客的平台。信息检索系统(例如搜索引擎)日益重要,因为它能够从大数据集中找到用户想要的信息;然而,不同的用户会使用同一个简短且模糊的查询词去查找不同的信息(解释),这就导致现有信息检索系统难以返回充足、准确的结果。为了帮助用户快速且准确地找到他们感兴趣的信息,各种各样基于自然语言处理和信息检索的搜索结果整理方法应运而生。
如图1所示,展示了一个用户接口,包含输入的查询、挖掘得到的意图和属于不同意图的搜索结果。这些结果的罗列通常使得用户需要耗费较多的时间和精力进行筛选,以获取真正符合自己意图的搜索结果。
即使是现有的最优方案:THUIR(信息检索组)团队提出的“先从互联网数据(主流搜索引擎的搜索结果及搜索查询日志等)中挖掘候选意图;然后根据照特征对这些候选意图进行排序,特征包括意图频度、共现频度、点击统计和编辑距离等;最后,系统输出排序的意图列表”这一技术方案依然不能准确找到用户的真正意图。比如,用户输入搜索查询“cipro for uti 4days”,如下表3所示,为THUIR系统针对用户的“cipro for uti 4days”查询输出的最相关的两个候选意图,
表1
其中,用户并不是真的想去找包含“4days”这个短语的信息,其暗示了当前的状态,实为想要知道有关如何进行治疗的信息。根据其状态,可以推知他正处于治疗阶段。所以在这种情况下,结合用户当前的状态,意图1更加合适。
然而,现有的方法使用数值数据,比如“4days”,作为关键概念去挖掘与之匹配的候选意图。但是,“4days”只是这个意图的唯一数值,同一意图的其他数值则不能被该方法找到。且如图3所示,并非用户的真正意图的意图2的分布反而要高于用户此次搜索的意图1。可知,该THUIR系统也无法提供准确率较高的意图挖掘方案。
发明内容
本发明所要解决的技术问题是信息检索中搜索结果能够反映用户真正的意图的准确率较低,导致用户需要耗费大量时间和精力在大量的搜索结果中筛选。
为此目的,本发明提出了一种查询意图挖掘的方法,包括如下步骤:
A、获取搜索查询;
B、识别搜索查询中的关键概念;
C、识别所述关键概念中的数值类型;
D、对于每一个识别得到的所述数值类型,生成至少一个包含有数值查询结构的数值查询实例;
E、从数据源中挖掘与所述搜索查询相关且与至少一个步骤D中生成的所述数值查询实例同时出现的候选意图;
F、通过所述数值查询实例计算与其对应的所述候选意图的取值范围;
G、根据步骤F中计算得出的所述候选意图的取值范围对所述候选意图进行聚类;将相同取值范围的候选意图集聚合为一个意图;
H、输出所述候选意图的意图列表。
优选的,所述数值类型包括周期(period)、频度(frequency)、距离(distance)、数量(amount)和水平(level)。
优选的,所述数值查询实例包括所述关键概念、数值类型以及用以代表所述数值查询实例的实例数值。作为一种优选,该数值查询结构可以仅包括所述关键概念、数值类型以及实例数值,即该数值查询结构由所述关键概念、数值类型以及用以表示所述数值查询实例的实例数值组成。
优选的,所述实例数值取最大值、最小值、确定值和间隔值四个类型之一。
优选的,步骤D中,所述生成数值查询实例,包括:
D1、使用预设的数值集合,为每一个所述数值查询实例设定所述实例数值。
优选的,所述生成数值查询实例,进一步包括:
D21、从预设的模式集中获取与所述数值类型相关的模式;
D22、使用步骤D21中获取的模式从数据源中挖掘所述数值查询实例;
优选的,步骤E进一步包括:
E11、从数据源中检索与所述搜索查询相关的内容,且该内容至少包含一个数值查询实例;
E12、从每个步骤E11中检索出的所述搜索查询相关的内容中,根据预设的词库识别出候选意图;
E13、生成候选意图集,且所述候选意图至少与一个数值查询实例共现。
优选的,步骤F进一步包括:
F11、计算每一个所述数值查询实例的取值范围;
F12、生成包含至少一个候选意图的数据集;
F13、对于步骤F12中生成的所述数据集中的每一个意图,计算该意图的取值分布以及权值,所述意图的取值等于该意图的权值除以整个数值查询实例集合所包含意图的权值总和,且求得的该意图的取值与权值均与该意图对应地置于所述数据集中;
F14、以所述候选意图的实例数值的最小值作为该候选意图的取值范围的左边界;
F15、以所述候选意图的实例数值的最大值作为该候选意图的取值范围的右边界;
F16、对每一个所述候选意图,计算其在取值范围内的总的分布值;
优选的,步骤F11进一步包括:
F111、根据预设的数值类型,计算数值查询实例的数值,所述预设的取值类型包含最大值、最小值、间隔值和确定值。
优选的,步骤F14进一步包括:
F1411、对每一个所述候选意图设定初始的取值范围,将整个所述数据集的最大值设为其左边界;
F1412、对于选定的具有最大分布值的所述候选意图,获取其实例数值;
F1413、如果当前的左边界值大于获取的实例数值,则将该实例数值设为左边界。
优选的,步骤F15进一步包括:
F1511、对每一个所述候选意图设定初始的取值范围,将整个所述数据集的最小值设为其右边界;
F1512、对于选定的具有最大分布值的所述候选意图,获取其实例数值;
F1513、如果当前的右边界值小于获取的实例数值,则将该实例数值设为右边界。
优选的,步骤F进一步包括:
F17、获取所述搜索查询的实例数值;
F18、当获取的所述搜索查询的实例数值小于候选意图的取值范围的左边界值,对该实例数值对应的候选意图取值范围的分布值设定最小值;
F19、当获取的所述搜索查询的实例数值在所述候选意图的取值范围内,对该实例数值对应的候选意图的分布值设定最大值。
优选的,本发明的查询意图挖掘的方法还包括以下步骤:
根据所述意图列表生成扩展的查询;
提取与所述扩展的查询相关的文档候选集。
优选的,步骤C中若无法识别出所述数值类型,则进行如下步骤:
D′、从数据源中挖掘意图候选集;
E′、对所述意图候选集中的候选意图进行排序;
H、输出所述候选意图的意图列表;
其中,步骤E′中的排序依据包括意图频率、同现频率、点击统计及编辑距离。
优选的,所述数据源包括搜索结果、维基百科、点击数据。
优选的,本发明查询意图挖掘的方法,还包括:
对所述搜索查询中的每一个关键概念,检索出相关的文档候选集;
根据所述意图列表,对每一个候选文档打出相关度得分,所述候选文档至少包含一个候选意图;
根据所述候选文档的相关度得分,对所述候选文档进行排序。
本发明还公开了一种查询意图挖掘的系统,包括:
信息获取模块,用以获取搜索查询;
关键概念识别模块,用以识别所述搜索查询中的关键概念;
数值类型识别模块,用以识别所述关键概念中的数值类型;
数值查询实例生成模块,对于每一个识别得到的所述数值类型,生成至少一个包含有数值查询结构的数值查询实例;
候选意图挖掘模块,用以从数据源中挖掘与所述搜索查询相关且与至少一个所述数值查询实例生成模块生成的所述数值查询实例同时出现的候选意图;
计算模块,用以通过所述数值查询实例计算与其对应的所述候选意图的取值范围;
聚类模块,用以根据所述计算模块计算得出的所述候选意图的取值范围对所述候选意图进行聚类;将相同取值范围的候选意图集聚合为一个意图;
显示模块,用以输出并显示所述候选意图的意图列表。
优选的,所述数值类型包括周期、频度、距离、数量和水平。
优选的,所述数值查询结构包括所述关键概念、数值类型以及用以表示所述数值查询实例的实例数值。
优选的,所述实例数值取最大值、最小值、确定值和间隔值中之一。
优选的,所述数值查询实例生成模块使用预设的数值集合,为每一个所述数值查询实例设定所述实例数值。
优选的,所述数值查询实例生成模块从预设的模式集中获取与所述数值类型相关的模式,并且根据获取的该模式从数据源中挖掘所述数值查询实例;
优选的,所述候选意图挖掘模块从数据源中检索与所述搜索查询相关的内容,从每个检索出的搜索查询相关的内容中,根据预设的词库识别出候选意图,并生成候选意图集。
优选的,所述候选意图挖掘模块还用以:
计算每一个所述数值查询实例的取值范围;
生成包含至少一个候选意图的数据集;
对于生成的所述数据集中的每一个意图,计算该意图的取值分布以及权值,所述意图的取值等于该意图的权值除以整个数值查询实例集合所包含意图的权值总和,且求得的该意图的取值与权值均与该意图对应地置于所述数据集中;
将所述候选意图的实例数值的最小值作为该候选意图的取值范围的左边界;
将所述候选意图的实例数值的最大值作为该候选意图的取值范围的右边界;
对每一个所述候选意图,计算其在取值范围内的总的分布值;
优选的,所述候选意图挖掘模块还用以:
对每一个候选意图设定初始的取值范围,将整个所述数据集的最大值设为其左边界;
对于选定的具有最大分布值的候选意图,获取其实例数值;
如果当前的左边界值大于获取的实例数值,则将该实例数值设为左边界。
对每一个候选意图设定初始的取值范围,将整个所述数据集的最小值设为其右边界;
对于选定的具有最大分布值的候选意图,获取其实例数值;
如果当前的右边界值小于获取的实例数值,则将该实例数值设为右边界。
获取所述搜索查询的实例数值;
当获取的所述搜索查询的实例数值小于候选意图的取值范围的左边界值,对该实例数值对应的候选意图取值范围的分布值设定最小值;
当获取的所述搜索查询的实例数值在所述候选意图的取值范围内,对该实例数值对应的候选意图的分布值设定最大值。
优选的,本发明中的查询意图挖掘的系统,还包括查询扩展模块,用以利用意图列表生成扩展的查询并使用扩展的查询检索出相关的文档候选集。
优选的,若无法识别出所述数值类型,则数值类型识别模块从数据源中挖掘意图候选集并对所述意图候选集中的候选意图进行排序,输出所述候选意图的意图列表;
上述的排序依据包括意图频率、同现频率、点击统计及编辑距离。
优选的,所述数据源包括搜索结果、维基百科、点击数据。
优选的,本发明的查询意图挖掘的系统还包括候选文档处理模块,用以对所述搜索查询中的每一个关键概念,检索出相关的文档候选集;根据所述意图列表,对每一个候选文档打出相关度得分,所述候选文档至少包含一个候选意图;根据所述候选文档的相关度得分,对所述候选文档进行排序。
通过采用本发明所公开的查询意图挖掘的方法和系统基于数值查询实例的方法根据用户意图对搜索结果进行有效的索引和组织等处理,方便用户快速准确地找到其感兴趣的信息,有效地提高了准确率,避免了用户筛选并非自己意图的搜索结果所造成的时间和精力的浪费,从而能够快速准确地帮助用户根据当前状态做出更为恰当的选择。
附图说明
通过参考附图会更加清楚的理解本发明的特征和优点,附图是示意性的而不应理解为对本发明进行任何限制,在附图中:
图1示出了基于意图的信息检索系统用户接口示意图。
图2示出了数值查询实例在数据源中的分布示例图。
图3示出了本发明的查询意图挖掘的方法的流程图。
图4示出了基于数据实例的意图挖掘示意图。
图5示出了生成数值查询实例过程示意图。
图6示出了候选意图挖掘过程示意图。
图7示出了候选意图分布计算过程示意图。
图8示出了候选意图的取值范围和总分布值计算过程示意图。
图9示出了数值分布调整过程示意图。
图10示出了候选意图聚类过程示意图。
图11示出了实施例2的示意图。
图12示出了实施例3的示意图。
图13示出了实施例4的示意图。
具体实施方式
下面将结合附图对本发明的实施例进行详细描述。
实施例1:
如图4所示,为本发明的查询意图挖掘的方法基于数值查询实例的意图挖掘的示意图,其中,
S1000:获取用户的搜索查询;
例如:cipro for uti 4days。
(cipro:环丙沙星,uti:尿路感染症)
S1100:识别搜索查询中的关键概念;
识别出的概念:cipro,uti,day。
S1200:从关键概念中至少识别出一个包含周期(period)、频度(frequency)、距离(distance)、数量(amount)或水平(level)的数值类型;
识别出的数值类型:day->numeric type=period。
S1300:对于每一个识别得到的所述数值类型,生成至少一个包括有数值查询结构的数值查询实例;数值查询结构包括关键概念、数值类型以及实例数值;在本实施例中,作为一种优选,该数值查询结构仅包括搜索查询的关键概念、数值类型以及数值,即由搜索查询的关键概念、数值类型以及数值组成。
具体的,如图5所示,步骤S1300包括:
S1310:从一个预设的模式集中获取与数值类型对应的模式;
在本实施例中获取的模式如下:
Pre-defined pattern set:
period|up to…days
period|over…week
period|…week
period|…days;
S1320:使用该模式从数据源中挖掘包含有数值查询结构的数值查询实例;其中,数值查询结构是由用户所输入的搜索查询的关键概念、数值类型以及实例数值组成并代表用户的查询以及隐含用户状态的数据结构,一般情况下,用户总是使用包含数值数据的查询;
挖掘出的数值查询实例如下:
uti,cipro|period|3days
uti,cipro|period|7days
uti,cipro|period|up to 10days
uti,cipro|period|over a week
uti,cipro|period|5days
…。
S1400:从数据源中挖掘与搜索查询相关且与至少一个数值查询实例同时出现的候选意图;
具体的,如图6所示,步骤S1400包括:
S1410:从数据源中检索与搜索查询相关的内容,且该内容至少包含一个数值查询实例;
检索出的内容如下:
CONTENT1,uti,cipro|period|3days
CONTENT2,uti,cipro|period|7days
CONTENT3,uti,cipro|period|up to 10days
CONTENT4,uti,cipro|period|over a week
CONTENT5,uti,cipro|period|5days;
S1420:从每个检索出的搜索查询相关的内容中,根据预设的词库识别出候选意图;
识别到的候选意图:
content1,INTENT1
content2,INTENT2
content3,INTENT2
content4,INTENT2
content5,INTENT1
这个预设的词典可以人工定义,也可以从训练集中获取。为了从训练集中自动获取预设词典,可利用LDA主题模型算法(Blei,et al.,2003)可以生成与意图相关的词汇。一个常用的预设词典的示例如下:
预定义词集:
意图1
{recover,healing,…}
意图2
{change,shift,turn,…}
意图3
{dosage,amount,…};
S1430:生成候选意图集,且所述候选意图至少与一个数值查询实例共现;
生成的候选意图集如下:
INTENT1,uti,cipro|period|3days
INTENT2,uti,cipro|period|7days
INTENT2,uti,cipro|period|up to 10days
INTENT2,uti,cipro|period|over a week
INTENT1,uti,cipro|period|5days。
S1500通过数值查询实例计算与其对应的候选意图的取值范围;
具体的,如图7所示,步骤S1500包括:
S1510:计算每一个数值查询实例的取值范围:
计算得到的取值范围:
最大值D0:[LV,D0]
最小值D1:[D1,MV]
确定值D2:[D2,D2]
间隔值[D3,D4]:[D3,D4]
其中,MV是集合中数值查询实例的最大值;LV是集合中数值查询实例的最小值;
上述S1510输出结果为:
INTENT1,uti,cipro|period|3days,[3,3]
INTENT2,uti,cipro|period|7days,[7,7]
INTENT2,uti,cipro|period|up to 10days,[3,10]
INTENT2,uti,cipro|period|over a week,[7,10]
INTENT1,uti,cipro|period|5days,[5,5]。
S1520:生成包含至少一个候选意图的数据集;
S1530:对于生成的所述数据集中的每一个意图,计算该意图的取值分布以及权值,所述意图的取值等于该意图的权值除以整个数值查询实例集合所包含意图的权值总和,且求得的该意图的取值与权值均与该意图对应地置于所述数据集中;
权值w=1/(取值范围右边界–取值范围左边界+1)
INTENT1,uti,cipro|period|3days,[3,3]
->INTENT1,3,1
INTENT2,uti,cipro|period|7days,[7,7]
->INTENT1,7,1
INTENT2,uti,cipro|period|up to 10days,[3,10]
->
INTENT2 3,1/8
INTENT2 4,1/8
INTENT2 5,1/8
INTENT2 6,1/8
INTENT2 7,1/8
INTENT2 8,1/8
INTENT2 9,1/8
INTENT2 10,1/8
INTENT2,uti,cipro|period|over a week,[7,10]
->
INTENT2 7,1/4
INTENT2 8,1/4
INTENT2 9,1/4
INTENT2 10,1/4
INTENT1,uti,cipro|period|5days,[5,5]
->INTENT1,5,1。
进一步的,以候选意图的实例数值的最小值作为该候选意图的取值范围的左边界;对每一个候选意图设定初始的取值范围,将整个数据集的最大值设为其左边界;对于选定的具有最大分布值的所述候选意图,获取其实例数值;如果当前的左边界值大于获取的实例数值,则将该实例数值设为左边界;
以候选意图的实例数值的最大值作为该候选意图的取值范围的右边界;具体的,对每一个所述候选意图设定初始的取值范围,将整个所述数据集的最小值设为其右边界;对于选定的具有最大分布值的所述候选意图,获取其实例数值;如果当前的右边界值小于获取的实例数值,则将该实例数值设为右边界;
对每一个所述候选意图,计算其在取值范围内的总的分布值。
如图8所示,描述了数值查询实例的取值范围和候选意图的取值分布,包括计算每一个候选意图的左边界、右边界,以及为每一个候选意图计算整体的分布值;下表2给出了候选意图分布值的例子;
表2
实例数值 | 意图1 | 意图2 |
3 | 0.067 | 0.003 |
4 | 0.078 | 0.003 |
5 | 0.011 | 0.003 |
6 | 0.000 | 0.070 |
7 | 0.000 | 0.072 |
8 | 0.000 | 0.072 |
9 | 0.000 | 0.006 |
10 | 0.000 | 0.006 |
例如在步骤S1540中,选择意图1;
在步骤S1542中,对每一个候选意图设定初始的取值范围,用整个数据集的最大值设为其左边界,在本实施例中,设定意图1的初始取值范围为[10,3];
S1544中,对于选定的具有最大分布值的候选意图,获取其实例数值;
进行步骤S1546,将当前取值设定为左边界;
S1548,将实例数值与左边界进行对比;
S1550,如果实例数值小于左边界,则将当前取值设定为左边界,
如果实例数值不满足小于左边界的条件则进行步骤S1552,获取下一个实例数值,
S1554,确定实例数值是否在数据集中;
如果在该数据集中则进行步骤S1556,为候选意图计算取值范围内的总分布值;
如果改实例数值不在该数据集中就回到步骤S1544;
S1558,选择下一个候选意图;
S1560,确定是否含有意图;
如果有意图则进行步骤S1570,输出候选意图及其取值范围及总分布值;
如果经过判断,并不存在意图则就回到步骤S1542;
本实施例中经过步骤S1546到S1556,系统获取了取值范围[3,5],总分布值是0.222;其中步骤S1544中,所述最大值必须大于预定义的阈值0.01。
如图9所示,描述了如何利用实例数值调整总分布值:
S1582,获取搜索查询的实例数值;
S1586,借助实例数值调整候选意图的分布值;
S1588,输出候选意图的取值范围和更新的总分布总值。例如,系统可以从给定的搜索查询中获取一个实例数值比如V0,如果V0在该候选意图的取值范围里,那么这个候选意图也许对用户更加重要;因此,系统为这个候选意图设定最大的分布值;
在步骤S1586步骤中,系统处理过程如下:
If(V0在候选意图的取值范围的左边)
对候选意图的取值范围设定最小的分布值;使用预设的0.01作为最小值;
If(V0在候选意图的取值范围中)
对候选意图的取值范围设定最大的分布值;使用预设的0.05作为最大值;
If(V0在候选意图范围的右边)
对候选意图的取值范围,保持原始的分布值。
S1600:借助实例取值范围对上述候选意图进行聚类;将相同取值范围的候选意图集聚合为一个意图;
具体的,如图10所示,步骤S1600包括:
S1610:获取该搜索查询的实例数值;
比如,系统可以从一个给定的查询“cipro for uti 4days”中获取数值“4”;
S1620:提取与实例数值相关的候选意图,即该候选意图的取值范围包含了上述实例数值“4”;
<输入候选意图>
INTENT1,[3,5],0.5
INTENT2,[6,8],0.215
<输出意图>
INTENT1
S1630:对于检索出的候选意图,输出所提取候选意图的数值查询实例,使数值查询实例与候选意图二者取值范围之间的重叠值大于预定义的阈值0.8
<输入数值查询实例>
uti,cipro|period|3days
uti,cipro|period|7days
uti,cipro|period|up to 10days
uti,cipro|period|over a week
uti,cipro|period|5days
<输出数值查询实例>
uti,cipro|period|3days(overlapping value:1/1=1>0.8)
uti,cipro|period|5days(overlapping value:1/1=1>0.8)。
最终,同样针对用户输入的搜索查询“cipro for uti 4days”,如下的表3对比了目前的现有技术和本发明方法所获取的不同结果:
表3
可见,经过本发明的技术方案处理后的搜索结果能够更加准确地找到用户搜索的真正意图,有效避免了用户筛选并非自己意图的搜索结果所造成的时间和精力的浪费。
实施例2:
当将本发明的技术方案集成于现有技术中时,如图11所示,
S2000:获取搜索查询;
S2100:识别搜索查询中的关键概念;
S2200:确定上述的关键概念中是否存在数值类型;
若存在数值类型则进行步骤S2500-S2800,该步骤S2500-S2800与实施例1中及图4中的步骤S1300-S1600相同,在此不再赘述。
若不存在数值类型则:
S2300:从搜索结果、维基百科、点击数据中挖掘与搜索查询相关的候选意图;
S2400:对候选意图进行排序,特征包括意图频率,同现频率,点击统计和编辑距离;
步骤S2800或步骤S2400后进行步骤S2900,输出意图列表。
实施例3:
当将本发明的技术方案集成于检索时,如图12所示,
S3000:获取搜索查询;
S3050:识别搜索查询相关的关键概念;
S3100:提取与关键概念相关的文档候选集;
S3600:基于意图列表给候选文档打出相关度得分;
S3700:根据相关度得分对候选文档排序;
在步骤S3050之后、步骤S3600之前进行步骤S3150-S3500;
步骤S3150-S3500与实施例2中及图11中步骤S2200-S2900相同,在此不再赘述。
实施例4:
当将本发明的技术方案用于查询扩展时,如图13所示,
S4000:获取搜索查询;
S4100:识别搜索查询相关的关键概念;
S4600:利用意图列表生成扩展的查询;
S4700:提取与扩展的查询相关的文档候选集;
在步骤S4100之后、步骤S4600之前进行步骤S4150–S4500;
步骤S4150–S4500与实施例2中及图11中步骤S2200-S2900相同,在此不再赘述。
本发明还公开了一种查询意图挖掘的系统,包括:
信息获取模块,用以获取搜索查询;
关键概念识别模块,用以识别所述搜索查询中的关键概念;
数值类型识别模块,用以识别所述关键概念中的数值类型;
数值查询实例生成模块,对于每一个识别得到的所述数值类型,生成至少一个包含有数值查询结构的数值查询实例;
候选意图挖掘模块,用以从数据源中挖掘与所述搜索查询相关且与至少一个所述数值查询实例生成模块生成的所述数值查询实例同时出现的候选意图;
计算模块,用以通过所述数值查询实例计算与其对应的所述候选意图的取值范围;
聚类模块,用以根据所述计算模块计算得出的所述候选意图的取值范围对所述候选意图进行聚类;将相同取值范围的候选意图集聚合为一个意图;
显示模块,用以输出并显示所述候选意图的意图列表。
其中,上述的数值类型包括周期、频度、距离、数量和水平;数值查询结构包括关键概念、数值类型以及用以表示数值查询实例的实例数值;实例数值取最大值、最小值、确定值和间隔值中之一。
数值查询实例生成模块使用预设的数值集合,为每一个所述数值查询实例设定所述实例数值。进一步的,该数值查询实例生成模块从预设的模式集中获取与数值类型相关的模式,并且根据获取的该模式从数据源中挖掘所述数值查询实例;
候选意图挖掘模块具体则用以:
从数据源中检索与搜索查询相关的内容,从每个检索出的搜索查询相关的内容中,根据预设的词库识别出候选意图,并生成候选意图集。
计算每一个所述数值查询实例的取值范围;
生成包含至少一个候选意图的数据集;
对于生成的所述数据集中的每一个意图,计算该意图的取值分布以及权值,所述意图的取值等于该意图的权值除以整个数值查询实例集合所包含意图的权值总和,且求得的该意图的取值与权值均与该意图对应地置于所述数据集中;
将所述候选意图的实例数值的最小值作为该候选意图的取值范围的左边界;
将所述候选意图的实例数值的最大值作为该候选意图的取值范围的右边界;
对每一个所述候选意图,计算其在取值范围内的总的分布值;
此外,上述的候选意图挖掘模块还用以:
对每一个候选意图设定初始的取值范围,将整个所述数据集的最大值设为其左边界;
对于选定的具有最大分布值的候选意图,获取其实例数值;
如果当前的左边界值大于获取的实例数值,则将该实例数值设为左边界。
对每一个候选意图设定初始的取值范围,将整个所述数据集的最小值设为其右边界;
对于选定的具有最大分布值的候选意图,获取其实例数值;
如果当前的右边界值小于获取的实例数值,则将该实例数值设为右边界。
获取所述搜索查询的实例数值;
当获取的所述搜索查询的实例数值小于候选意图的取值范围的左边界值,对该实例数值对应的候选意图取值范围的分布值设定最小值;
当获取的所述搜索查询的实例数值在所述候选意图的取值范围内,对该实例数值对应的候选意图的分布值设定最大值。
本发明的查询意图挖掘的系统,还包括查询扩展模块,用以利用意图列表生成扩展的查询并使用扩展的查询检索出相关的文档候选集。
若无法识别出数值类型,则数值类型识别模块从数据源中挖掘意图候选集并对所述意图候选集中的候选意图进行排序,输出候选意图的意图列表;上述的排序依据包括意图频率、同现频率、点击统计及编辑距离。
上述的数据源包括搜索结果、维基百科、点击数据。
本发明的查询意图挖掘的系统还包括候选文档处理模块,用以对所述搜索查询中的每一个关键概念,检索出相关的文档候选集;根据所述意图列表,对每一个候选文档打出相关度得分,所述候选文档至少包含一个候选意图;根据所述候选文档的相关度得分,对所述候选文档进行排序。
虽然结合附图描述了本发明的实施方式,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。
Claims (27)
1.一种查询意图挖掘的方法,其特征在于,包括如下:
A、获取一个搜索查询;
B、识别该搜索查询中的关键概念;
C、识别所述关键概念中的数值类型;
D、对于每一个识别得到的所述数值类型,生成至少一个包含有数值查询结构的数值查询实例;
E、从数据源中挖掘与所述搜索查询相关且与至少一个步骤D中生成的所述数值查询实例同时出现的候选意图;
F、通过所述数值查询实例计算与其对应的所述候选意图的取值范围;
G、根据步骤F中计算得出的所述候选意图的取值范围对所述候选意图进行聚类;
H、输出所述候选意图的意图列表。
2.根据权利要求1所述的方法,其特征在于,所述数值类型包括周期、频度、距离、数量和水平。
3.根据权利要求1所述的方法,其特征在于,所述数值查询结构包括所述关键概念、所述数值类型以及实例数值。
4.根据权利要求3所述的方法,其特征在于,所述实例数值取最大值、最小值、确定值和间隔值四个类型之一。
5.根据权利要求3所述的方法,其特征在于,步骤D中,所述生成数值查询实例,包括:
D1、使用预设的数值集合,为每一个所述数值查询实例设定所述实例数值。
6.根据权利要求3所述的方法,其特征在于,所述生成数值查询实例,进一步包括:
D21、从预设的模式集中获取与所述数值类型相应的模式;
D22、使用步骤D21中获取的模式从数据源中挖掘所述数值查询实例。
7.根据权利要求1所述的方法,其特征在于,步骤E进一步包括:
E11、从数据源中检索与所述搜索查询相关的内容,且该内容至少包含一个数值查询实例;
E12、从每个步骤E11中检索出的所述搜索查询相关的内容中,根据预设的词库识别出候选意图;
E13、生成候选意图集,且所述候选意图至少与一个数值查询实例共现。
8.根据权利要求1所述的方法,其特征在于,步骤F进一步包括:
F11、计算每一个所述数值查询实例的取值范围;
F12、生成包含至少一个候选意图的数据集;
F13、对于步骤F12中生成的所述数据集中的每一个意图,计算该意图的取值分布以及权值,所述意图的取值等于该意图的权值除以整个数值查询实例集合所包含意图的权值总和,且求得的该意图的取值与权值均与该意图对应地置于所述数据集中;
F14、以所述候选意图的实例数值的最小值作为该候选意图的取值范围的左边界;
F15、以所述候选意图的实例数值的最大值作为该候选意图的取值范围的右边界;
F16、对每一个所述候选意图,计算其在取值范围内的总的分布值。
9.根据权利要求8所述的方法,其特征在于,步骤F11进一步包括:
F111、根据预设的数值类型,计算数值查询实例的取值范围。
10.根据权利要求8所述的方法,其特征在于,步骤F14进一步包括:
F1411、对每一个所述候选意图设定初始的取值范围,将整个所述数据集的最大值设为其左边界;
F1412、对于选定的具有最大分布值的所述候选意图,获取其实例数值;
F1413、如果当前的左边界值大于获取的实例数值,则将该实例数值设为左边界。
11.根据权利要求8所述的方法,其特征在于,步骤F15进一步包括:
F1511、对每一个所述候选意图设定初始的取值范围,将整个所述数据集的最小值设为其右边界;
F1512、对于选定的具有最大分布值的所述候选意图,获取其实例数值;
F1513、如果当前的右边界值小于获取的实例数值,则将该实例数值设为右边界。
12.根据权利要求8所述的方法,其特征在于,步骤F进一步包括:
F17、获取所述搜索查询的实例数值;
F18、当获取的所述搜索查询的实例数值小于候选意图的取值范围的左边界值,对该实例数值对应的候选意图取值范围的分布值设定最小值;
F19、当获取的所述搜索查询的实例数值在所述候选意图的取值范围内,对该实例数值对应的候选意图的分布值设定最大值。
13.根据权利要求1所述的方法,其特征在于,步骤C中若无法识别出所述数值类型,则进行如下步骤:
D′、从数据源中挖掘意图候选集;
E′、对所述意图候选集中的候选意图进行排序;
H、输出所述候选意图的意图列表;
其中,步骤E′中的排序依据包括意图频率、同现频率、点击统计及编辑距离。
14.根据权利要求1至13中任一项所述的方法,还包括:
对所述搜索查询中的每一个关键概念,检索出相关的文档候选集;
根据所述意图列表,对每一个候选文档打出相关度得分,所述候选文档至少包含一个候选意图;
根据所述候选文档的相关度得分,对所述候选文档进行排序。
15.根据权利要求1至13中任一项所述的方法,还包括:
根据所述意图列表生成扩展的查询;
提取与所述扩展的查询相关的文档候选集。
16.一种查询意图挖掘的系统,其特征在于,包括:
信息获取模块,用以获取搜索查询;
关键概念识别模块,用以识别所述搜索查询中的关键概念;
数值类型识别模块,用以识别所述关键概念中的数值类型;
数值查询实例生成模块,对于每一个识别得到的所述数值类型,生成至少一个包含有数值查询结构的数值查询实例;
候选意图挖掘模块,用以从数据源中挖掘与所述搜索查询相关且与至少一个所述数值查询实例生成模块生成的所述数值查询实例同时出现的候选意图;
计算模块,用以通过所述数值查询实例计算与其对应的所述候选意图的取值范围;
聚类模块,用以根据所述计算模块计算得出的所述候选意图的取值范围对所述候选意图进行聚类;将相同取值范围的候选意图集聚合为一个意图;
显示模块,用以输出并显示所述候选意图的意图列表。
17.根据权利要求16所述的系统,其特征在于,所述数值类型包括周期、频度、距离、数量和水平。
18.根据权利要求16所述的系统,其特征在于,所述数值查询结构包括所述关键概念、数值类型以及用以表示所述数值查询实例的实例数值。
19.根据权利要求18所述的系统,其特征在于,所述实例数值取最大值、最小值、确定值和间隔值四个类型之一。
20.根据权利要求18所述的系统,其特征在于,所述数值查询实例生成模块使用预设的数值集合,为每一个所述数值查询实例设定所述实例数值。
21.根据权利要求18所述的系统,其特征在于,所述数值查询实例生成模块从预设的模式集中获取与所述数值类型相关的模式,并且根据获取的该模式从数据源中挖掘所述数值查询实例。
22.根据权利要求16所述的系统,其特征在于,所述候选意图挖掘模块从数据源中检索与所述搜索查询相关的内容,从每个检索出的搜索查询相关的内容中,根据预设的词库识别出候选意图,并生成候选意图集。
23.根据权利要求16所述的系统,其特征在于,所述候选意图挖掘模块还用以:
计算每一个所述数值查询实例的取值范围;
生成包含至少一个候选意图的数据集;
对于生成的所述数据集中的每一个意图,计算该意图的取值分布以及权值,所述意图的取值等于该意图的权值除以整个数值查询实例集合所包含意图的权值总和,且求得的该意图的取值与权值均与该意图对应地置于所述数据集中;
将所述候选意图的实例数值的最小值作为该候选意图的取值范围的左边界;
将所述候选意图的实例数值的最大值作为该候选意图的取值范围的右边界;
对每一个所述候选意图,计算其在取值范围内的总的分布值。
24.根据权利要求23所述的系统,其特征在于,所述候选意图挖掘模块还用以:
对每一个候选意图设定初始的取值范围,将整个所述数据集的最大值设为其左边界;
对于选定的具有最大分布值的候选意图,获取其实例数值;
如果当前的左边界值大于获取的实例数值,则将该实例数值设为左边界。
25.根据权利要求23所述的系统,其特征在于,所述候选意图挖掘模块还用以:
对每一个候选意图设定初始的取值范围,将整个所述数据集的最小值设为其右边界;
对于选定的具有最大分布值的候选意图,获取其实例数值;
如果当前的右边界值小于获取的实例数值,则将该实例数值设为右边界。
26.根据权利要求23所述的系统,其特征在于,所述候选意图挖掘模块还用以:
获取所述搜索查询的实例数值;
当获取的所述搜索查询的实例数值小于候选意图的取值范围的左边界值,对该实例数值对应的候选意图取值范围的分布值设定最小值;
当获取的所述搜索查询的实例数值在所述候选意图的取值范围内,对该实例数值对应的候选意图的分布值设定最大值。
27.根据权利要求16至26中任一项所述的系统,其特征在于,还包括查询扩展模块,用以利用意图列表生成扩展的查询并使用扩展的查询检索出相关的文档候选集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410101649.2A CN103927328B (zh) | 2014-03-18 | 2014-03-18 | 查询意图挖掘的方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410101649.2A CN103927328B (zh) | 2014-03-18 | 2014-03-18 | 查询意图挖掘的方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103927328A CN103927328A (zh) | 2014-07-16 |
CN103927328B true CN103927328B (zh) | 2017-04-19 |
Family
ID=51145549
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410101649.2A Expired - Fee Related CN103927328B (zh) | 2014-03-18 | 2014-03-18 | 查询意图挖掘的方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103927328B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104462510B (zh) * | 2014-12-22 | 2018-09-11 | 北京奇虎科技有限公司 | 基于用户搜索意图的搜索方法及装置 |
CN104699784B (zh) * | 2015-03-13 | 2017-12-19 | 苏州思必驰信息科技有限公司 | 一种基于交互式输入的数据搜索方法及装置 |
CN107451194A (zh) * | 2017-06-30 | 2017-12-08 | 百度在线网络技术(北京)有限公司 | 一种图片搜索方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101136014A (zh) * | 2006-09-01 | 2008-03-05 | 北大方正集团有限公司 | 一种支持全文检索系统同时检索数值类型数据域的方法 |
CN103235812A (zh) * | 2013-04-24 | 2013-08-07 | 中国科学院计算技术研究所 | 查询多意图识别方法和系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20120010433A (ko) * | 2010-07-26 | 2012-02-03 | 엘지전자 주식회사 | 영상표시기기의 동작 방법 |
-
2014
- 2014-03-18 CN CN201410101649.2A patent/CN103927328B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101136014A (zh) * | 2006-09-01 | 2008-03-05 | 北大方正集团有限公司 | 一种支持全文检索系统同时检索数值类型数据域的方法 |
CN103235812A (zh) * | 2013-04-24 | 2013-08-07 | 中国科学院计算技术研究所 | 查询多意图识别方法和系统 |
Non-Patent Citations (2)
Title |
---|
基于用户意图识别的查询推荐研究;罗成等;《中文信息学报》;20140131;第28卷(第1期);第64-72页 * |
查询意图研究综述;陆伟等;《中国图书馆学报》;20130131;第39卷(第203期);第100-111页 * |
Also Published As
Publication number | Publication date |
---|---|
CN103927328A (zh) | 2014-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10372717B2 (en) | Systems and methods for identifying documents based on citation history | |
CN103593425B (zh) | 基于偏好的智能检索方法及系统 | |
CN105320772B (zh) | 一种专利查重的关联论文查询方法 | |
Strassel et al. | Linguistic Resources and Evaluation Techniques for Evaluation of Cross-Document Automatic Content Extraction. | |
CN101587493A (zh) | 文本分类方法 | |
US20080228752A1 (en) | Technical correlation analysis method for evaluating patents | |
CN105975596A (zh) | 一种搜索引擎查询扩展的方法及系统 | |
CN107291895B (zh) | 一种快速的层次化文档查询方法 | |
CN105550216A (zh) | 学术研究信息的搜索方法、挖掘方法及装置 | |
CN101887415B (zh) | 一种文本文档主题词义的自动提取方法 | |
CN103927328B (zh) | 查询意图挖掘的方法和系统 | |
EP2531938A1 (en) | Propagating classification decisions | |
CN102789452A (zh) | 类似内容提取方法 | |
CN106055539A (zh) | 姓名消歧的方法和装置 | |
CN110569273A (zh) | 一种基于相关性排序的专利检索系统及方法 | |
CN108520033B (zh) | 基于超空间模拟语言的增强伪相关反馈模型信息检索方法 | |
US20080228724A1 (en) | Technical classification method for searching patents | |
Bellini et al. | On the Effectiveness and Optimization of Information Retrieval for Cross Media Content. | |
CN103336765A (zh) | 一种文本关键词的马尔可夫矩阵离线修正方法 | |
AU2009345829A1 (en) | Method, system, and apparatus for targeted searching of multi-sectional documents within an electronic document collection | |
CN106372123A (zh) | 一种基于标签的相关内容推荐方法和系统 | |
Kavila et al. | Extractive text summarization using modified weighing and sentence symmetric feature methods | |
Ibrahim et al. | Exquisite: explaining quantities in text | |
KR20100028683A (ko) | 키워드 기술분류를 이용한 특허동향분석 시스템 | |
Huang et al. | Rough-set-based approach to manufacturing process document retrieval |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170419 Termination date: 20190318 |