CN103150356A - 一种应用的泛需求检索方法及系统 - Google Patents

一种应用的泛需求检索方法及系统 Download PDF

Info

Publication number
CN103150356A
CN103150356A CN2013100562837A CN201310056283A CN103150356A CN 103150356 A CN103150356 A CN 103150356A CN 2013100562837 A CN2013100562837 A CN 2013100562837A CN 201310056283 A CN201310056283 A CN 201310056283A CN 103150356 A CN103150356 A CN 103150356A
Authority
CN
China
Prior art keywords
label
query word
concept
attribute tags
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013100562837A
Other languages
English (en)
Other versions
CN103150356B (zh
Inventor
王亚
洪庚伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201310056283.7A priority Critical patent/CN103150356B/zh
Publication of CN103150356A publication Critical patent/CN103150356A/zh
Application granted granted Critical
Publication of CN103150356B publication Critical patent/CN103150356B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种应用的泛需求检索方法及系统,该方法包括:对泛需求检索的查询词进行解析,得到所述查询词的概念标签或属性标签;所述概念标签和属性标签分别描述应用的类别和属性;依据所述查询词的概念标签或属性标签在预设的应用标签体系中进行匹配,得到包含所述概念标签或属性标签的应用;依据所述查询词的概念标签或属性标签获得所述应用的相关性分数,并依据相关性分数对应用进行排序,将排序后的应用作为查询词的检索结果提供给用户。根据本发明提供的技术方案,能够提高泛需求检索场景中检索结果的多样性和相关性。

Description

一种应用的泛需求检索方法及系统
【技术领域】
本发明涉及互联网应用领域,尤其涉及一种应用的泛需求检索方法及系统。
【背景技术】
目前,应用(APP,Application)检索主要包括泛需求检索和精确检索,所述泛需求检索中,用户输入的查询词(query)描述的不是一个具体的应用,而是一类应用;例如,听歌软件、赛车游戏等。现有技术中,依据用户输入的query进行应用检索的方法是:步骤1,对用户输入的query进行切词,得到对应的term列表,term列表包括切词后得到的一个以上分词,例如,query为“导航软件哪个好”,对应的term列表为“term1:导航、term2:软件、term3:哪个、term4:好”;步骤2,依据term列表中的分词在索引库中进行匹配,得到匹配出的应用列表;步骤3,依据匹配出应用的名称或标题计算应用与query之间的相关性,并依据应用的抽象质量(如下载量、点击量等)为应用进行打分;步骤4,依据相关性和打分得到应用的权重值,依据权重值由大到小的顺序对匹配出的应用进行排序,将排序后的应用作为query的检索结果提供给用户。
上述依据用户输入的query进行应用检索的方法应用于精确检索场景时能够获得良好的检索效果,检索结果能够满足用户需求,但是应用于泛需求检索场景时检索效果较差,例如,对query进行简单切词,并依据应用的名称和标题进行检索,因而不能依据query准确定位用户对某一类应用的深层需求,也就不能得到准确的检索结果,而且当检索同一类应用时,每个用户表达query的习惯存在差异,但是检索目的相同,如果仅仅依据query进行切词和匹配,往往只能提供较少的检索结果,检索结果比较局限,不能满足用户的检索需求。例如,以query为“导航软件哪个好”为例,利用目前的方法,当数据库中有百度地图、高德地图和凯立德手机导航三个应用时,采用标题进行匹配检索时,即应用的名称中必须明确包含query中的term,这样只有“凯立德手机导航”能够被检索到;但是,对于query为“导航软件哪个好”,用户想要得到的其实是导航类应用软件,而不是某个具体的应用软件,因此,这种方式得到的检索结果存在局限,不能够满足用户的检索需求。
【发明内容】
本发明提供了一种应用的泛需求检索方法及系统,能够提高泛需求检索场景中检索结果的多样性和相关性。
本发明的具体技术方案如下:
根据本发明一优选实施例,一种应用的泛需求检索方法,包括:
对泛需求检索的查询词进行解析,得到所述查询词的概念标签或属性标签;所述概念标签和属性标签分别描述应用的类别和属性;
依据所述查询词的概念标签或属性标签在预设的应用标签体系中进行匹配,得到包含所述概念标签或属性标签的应用;
依据所述查询词的概念标签或属性标签获得所述应用的相关性分数,并依据相关性分数对应用进行排序,将排序后的应用作为查询词的检索结果提供给用户。
上述方法中,该方法还包括:
接收用户输入的查询词,并从所述查询词中识别出泛需求检索的查询词。
上述方法中,所述对泛需求检索的查询词进行解析具体包括:
依据所述查询词中的字在预设的单词查找树中查找子树,在找到的子树上依据查询词的下一个字继续查找子树,直到查询词中最后一个字;
利用在单词查找树中找到的最后一个字、第一个字以及路径中的字组成标签;
依据所述标签的标志位信息进行判断,标志位信息为概念标识时,所述标签是概念标签,标志位信息为属性标识时,所述标签为属性标签。
上述方法中,所述应用标签体系为树状结构的应用的标签体系,所述标签包括应用的概念标签和属性标签,每个概念标签对应一个以上属性标签。
上述方法中,所述应用的相关性分数等于查询词的概念标签在应用中的分数与查询词的属性标签在应用中的分数的和值。
上述方法中,所述查询词的概念标签在应用中的分数利用如下公式获得:
weight _ concept = Σ i = 0 c _ num q _ con _ wei _ i × tag _ base _ concept
其中,c_num为应用命中查询词中概念标签的个数,i表示应用命中查询词中第i个概念标签,q_con_wei_i为查询词中第i个概念标签的重要度,tag_base_concept为查询词中概念标签的总分数。
上述方法中,当查询词解析得到标签中有概念标签且没有属性标签时,查询词中概念标签的总分数等于泛需求检索的总分数;当查询词解析得到的标签中有概念标签和属性标签时,查询词中概念标签的总分数等于泛需求检索的总分数与概念标签的调节因子的乘积;其他情况下,查询词中概念标签的总分数等于0。
上述方法中,所述查询词的属性标签在应用中的分数利用如下公式获得:
weight _ attr = Σ i = 0 a _ num q _ attr _ wei _ i × tag _ base _ attr
其中,a_num为应用命中查询词中属性标签的个数,i表示应用命中查询词中第i个属性标签,q_attr_wei_i为查询词中第i个属性标签的重要度,tag_base_attr为查询词中属性标签的总分数。
上述方法中,当查询词解析得到标签中有属性标签且没有概念标签时,查询词中属性标签的总分数等于泛需求检索的总分数;当查询词解析得到的标签中有属性标签和概念标签时,查询词中属性标签的总分数等于泛需求检索的总分数与属性标签的调节因子的乘积;其他情况下,泛需求检索的总分数等于0。
上述方法中,所述查询词中概念标签的重要度以及查询词中属性标签的重要度的值域范围是0~1。
一种应用的泛需求检索系统,包括:基础检索模块、数据分析模块;其中,
基础检索模块,用于对数据分析模块发送的泛需求检索的查询词进行解析,得到所述查询词的概念标签或属性标签;所述概念标签和属性标签分别描述应用的类别和属性;依据所述查询词的概念标签或属性标签在预设的应用标签体系中进行匹配,得到包含所述概念标签或属性标签的应用;依据所述查询词的概念标签或属性标签获得所述应用的相关性分数,并依据相关性分数对应用进行排序,将排序后的应用作为查询词的检索结果提供给用户。
上述系统中,该系统还包括高级检索模块;其中,
高级检索模块,用于接收用户输入的查询词,并发送给数据分析模块;
所述数据分析模块,用于从所述查询词中识别出泛需求检索的查询词。
上述系统中,所述基础检索模块在对泛需求检索的查询词进行解析时,具体包括:
依据所述查询词中的字在预设的单词查找树中查找子树,在找到的子树上依据查询词的下一个字继续查找子树,直到查询词中最后一个字;
利用在单词查找树中找到的最后一个字、第一个字以及路径中的字组成标签;
依据所述标签的标志位信息进行判断,标志位信息为概念标识时,所述标签是概念标签,标志位信息为属性标识时,所述标签为属性标签。
上述系统中,所述应用标签体系为树状结构的应用的标签体系,所述标签包括应用的概念标签和属性标签,每个概念标签对应一个以上属性标签。
上述系统中,所述应用的相关性分数等于查询词的概念标签在应用中的分数与查询词的属性标签在应用中的分数的和值。
上述系统中,所述查询词的概念标签在应用中的分数利用如下公式获得:
weight _ concept = Σ i = 0 c _ num q _ con _ wei _ i × tag _ base _ concept
其中,c_num为应用命中查询词中概念标签的个数,i表示应用命中查询词中第i个概念标签,q_con_wei_i为查询词中第i个概念标签的重要度,tag_base_concept为查询词中概念标签的总分数。
上述系统中,当查询词解析得到标签中有概念标签且没有属性标签时,查询词中概念标签的总分数等于泛需求检索的总分数;当查询词解析得到的标签中有概念标签和属性标签时,查询词中概念标签的总分数等于泛需求检索的总分数与概念标签的调节因子的乘积;其他情况下,查询词中概念标签的总分数等于0。
上述系统中,所述查询词的属性标签在应用中的分数利用如下公式获得:
weight _ attr = Σ i = 0 a _ num q _ attr _ wei _ i × tag _ base _ attr
其中,a_num为应用命中查询词中属性标签的个数,i表示应用命中查询词中第i个属性标签,q_attr_wei_i为查询词中第i个属性标签的重要度,tag_base_attr为查询词中属性标签的总分数。
上述系统中,当查询词解析得到标签中有属性标签且没有概念标签时,查询词中属性标签的总分数等于泛需求检索的总分数;当查询词解析得到的标签中有属性标签和概念标签时,查询词中属性标签的总分数等于泛需求检索的总分数与属性标签的调节因子的乘积;其他情况下,泛需求检索的总分数等于0。
上述系统中,所述查询词中概念标签的重要度以及查询词中属性标签的重要度的值域范围是0~1。
由以上技术方案可以看出,本发明提供的具有以下有益效果:
能够准确定位出用户需要的是哪一类应用,从而得到准确的检索结果;而且,与仅仅对query进行切词获得的检索结果相比,依据概念标签或属性标签可以从应用标签(APP tag)体系中拉取出更加丰富的应用,从而获得更多的检索结果,提高检索结果的多样性,满足用户的检索需求;此外能够保证获得的应用与query是相关的,从而可以提高检索结果与query的相关性。
【附图说明】
图1是本发明实现应用的泛需求检索系统的优选实施例的结构示意图;
图2是本发明实现应用的泛需求检索方法的优选实施例的流程示意图;
图3是本发明中trie树的示例图。
【具体实施方式】
本发明的基本思想是:对泛需求检索的查询词进行解析,得到所述查询词的概念标签或属性标签;所述概念标签和属性标签分别描述应用的类别和属性;依据所述查询词的概念标签或属性标签在预设的应用标签体系中进行匹配,得到包含所述概念标签或属性标签的应用;依据所述查询词的概念标签或属性标签获得所述应用的相关性分数,并依据相关性分数对应用进行排序,将排序后的应用作为查询词的检索结果提供给用户。
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
本发明提供一种应用的泛需求检索系统,图1是本发明实现应用的泛需求检索系统的优选实施例的结构示意图,如图1所示,该系统包括:高级检索模块10、数据分析模块11、基础检索模块12。
基于上述系统,本发明还提供一种应用的泛需求检索方法,图2是本发明实现应用的泛需求检索方法的优选实施例的流程示意图,如图2所示,该优选实施例包括以下步骤:
步骤201,高级检索模块接收用户输入的查询词,并将用户输入的查询词发送给数据分析模块。
具体的,高级检索(AS,Advance Search)模块接收用户输入的query,然后将该query发送给数据分析(DA,Data Analyze)模块。
步骤202,数据分析模块从查询词中识别出泛需求检索的查询词,并将该泛需求检索的查询词返回给高级检索模块。
具体的,数据分析模块从高级检索模块收到query后,对该query进行识别,判断该query是泛需求检索的query还是精确检索的query;本优选实施例中,数据分析模块依据预设的泛需求检索词表中的模板文本从query中识别出泛需求检索的query;例如,泛需求检索词表中的模板文本中包括用户常使用的泛需求检索的query的格式,如“好用的xx”、“什么样的xx好用”等,数据分析模块可以依据这些泛需求检索的query的格式从query中识别出泛需求检索的query,然后将识别出的泛需求检索的query再返回给高级检索模块。
步骤203,高级检索模块将泛需求检索的查询词发送给基础检索模块。
步骤204,基础检索模块对泛需求检索的查询词进行解析,得到查询词的概念标签或属性标签。
具体的,基础检索模块从高级检索模块收到泛需求检索的query时,首先进行query的预处理,query的预处理主要包括query的编码格式转换、字母的大小写转换、或简体与繁体之间的转换等,基础检索模块进行query的预处理时,只需要调用预设的对应的标准库函数即可;例如,进行query的格式转换时可以调用预设的编码转换函数,如:
size_ticonv(iconv_tcd,char**inbuf,size_t*inbytesleft,char**outbuf,size_t*outbytesleft)。
数据分析模块在对泛需求检索的query进行预处理后,利用多模匹配算法对泛需求检索的query进行解析,得到query的标签,得到的标签包括query的概念标签app_concept或query的属性标签app_attr。
本优选实施例中,利用的多模匹配算法为单词查找树(trie树)算法,基于trie树算法的query解析方法为:trie树可以如图3所示,trie树的根节点为虚拟节点,不包含任何字符,trie树中除根节点以外每个节点都只包含一个字;从根节点到某个节点,路径上的字连接起来后为该节点对应的字符串;每个节点的子节点中,相邻的子节点包含的字不同;其中,根节点的子节点为APPtag体系中的字,每个路径为APP tag体系中的概念标签或属性标签。
本优选实施例中,依据预处理后的query在预设的trie树中进行查找,依据需要匹配的query的第一个字在trie树中选择对应的子树并转到该子树继续进行查找,如果没有在trie树中找到第一个字就跳过第一个字查找第二个字,以此类推;在选出的子树上,依据query的下一个字进一步选择对应的子树进行查找,以此类推,直到query中的最后一个字;利用最后一个找到的字、第一个找到的字、以及这两个字所在节点之间的路径中所包括的字组成标签,该标签中每个字都为trie中的一个节点,依据该标签中的字所对应的标志位信息flag判断该标签是概念标签还是属性标签,如果flag为概念标识(concept),则该标签是概念标签,如果flag为属性标识(attribute),则该标签为属性标签。例如,如果query为“好玩的游戏”,在如图3所示的trie树中依次查找“好”、“玩”、“的”字,都没有找到,直到在trie树中找到“游”字,然后在“游”所在节点的所有子节点中查找“戏”字,最后找到标签“游戏”,该标签中“戏”字具有标志位信息flag,且标志为信息flag为concept,则标签“游戏”为“好玩的游戏”的概念标签。
得到的query的概念标签app_concep t或query的属性标签app_attr后,计算获得的概念标签app_concept或query的属性标签app_attr的重要度,概念标签app_concept的重要度记为q_con_wei_i,属性标签app_attr的重要度记为q_attr_wei_i,计算出的q_con_wei_i或q_attr_wei_i的值域范围是0~1;本优选实施例中,基础检索模块可以利用重要度分析模块计算获得标签的重要度,该重要度分析模块可以依据标签的idf以及标签是否为专有名词或品牌名等进行权值调整,最终得到一个分数,对得到的分数进行归一化处理后得到标签的重要度。
步骤205,基础检索模块依据查询词的概念标签或属性标签在预设的应用标签体系中进行匹配,得到包含概念标签或属性标签的应用。
具体的,基础检索模块依据步骤204中从query中解析得到的概念标签或属性标签,在预设的APP tag体系中进行匹配,找到名称、标题、概念标签、或属性标签中包含该query的概念标签或属性标签的应用。
其中,APP tag体系是一个树状结构的应用的标签体系,保存在数据库中,APP tag体系保存应用的概念标签和属性标签;其中,每个概念标签或属性标签都是APP tag体系中的一个节点,概念标签用于描述应用的类别,作为应用的类别信息,且通常是名词词组;属性标签用于描述应用的特有属性,用于作为应用的属性信息,属性标签通常为形容词、功能性名词等。
例如,表1是APP tag体系中概念标签“桌面”的信息:
表1
tid name pid is_dir
129 桌面 2 1
表2是APP tag体系中概念标签“桌面”的子概念标签的信息:
表2
tid name pid is_dir
130 桌面主题 129 0
131 主题桌面 129 0
132 桌面软件 129 0
133 桌面相册 129 0
134 桌面相框 129 0
135 桌面美化 129 0
136 桌面下载 129 0
5750 手机桌面 129 0
其中,tid是概念标签自身的ID,pid是概念标签树中该概念标签的父概念标签的ID,is_dir表示该概念标签是否有子概念标签,is_dir为1表示有子概念标签,is_dir为0表示没有子概念标签。
APP tag体系中,对于每个概念标签都有一组属性标签与其对应,如表3所示:
表3
Figure BDA00002849981100101
APP tag体系中,对于每个应用都有对应的概念标签和属性标签,如表4所示:
表4
Figure BDA00002849981100102
步骤206,基础检索模块依据所述查询词的概念标签或属性标签获得所述应用的相关性分数,并依据相关性分数对应用进行排序,将排序后的应用作为查询词的检索结果提供给用户。
具体的,基础检索模块在依据query的标签从APP tag体系中获取到匹配的应用时,需要计算得到匹配出应用的相关性分数weight;本优选实施例中,应用的相关性分数weight可以利用如下公式获得:
weight=weight_concept+weight_attr
其中,该公式中,weight表示应用的相关性分数,weight_concept表示query的概念标签在该应用中的分数,weight_attr表示query的属性标签在该应用中的分数。
其中,weight_concept可以利用如下公式获得:
weight _ concept = Σ i = 0 c _ num q _ con _ wei _ i × tag _ base _ concept
该公式中:c_num表示应用命中query中概念标签的个数,即应用与query具有相同的概念标签的个数;i表示应用命中query中第i个概念标签,q_con_wei_i为query中第i个概念标签的重要度,tag_base_concept表示query中概念标签的总分数。
tag_base_concept可以利用如下公式获得:
tag _ base _ concept = TAG _ BASE _ WEIGHT TAG _ BASE _ WEIGHT × TAG _ CONCEPT _ BOOST 0
该公式中:当query解析得到标签中仅有概念标签,没有属性标签时,tag_base_concept等于TAG_BASE_WEIGHT,TAG_BASE_WEIGHT表示泛需求检索的总分数,本优选实施例中,TAG_BASE_WEIGHT可以等于100;当query解析得到的标签中既有概念标签也有属性标签时,tag_base_concept等于TAG_BASE_WEIGHT与TAG_CONCEPT_BOOST的乘积,TAG_CONCEPT_BOOST表示概念标签的调节因子,本优选实施例中,TAG_CONCEPT_BOOST可以等于0.8;其他情况下,tag_base_concept等于0。
其中,weight_attr可以利用如下公式获得:
weight _ attr = Σ i = 0 a _ num q _ attr _ wei _ i × tag _ base _ attr
其中,该公式中,a_num表示应用命中query中属性标签的个数,即应用与query具有相同的属性标签的个数;i表示应用命中query中第i个属性标签,q_attr_wei_i为query中第i个属性标签的重要度,tag_base_attr表示query中属性标签的总分数。
其中,tag_base_attr可以利用如下公式获得:
tag _ base _ attr = TAG _ BASE _ WEIGHT TAG _ BASE _ WEIGHT × TAG _ ATTR _ BOOST 0
其中,当query解析得到标签中仅有属性标签,没有概念标签时,tag_base_attr等于TAG_BASE_WEIGHT,TAG_BASE_WEIGHT表示泛需求检索的总分数,本优选实施例中,TAG_BASE_WEIGHT可以等于100;当query解析得到的标签中既有属性标签也有概念标签时,tag_base_attr等于TAG_BASE_WEIGHT与TAG_ATTR_BOOST的乘积,TAG_ATTR_BOOST表示属性标签的调节因子,本优选实施例中,TAG_ATTR_BOOST可以等于0.2;其他情况下,tag_base_attr等于0。
在计算出所有匹配出的应用的相关性分数weight后,依据相关性分数weight由大到小的顺序对匹配出的应用进行排序,将排序后的应用作为query的检索结果返回给高级检索模块,高级检索模块再将该检索结果提供给用户,用户就可以得到query的检索结果。
为实现上述方法,如图1所示的应用的泛需求检索系统中:
高级检索模块10,用于接收用户输入的查询词,并发送给数据分析模块11;
数据分析模块11,用于从所述查询词中识别出泛需求检索的查询词;
基础检索模块12,用于对数据分析模块11发送的泛需求检索的查询词进行解析,得到所述查询词的概念标签或属性标签;所述概念标签和属性标签分别描述应用的类别和属性;依据所述查询词的概念标签或属性标签在预设的应用标签体系中进行匹配,得到包含所述概念标签或属性标签的应用;依据所述查询词的概念标签或属性标签获得所述应用的相关性分数,并依据相关性分数对应用进行排序,将排序后的应用作为查询词的检索结果提供给用户。
其中,所述基础检索模块12在对泛需求检索的查询词进行解析时,具体包括:
依据所述查询词中的字在预设的单词查找树中查找子树,在找到的子树上依据查询词的下一个字继续查找子树,直到查询词中最后一个字;
利用在单词查找树中找到的最后一个字、第一个字以及路径中的字组成标签;
依据所述标签的标志位信息进行判断,标志位信息为概念标识时,所述标签是概念标签,标志位信息为属性标识时,所述标签为属性标签。
其中,所述应用标签体系为树状结构的应用的标签体系,所述标签包括应用的概念标签和属性标签,每个概念标签对应一个以上属性标签。
其中,所述应用的相关性分数等于查询词的概念标签在应用中的分数与查询词的属性标签在应用中的分数的和值。
所述查询词的概念标签在应用中的分数利用如下公式获得:
weight _ concept = Σ i = 0 c _ num q _ con _ wei _ i × tag _ base _ concept
其中,c_num为应用命中查询词中概念标签的个数,i表示应用命中查询词中第i个概念标签,q_con_wei_i为查询词中第i个概念标签的重要度,tag_base_concept为查询词中概念标签的总分数。
其中,当查询词解析得到标签中有概念标签且没有属性标签时,查询词中概念标签的总分数等于泛需求检索的总分数;当查询词解析得到的标签中有概念标签和属性标签时,查询词中概念标签的总分数等于泛需求检索的总分数与概念标签的调节因子的乘积;其他情况下,查询词中概念标签的总分数等于0。
所述查询词的属性标签在应用中的分数利用如下公式获得:
weight _ attr = Σ i = 0 a _ num q _ attr _ wei _ i × tag _ base _ attr
其中,a_num为应用命中查询词中属性标签的个数,i表示应用命中查询词中第i个属性标签,q_attr_wei_i为查询词中第i个属性标签的重要度,tag_base_attr为查询词中属性标签的总分数。
其中,当查询词解析得到标签中有属性标签且没有概念标签时,查询词中属性标签的总分数等于泛需求检索的总分数;当查询词解析得到的标签中有属性标签和概念标签时,查询词中属性标签的总分数等于泛需求检索的总分数与属性标签的调节因子的乘积;其他情况下,泛需求检索的总分数等于0。
所述查询词中概念标签的重要度以及查询词中属性标签的重要度的值域范围是0~1。
本发明的上述技术方案,从泛需求检索的查询词中解析出概念标签或属性标签,然后依据解析出的标签在应用标签体系拉取出相关的应用,并为拉取出的应用打分,从而可以获得泛需求检索的查询词的检索结果,如此,通过对查询词进行解析能够准确定位出用户需要的是哪一类应用,因此能够得到准确的检索结果;而且,与仅仅对查询词进行切词获得的检索结果相比,依据概念标签或属性标签可以从应用标签体系中拉取出更加丰富的应用,从而获得更多的检索结果,提高检索结果的多样性,能够满足用户的检索需求;此外,依据概念标签或属性标签在应用标签体系中匹配出的应用,由于概念标签和属性标签用于描述应用的类别和特有属性,因此,能够保证获得的应用与查询词是相关的,从而可以提高检索结果与查询词的相关性。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (20)

1.一种应用的泛需求检索方法,其特征在于,该方法包括:
对泛需求检索的查询词进行解析,得到所述查询词的概念标签或属性标签;所述概念标签和属性标签分别描述应用的类别和属性;
依据所述查询词的概念标签或属性标签在预设的应用标签体系中进行匹配,得到包含所述概念标签或属性标签的应用;
依据所述查询词的概念标签或属性标签获得所述应用的相关性分数,并依据相关性分数对应用进行排序,将排序后的应用作为查询词的检索结果提供给用户。
2.根据权利要求1所述的方法,其特征在于,该方法还包括:
接收用户输入的查询词,并从所述查询词中识别出泛需求检索的查询词。
3.根据权利要求1所述的方法,其特征在于,所述对泛需求检索的查询词进行解析具体包括:
依据所述查询词中的字在预设的单词查找树中查找子树,在找到的子树上依据查询词的下一个字继续查找子树,直到查询词中最后一个字;
利用在单词查找树中找到的最后一个字、第一个字以及路径中的字组成标签;
依据所述标签的标志位信息进行判断,标志位信息为概念标识时,所述标签是概念标签,标志位信息为属性标识时,所述标签为属性标签。
4.根据权利要求1所述的方法,其特征在于,
所述应用标签体系为树状结构的应用的标签体系,所述标签包括应用的概念标签和属性标签,每个概念标签对应一个以上属性标签。
5.根据权利要求1所述的方法,其特征在于,所述应用的相关性分数等于查询词的概念标签在应用中的分数与查询词的属性标签在应用中的分数的和值。
6.根据权利要求5所述的方法,其特征在于,所述查询词的概念标签在应用中的分数利用如下公式获得:
weight _ concept = Σ i = 0 c _ num q _ con _ wei _ i × tag _ base _ concept
其中,c_num为应用命中查询词中概念标签的个数,i表示应用命中查询词中第i个概念标签,q_con_wei_i为查询词中第i个概念标签的重要度,tag_base_concept为查询词中概念标签的总分数。
7.根据权利要求6所述的方法,其特征在于,当查询词解析得到标签中有概念标签且没有属性标签时,查询词中概念标签的总分数等于泛需求检索的总分数;当查询词解析得到的标签中有概念标签和属性标签时,查询词中概念标签的总分数等于泛需求检索的总分数与概念标签的调节因子的乘积;其他情况下,查询词中概念标签的总分数等于0。
8.根据权利要求5所述的方法,其特征在于,所述查询词的属性标签在应用中的分数利用如下公式获得:
weight _ attr = Σ i = 0 a _ num q _ attr _ wei _ i × tag _ base _ attr
其中,a_num为应用命中查询词中属性标签的个数,i表示应用命中查询词中第i个属性标签,q_attr_wei_i为查询词中第i个属性标签的重要度,tag_base_attr为查询词中属性标签的总分数。
9.根据权利要求8述的方法,其特征在于,当查询词解析得到标签中有属性标签且没有概念标签时,查询词中属性标签的总分数等于泛需求检索的总分数;当查询词解析得到的标签中有属性标签和概念标签时,查询词中属性标签的总分数等于泛需求检索的总分数与属性标签的调节因子的乘积;其他情况下,泛需求检索的总分数等于0。
10.据权利要求6或8所述的方法,其特征在于,所述查询词中概念标签的重要度以及查询词中属性标签的重要度的值域范围是0~1。
11.一种应用的泛需求检索系统,其特征在于,该系统包括:基础检索模块、数据分析模块;其中,
基础检索模块,用于对数据分析模块发送的泛需求检索的查询词进行解析,得到所述查询词的概念标签或属性标签;所述概念标签和属性标签分别描述应用的类别和属性;依据所述查询词的概念标签或属性标签在预设的应用标签体系中进行匹配,得到包含所述概念标签或属性标签的应用;依据所述查询词的概念标签或属性标签获得所述应用的相关性分数,并依据相关性分数对应用进行排序,将排序后的应用作为查询词的检索结果提供给用户。
12.根据权利要求11所述的系统,其特征在于,该系统还包括高级检索模块;其中,
高级检索模块,用于接收用户输入的查询词,并发送给数据分析模块;
所述数据分析模块,用于从所述查询词中识别出泛需求检索的查询词。
13.根据权利要求11所述的系统,其特征在于,所述基础检索模块在对泛需求检索的查询词进行解析时,具体包括:
依据所述查询词中的字在预设的单词查找树中查找子树,在找到的子树上依据查询词的下一个字继续查找子树,直到查询词中最后一个字;
利用在单词查找树中找到的最后一个字、第一个字以及路径中的字组成标签;
依据所述标签的标志位信息进行判断,标志位信息为概念标识时,所述标签是概念标签,标志位信息为属性标识时,所述标签为属性标签。
14.根据权利要求11所述的系统,其特征在于,
所述应用标签体系为树状结构的应用的标签体系,所述标签包括应用的概念标签和属性标签,每个概念标签对应一个以上属性标签。
15.根据权利要求11所述的系统,其特征在于,所述应用的相关性分数等于查询词的概念标签在应用中的分数与查询词的属性标签在应用中的分数的和值。
16.根据权利要求15所述的系统,其特征在于,所述查询词的概念标签在应用中的分数利用如下公式获得:
weight _ concept = Σ i = 0 c _ num q _ con _ wei _ i × tag _ base _ concept
其中,c_num为应用命中查询词中概念标签的个数,i表示应用命中查询词中第i个概念标签,q_con_wei_i为查询词中第i个概念标签的重要度,tag_base_concept为查询词中概念标签的总分数。
17.根据权利要求16所述的系统,其特征在于,当查询词解析得到标签中有概念标签且没有属性标签时,查询词中概念标签的总分数等于泛需求检索的总分数;当查询词解析得到的标签中有概念标签和属性标签时,查询词中概念标签的总分数等于泛需求检索的总分数与概念标签的调节因子的乘积;其他情况下,查询词中概念标签的总分数等于0。
18.根据权利要求15所述的系统,其特征在于,所述查询词的属性标签在应用中的分数利用如下公式获得:
weight _ attr = Σ i = 0 a _ num q _ attr _ wei _ i × tag _ base _ attr
其中,a_num为应用命中查询词中属性标签的个数,i表示应用命中查询词中第i个属性标签,q_attr_wei_i为查询词中第i个属性标签的重要度,tag_base_attr为查询词中属性标签的总分数。
19.根据权利要求18述的系统,其特征在于,当查询词解析得到标签中有属性标签且没有概念标签时,查询词中属性标签的总分数等于泛需求检索的总分数;当查询词解析得到的标签中有属性标签和概念标签时,查询词中属性标签的总分数等于泛需求检索的总分数与属性标签的调节因子的乘积;其他情况下,泛需求检索的总分数等于0。
20.根据权利要求16或18所述的系统,其特征在于,所述查询词中概念标签的重要度以及查询词中属性标签的重要度的值域范围是0~1。
CN201310056283.7A 2013-02-22 2013-02-22 一种应用的泛需求检索方法及系统 Active CN103150356B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310056283.7A CN103150356B (zh) 2013-02-22 2013-02-22 一种应用的泛需求检索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310056283.7A CN103150356B (zh) 2013-02-22 2013-02-22 一种应用的泛需求检索方法及系统

Publications (2)

Publication Number Publication Date
CN103150356A true CN103150356A (zh) 2013-06-12
CN103150356B CN103150356B (zh) 2019-05-28

Family

ID=48548433

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310056283.7A Active CN103150356B (zh) 2013-02-22 2013-02-22 一种应用的泛需求检索方法及系统

Country Status (1)

Country Link
CN (1) CN103150356B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103336848A (zh) * 2013-07-22 2013-10-02 五八同城信息技术有限公司 一种分类信息的排序方法
CN104866203A (zh) * 2015-06-23 2015-08-26 联想(北京)有限公司 一种应用处理方法、装置及电子设备
CN105550217A (zh) * 2015-12-03 2016-05-04 腾讯科技(深圳)有限公司 场景音乐搜索方法及场景音乐搜索装置
CN106095780A (zh) * 2016-05-26 2016-11-09 达而观信息科技(上海)有限公司 一种基于位置特征的检索方法
CN106709040A (zh) * 2016-12-29 2017-05-24 北京奇虎科技有限公司 一种应用搜索方法和服务器
CN107818092A (zh) * 2016-09-12 2018-03-20 百度在线网络技术(北京)有限公司 文档处理方法及装置
CN109753609A (zh) * 2018-08-29 2019-05-14 百度在线网络技术(北京)有限公司 一种多意图查询方法、装置以及终端
CN103150356B (zh) * 2013-02-22 2019-05-28 百度在线网络技术(北京)有限公司 一种应用的泛需求检索方法及系统
CN110046185A (zh) * 2019-04-12 2019-07-23 成都四方伟业软件股份有限公司 图表推送方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008027207A (ja) * 2006-07-21 2008-02-07 Gunma Univ 検索装置及び検索方法
CN101772766A (zh) * 2007-08-08 2010-07-07 Nhn株式会社 以用户为中心的信息搜索的方法和系统
CN102779151A (zh) * 2012-05-10 2012-11-14 北京奇虎科技有限公司 应用程序的搜索方法、装置及系统
CN102855286A (zh) * 2012-08-07 2013-01-02 东莞宇龙通信科技有限公司 移动终端以及在移动终端中查找应用程序的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103150356B (zh) * 2013-02-22 2019-05-28 百度在线网络技术(北京)有限公司 一种应用的泛需求检索方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008027207A (ja) * 2006-07-21 2008-02-07 Gunma Univ 検索装置及び検索方法
CN101772766A (zh) * 2007-08-08 2010-07-07 Nhn株式会社 以用户为中心的信息搜索的方法和系统
CN102779151A (zh) * 2012-05-10 2012-11-14 北京奇虎科技有限公司 应用程序的搜索方法、装置及系统
CN102855286A (zh) * 2012-08-07 2013-01-02 东莞宇龙通信科技有限公司 移动终端以及在移动终端中查找应用程序的方法

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103150356B (zh) * 2013-02-22 2019-05-28 百度在线网络技术(北京)有限公司 一种应用的泛需求检索方法及系统
CN103336848B (zh) * 2013-07-22 2016-09-28 五八同城信息技术有限公司 一种分类信息的排序方法
CN103336848A (zh) * 2013-07-22 2013-10-02 五八同城信息技术有限公司 一种分类信息的排序方法
CN104866203B (zh) * 2015-06-23 2018-07-06 联想(北京)有限公司 一种应用处理方法、装置及电子设备
CN104866203A (zh) * 2015-06-23 2015-08-26 联想(北京)有限公司 一种应用处理方法、装置及电子设备
CN105550217A (zh) * 2015-12-03 2016-05-04 腾讯科技(深圳)有限公司 场景音乐搜索方法及场景音乐搜索装置
CN105550217B (zh) * 2015-12-03 2021-05-07 腾讯科技(深圳)有限公司 场景音乐搜索方法及场景音乐搜索装置
CN106095780B (zh) * 2016-05-26 2019-12-03 达而观信息科技(上海)有限公司 一种基于位置特征的检索方法
CN106095780A (zh) * 2016-05-26 2016-11-09 达而观信息科技(上海)有限公司 一种基于位置特征的检索方法
CN107818092A (zh) * 2016-09-12 2018-03-20 百度在线网络技术(北京)有限公司 文档处理方法及装置
CN106709040A (zh) * 2016-12-29 2017-05-24 北京奇虎科技有限公司 一种应用搜索方法和服务器
CN106709040B (zh) * 2016-12-29 2021-02-19 北京奇虎科技有限公司 一种应用搜索方法和服务器
CN109753609A (zh) * 2018-08-29 2019-05-14 百度在线网络技术(北京)有限公司 一种多意图查询方法、装置以及终端
CN109753609B (zh) * 2018-08-29 2019-10-15 百度在线网络技术(北京)有限公司 一种多意图查询方法、装置以及终端
CN110046185A (zh) * 2019-04-12 2019-07-23 成都四方伟业软件股份有限公司 图表推送方法及装置

Also Published As

Publication number Publication date
CN103150356B (zh) 2019-05-28

Similar Documents

Publication Publication Date Title
CN103150356A (zh) 一种应用的泛需求检索方法及系统
CN105718586B (zh) 分词的方法及装置
CN104252533B (zh) 搜索方法和搜索装置
US8713024B2 (en) Efficient forward ranking in a search engine
US9304648B2 (en) Video segments for a video related to a task
CN109219811B (zh) 相关段落检索系统
CN102955848B (zh) 一种基于语义的三维模型检索系统和方法
CN103064956A (zh) 用于搜索电子内容的方法、计算系统和计算机可读介质
CN105718579A (zh) 一种基于上网日志挖掘和用户活动识别的信息推送方法
US20110145348A1 (en) Systems and methods for identifying terms relevant to web pages using social network messages
CN103984771B (zh) 一种英文微博中地理兴趣点抽取和感知其时间趋势的方法
CN103049435A (zh) 文本细粒度情感分析方法及装置
US20080016087A1 (en) Interactively crawling data records on web pages
CN103020293A (zh) 一种移动应用的本体库的构建方法及系统
CN102880723A (zh) 一种识别用户检索意图的搜索方法和系统
CN105488077A (zh) 生成内容标签的方法和装置
CN104991943A (zh) 音乐搜索方法及装置
CN101515287A (zh) 一种用于复杂页面的包装器自动生成方法
CN102693279A (zh) 一种快速计算评论相似度的方法、装置及系统
CN102262670A (zh) 一种基于移动可视设备的跨媒体信息检索系统及方法
CN101923556B (zh) 根据句子序列号进行网页搜索的方法和装置
CN112015907A (zh) 一种学科知识图谱快速构建方法、装置及存储介质
CN103294670A (zh) 一种基于词表的搜索方法和系统
CN103064907A (zh) 基于无监督的实体关系抽取的主题元搜索系统及方法
US9336311B1 (en) Determining the relevancy of entities

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant