CN103914552A - 应用检索方法和装置 - Google Patents

应用检索方法和装置 Download PDF

Info

Publication number
CN103914552A
CN103914552A CN201410148066.5A CN201410148066A CN103914552A CN 103914552 A CN103914552 A CN 103914552A CN 201410148066 A CN201410148066 A CN 201410148066A CN 103914552 A CN103914552 A CN 103914552A
Authority
CN
China
Prior art keywords
application
optimization
search
row table
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410148066.5A
Other languages
English (en)
Other versions
CN103914552B (zh
Inventor
邱鑫
洪庚伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201410148066.5A priority Critical patent/CN103914552B/zh
Publication of CN103914552A publication Critical patent/CN103914552A/zh
Application granted granted Critical
Publication of CN103914552B publication Critical patent/CN103914552B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种应用检索方法和装置,其中,应用检索方法包括:接收用户输入的搜索词;在预先优化的检索库中,检索与所述搜索词匹配的应用,其中,所述检索库中包括至少一个应用和所述应用对应的优化后的正排表,每个所述优化后的正排表中包括对应应用的当前特征和历史特征;向所述用户展现与所述搜索词匹配的应用。本发明实施例的应用检索方法,通过获得当前特征,并根据当前特征对相关的应用进行归一化处理,使相关的应用的正排表加入了更多的特征,并以此优化了相关的应用的相关度,使得用户在搜索应用时,能够获得更合理的搜索结果,提升了用户体验。

Description

应用检索方法和装置
技术领域
本发明涉及搜索技术领域,特别涉及一种应用检索方法和装置。
背景技术
随着科技的不断进步,各式各样的移动应用层出不穷,为用户提供了丰富的信息资源。目前,搜索移动应用可通过进入搜索引擎网站,输入关键词对移动应用进行搜索;也可以通过安装第三方软件如:手机助手等,在手机助手中对移动应用进行搜索。
随着技术的不断更新,移动应用也在更新,相应的应用资源描述会发生变化,例如,应用改名,大量更换简介等。在实现本发明过程中,发明人发现现有技术中至少存在如下问题:当用户不知道应用资源描述发生变化,依然采用原来的搜索词进行搜索时,检索相关性相对于之前会急剧下降。
发明内容
本发明旨在至少在一定程度上解决上述技术问题。
为此,本发明的第一个目的在于提出一种应用检索方法,该方法通过获得应用的历史特征,并根据当前特征对相关的应用进行归一化处理,能够优化相关的应用的相关度,使得用户在搜索应用时获得更合理的搜索结果,提升用户体验。
为达上述目的,根据本发明第一方面实施例提出了一种应用检索方法,包括:接收用户输入的搜索词;在预先优化的检索库中,检索与所述搜索词匹配的应用,其中,所述检索库中包括至少一个应用和所述应用对应的优化后的正排表,每个所述优化后的正排表中包括对应应用的当前特征和历史特征;向所述用户展现与所述搜索词匹配的应用。
本发明实施例的应用检索方法,本发明实施例的应用检索方法,通过在每个应用的正排表中添加应用的历史特征,将应用的当前特征和历史特征继承在同一个特征集内,从而保证在用户采用之前版本的信息进行检索时,依然可以查找到相关的应用,提高了检索相关性,提升了用户体验。
本发明第二方面实施例提出了一种应用检索装置,包括:获得模块,用于获得当前特征;处理模块,用于将所述当前特征与正排表进行匹配,根据匹配结果确定所述当前特征的属性,根据所述属性对与所述当前特征相关的应用进行不同的归一化处理;以及排序模块,用于根据归一化处理结果对所述应用进行排序,以便根据排序后的结果进行检索。
本发明实施例的应用检索装置,通过在每个应用的正排表中添加应用的历史特征,将应用的当前特征和历史特征继承在同一个特征集内,从而保证在用户采用之前版本的信息进行检索时,依然可以查找到相关的应用,提高了检索相关性,提升了用户体验。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明一个实施例的应用检索方法的流程图;
图2为根据本发明另一个实施例的应用检索方法的流程图;
图3为根据本发明一个实施例的优化检索库的流程图;
图4为根据本发明一个实施例的应用检索装置的结构示意图;
图5为根据本发明另一个实施例的应用检索装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述根据本发明实施例的应用检索方法和装置。
为了使用户在搜索应用时,即使不知道应用版本更新,可能获得合理的搜索结果。为此,本发明的实施例提出一种应用检索方法。
图1为根据本发明一个实施例的应用检索方法的流程图。如图1所示,该应用检索方法包括:
S101,接收用户输入的搜索词。
具体地,用户可通过在电脑、移动电子设备等终端设备的应用搜索引擎或其他具备应用搜索功能的软件中输入感兴趣的搜索词,以获取想要搜索的应用。
S102,在预先优化的检索库中,检索与搜索词匹配的应用,其中,检索库中包括至少一个应用和应用对应的优化后的正排表,每个优化后的正排表中包括对应应用的当前特征和历史特征。
其中,当前特征是指该应用的最新版本对应的特征词,如名称、描述信息、使用说明等;历史特征是指该应用的历史版本对应的特征词,包括使用过的所有名称、描述信息、使用说明和更新日志中的一种或多种。正排表是描述一篇文本分词后统计信息的索引表格。正排表也称为正排索引或前向索引。具体由以下字段组成:(1)docId:一个文档的局部编号。(2)wordId:表示文档分词后的编号,也可称为"索引词编号"。(3)nHits:表示某个索引词在文档中出现的次数。(4)offset:表示某个索引词在文档中出现的位置,即相对于正文的偏移量。
需要注意的是,在本实施例中,特征词(当前特征和历史特征统称为特征词)对应为正排表定义中的索引词。
本发明中的正排表是相关的应用的特征集,可以用于保存应用的特征。具体地,在优化检索库的过程中,可对每个应用对应的正排表进行优化,将应用的历史特征添加到优化前的正排表中,得到优化后的正排表,使得优化后的正排表中包含对应应用的当前特征和历史特征。然后,在接收到用户输入的搜索词后,将搜索词与优化后的正排表中的特征词进行匹配,以搜索相关的应用。
S103,向用户展现与搜索词匹配的应用。
具体地,当搜索词匹配到具有相关特征词的正排表后,可向用户展现与该正排表对应的应用。在本发明的一个实施例中,还可根据预设规则对匹配到的应用进行排序,然后将排序的结果显示给用户。
本发明实施例的应用检索方法,通过在每个应用的正排表中添加应用的历史特征,将应用的当前特征和历史特征继承在同一个特征集内,从而保证在用户采用之前版本的信息进行检索时,依然可以查找到相关的应用,提高了检索相关性,提升了用户体验。
图2为根据本发明另一个实施例的应用检索方法的流程图。如图2所示,该应用检索方法包括:
S201,优化检索库。
在本发明的一个实施例中,在进行检索之前,需要对检索库进行优化,以获得更佳的搜索关联性。具体地,如图3所示,优化检索库包括:
S2011,对应每个应用,获取应用的历史特征。
其中,应用的历史特征包括应用使用过的所有名称、描述信息、使用说明和更新日志中的一种或多种。例如,应用“当乐游戏中心”的新版本更名为“地瓜游戏中心”,其中,“当乐”即为应用“地瓜游戏中心”的历史特征。
S2012,在应用的优化前的正排表中查找该历史特征,若未查找到,则执行S2013,若查找到,则执行S2014。
在本发明的实施例中,正排表是相关的应用的特征集,即正排表可以用于保存应用的特征。在对检索库进行优化之前、建立检索库时,可为每个应用建立对应的正排表。其中,常规的,在优化前的检索库中,优化前的正排表包括对应应用的当前版本的特征词,即当前特征。
具体地,对应每个应用,在应用的优化前的正排表中查找该历史特征,若优化前的正排表中不存在与该历史特征相同的特征词,则执行S2013,若优化前的正排表中已经存在与该历史特征相同的特征词,则执行S2014。
S2013,将历史特征添加到优化前的正排表中,并进行归一化处理,得到优化后的正排表。
具体地,将历史特征添加到优化前的正排表中后,对添加历史特征后的正排表中的特征词进行归一化处理,首先,计算该历史特征的词频和反文档频率,然后根据正排表中的当前特征和历史特征的词频和反文档频率分别获取正排表中的当前特征和历史特征对应用的重要度权重。
具体地,可通过公式(1)获得每个特征词的词频:
TF=M/N     公式(1)
其中,TF表示词频,M表示通过该特征词搜索到对应应用的次数,N表示对应应用的特征词总数。
再通过公式(2)获得每个特征词的反文档频率:
IDF=log(I/N)     公式(2)
其中,IDF表示反文档频率,I表示通过该特征词搜索到的应用的总数,N表示对应应用的特征词总数。
然后可根据公式(3)获得每个特征词对于对应应用的重要度权重:
α=TF*IDF      公式(3)
其中,α表示该特征词对于对应应用的重要度权重,TF表示词频,IDF表示反文档频率。
在本发明的实施例中,特征词对于对应应用的重要度权重α也可以通过正排表中的偏移量(offset)来获取,具体不在此赘述。
S2014,将优化前的正排表确定为优化后的正排表。
在本发明的实施例中,若优化前的正排表中已经存在与该历史特征相同的特征词,说明获取到的历史特征与最新版本的应用的特征词相同,可将优化前的正排表确定为优化后的正排表。
S202,接收用户输入的搜索词。
具体地,用户可通过在电脑、移动电子设备等终端设备的应用搜索引擎或其他具备应用搜索功能的软件中输入感兴趣的搜索词,以获取想要搜索的应用。
S203,将搜索词与优化后的正排表进行匹配,将与搜索词匹配的优化后的正排表对应的应用确定为搜索词匹配的应用。
具体地,可将搜索词与优化后的正排表中的特征词进行匹配,若优化后的正排表中的存在与搜索词相匹配的特征词,则将该正排表对应的应用确定为搜索词匹配的应用。例如,搜索词为“当乐游戏”,某优化后的正排表中含有“当乐”“游戏”或“当乐游戏”,则确定该优化后的正排表对应的应用与当前搜索词相匹配。
S204,根据与搜索词的相关度对应用进行排序,并将排序结果展现给用户。
在本发明的实施例中,当搜索词匹配到多个应用对应的优化后的正排表时,可根据在每个优化后的正排表中匹配到的特征词计算该优化后的正排表对应的应用与搜索词的相关度,根据相关度对应用进行排序,并将排序结果展现给用户。
具体地,可根据公式(4)获得搜索词与对应应用的相关度:
β=TF1*IDF1+TF2*IDF2+……TFn*IDFn   公式(4)
其中,α=TF*IDF表示特征词对于对应应用的重要度权重;n为该优化后的正排表中与搜索词匹配的特征词个数。
举例来说,假设搜索词与某优化后的正排表中的n个特征词相匹配,则该应用与当前搜索词的相关度β=TF1*IDF1+TF2*IDF2+……TFn*IDFn
以上公式仅为示例,还可根据其他公式对相关度进行计算,在此并不做限定。
本发明实施例的应用检索方法,通过在每个应用的正排表中添加应用的历史特征,并进行归一化处理,从而保证在用户采用历史版本的特征词进行检索时,依然可以查找到相关的应用,提高了检索相关性,还能根据优化后的正排表获取对应应用与搜索词的相关度,并按照相关度对搜索结果进行排序,使得用户在搜索应用时,能够获得更合理的搜索结果,提升了用户体验。
为了实现上述实施例,本发明还提出一种应用检索装置。
图4为根据本发明一个实施例的应用检索装置的结构示意图。如图4所示,该应用检索装置包括:接收模块100、检索模块200和展现模块300。
具体地,接收模块100用于接收用户输入的搜索词。更具体地,用户可通过在电脑、移动电子设备等终端设备的应用搜索引擎或其他具备应用搜索功能的软件中输入感兴趣的搜索词,以获取想要搜索的应用。
检索模块200用于在预先优化的检索库中,检索与搜索词匹配的应用,其中,检索库中包括至少一个应用和应用对应的优化后的正排表,每个优化后的正排表中包括对应应用的当前特征和历史特征。其中,当前特征是指该应用最新版本对应的特征词,如名称、描述信息、使用说明等;历史特征是指该应用的历史版本对应的特征词,包括使用过的所有名称、描述信息、使用说明和更新日志中的一种或多种。正排表是描述一篇文本分词后统计信息的索引表格。正排表也称为正排索引或前向索引。具体由以下字段组成:(1)docId:一个文档的局部编号。(2)wordId:表示文档分词后的编号,也可称为"索引词编号"。(3)nHits:表示某个索引词在文档中出现的次数。(4)offset:表示某个索引词在文档中出现的位置,即相对于正文的偏移量。需要注意的是,在本实施例中,特征词(当前特征和历史特征统称为特征词)对应为正排表定义中的索引词。
本发明中的正排表是相关的应用的特征集,可以用于保存应用的特征。更具体地,在优化检索库的过程中,可对每个应用对应的正排表进行优化,将应用的历史特征添加到优化前的正排表中,得到优化后的正排表,使得优化后的正排表中包含对应应用的当前特征和历史特征。然后,在接收到用户输入的搜索词后,检索模块200将搜索词与优化后的正排表中的特征词进行匹配,以搜索相关的应用。
展现模块300用于向用户展现与搜索词匹配的应用。更具体地,当搜索词匹配到具有相关特征词的正排表后,展现模块300可向用户展现与该正排表对应的应用。在本发明的一个实施例中,还可根据月设规则对匹配到的应用进行排序,然后将排序的结果显示给用户。
本发明实施例的应用检索装置,通过在每个应用的正排表中添加应用的历史特征,将应用的当前特征和历史特征继承在同一个特征集内,从而保证在用户采用之前版本的信息进行检索时,依然可以查找到相关的应用,提高了检索相关性,提升了用户体验。
图5为根据本发明另一个实施例的应用检索装置的结构示意图。如图5所示,该应用检索装置包括:接收模块100、检索模块200、展现模块300、优化模块400、获取子模块410、查找子模块420和优化子模块430。其中,优化模块400包括获取子模块410、查找子模块420和优化子模块430。
具体地,优化模块400用于在进行检索之前,优化检索库,以获得更佳的搜索关联性。优化模块400具体包括:
获取子模块410用于对应每个应用,获取应用的历史特征。其中,应用的历史特征包括应用使用过的所有名称、描述信息、使用说明和更新日志中的一种或多种。例如,应用“当乐游戏中心”的新版本更名为“地瓜游戏中心”,其中,“当乐”即为应用“地瓜游戏中心”的历史特征。
查找子模块420用于在应用的优化前的正排表中查找该历史特征。在本发明的实施例中,正排表是相关的应用的特征集,即正排表可以用于保存应用的特征。在对检索库进行优化之前、建立检索库时,可为每个应用建立对应的正排表。其中,常规的,在优化前的检索库中,优化前的正排表包括对应应用的当前版本的特征词,即当前特征。
优化子模块430用于当优化前的正排表中不存在该历史特征时,将历史特征添加到优化前的正排表中,并进行归一化处理,得到优化后的正排表,以及用于当优化前的正排表中存在历史特征时,将优化前的正排表确定为优化后的正排表。
当优化前的正排表中不存在该历史特征时,优化子模块430还用于计算历史特征的词频和反文档频率,以及根据正排表中的当前特征和历史特征的词频和反文档频率分别获取正排表中的当前特征和历史特征对应用的重要度权重。
在本发明的一个实施例中,将历史特征添加到优化前的正排表中后,对添加历史特征后的正排表中的特征词进行归一化处理,首先,计算该历史特征的词频和反文档频率,然后根据正排表中的当前特征和历史特征的词频和反文档频率分别获取正排表中的当前特征和历史特征对应用的重要度权重。
更具体地,可通过公式(1)获得每个特征词的词频:
TF=M/N     公式(1)
其中,TF表示词频,M表示通过该特征词搜索到对应应用的次数,N表示对应应用的特征词总数。
再通过公式(2)获得每个特征词的反文档频率:
IDF=log(I/N)    公式(2)
其中,IDF表示反文档频率,I表示通过该特征词搜索到的应用的总数,N表示对应应用的特征词总数。
然后可根据公式(3)获得每个特征词对于对应应用的重要度权重:
α=TF*IDF    公式(3)
其中,α表示该特征词对于对应应用的重要度权重,TF表示词频,IDF表示反文档频率。
在本发明的实施例中,特征词对于对应应用的重要度权重α也可以通过正排表中的偏移量(offset)来获取,具体不在此赘述。
检索模块200还用于将搜索词与优化后的正排表进行匹配,将与搜索词匹配的优化后的正排表对应的应用确定为搜索词匹配的应用。更具体地,检索模块200可将搜索词与优化后的正排表中的特征词进行匹配,若优化后的正排表中的存在与搜索词相匹配的特征词,则将该正排表对应的应用确定为搜索词匹配的应用。例如,搜索词为“当乐游戏”,某优化后的正排表中含有“当乐”“游戏”或“当乐游戏”,则确定该优化后的正排表对应的应用与当前搜索词相匹配。
展现模块300还用于根据与搜索词的相关度对应用进行排序,并将排序结果展现给用户。在本发明的实施例中,当搜索词匹配到多个应用对应的优化后的正排表时,展现模块300可根据在每个优化后的正排表中匹配到的特征词计算该优化后的正排表对应的应用与搜索词的相关度,根据相关度对应用进行排序,并将排序结果展现给用户。
更具体地,可根据公式(4)获得搜索词与对应应用的相关度:
β=TF1*IDF1+TF2*IDF2+……TFn*IDFn   公式(4)
其中,α=TF*IDF表示特征词对于对应应用的重要度权重;n为该优化后的正排表中与搜索词匹配的特征词个数。
举例来说,假设搜索词与某优化后的正排表中的n个特征词相匹配,则该应用与当前搜索词的相关度β=TF1*IDF1+TF2*IDF2+……TFn*IDFn
以上公式仅为示例,还可根据其他公式对相关度进行计算,在此并不做限定。
本发明实施例的应用检索装置,通过在每个应用的正排表中添加应用的历史特征,并进行归一化处理,从而保证在用户采用历史版本的特征词进行检索时,依然可以查找到相关的应用,提高了检索相关性,还能根据优化后的正排表获取对应应用与搜索词的相关度,并按照相关度对搜索结果进行排序,使得用户在搜索应用时,能够获得更合理的搜索结果,提升了用户体验。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同限定。

Claims (12)

1.一种应用检索方法,其特征在于,包括:
接收用户输入的搜索词;
在预先优化的检索库中,检索与所述搜索词匹配的应用,其中,所述检索库中包括至少一个应用和所述应用对应的优化后的正排表,每个所述优化后的正排表中包括对应应用的当前特征和历史特征;
向所述用户展现与所述搜索词匹配的应用。
2.如权利要求1所述的方法,其特征在于,还包括:优化检索库,所述优化检索库,包括:
对应每个应用,获取所述应用的历史特征;
在所述应用的优化前的正排表中查找所述历史特征;
当所述优化前的正排表中不存在所述历史特征时,将所述历史特征添加到所述优化前的正排表中,并进行归一化处理,得到所述优化后的正排表;
当所述优化前的正排表中存在所述历史特征时,将所述优化前的正排表确定为所述优化后的正排表。
3.如权利要求2所述的方法,其特征在于,所述进行归一化处理包括:
计算所述历史特征的词频和反文档频率;
根据所述正排表中的当前特征和所述历史特征的所述词频和反文档频率分别获取所述正排表中的当前特征和所述历史特征对所述应用的重要度权重。
4.如权利要求1所述的方法,其特征在于,所述应用的历史特征包括所述应用使用过的所有名称、描述信息、使用说明和更新日志中的一种或多种。
5.如权利要求1所述的方法,其特征在于,所述检索与所述搜索词匹配的应用,具体包括:
将所述搜索词与所述优化后的正排表进行匹配,将与搜索词匹配的优化后的正排表对应的应用确定为所述搜索词匹配的应用。
6.如权利要求1所述的方法,其特征在于,所述向所述用户展现与所述搜索词匹配的应用具体包括:
根据与所述搜索词的相关度对所述应用进行排序,并将排序结果展现给用户。
7.一种应用检索装置,其特征在于,包括:
接收模块,用于接收用户输入的搜索词;
检索模块,用于在预先优化的检索库中,检索与所述搜索词匹配的应用,其中,所述检索库中包括至少一个应用和所述应用对应的优化后的正排表,每个所述优化后的正排表中包括对应应用的当前特征和历史特征;
展现模块,用于向所述用户展现与所述搜索词匹配的应用。
8.如权利要求7所述的装置,其特征在于,还包括:
优化模块,用于优化检索库,所述优化模块具体包括:
获取子模块,用于对应每个应用,获取所述应用的历史特征;
查找子模块,用于在所述应用的优化前的正排表中查找所述历史特征;
优化子模块,用于当所述优化前的正排表中不存在所述历史特征时,将所述历史特征添加到所述优化前的正排表中,并进行归一化处理,得到所述优化后的正排表,以及用于当所述优化前的正排表中存在所述历史特征时,将所述优化前的正排表确定为所述优化后的正排表。
9.如权利要求8所述的装置,其特征在于,所述优化子模块还用于计算所述历史特征的词频和反文档频率,以及根据所述正排表中的当前特征和所述历史特征的所述词频和反文档频率分别获取所述正排表中的当前特征和所述历史特征对所述应用的重要度权重。
10.如权利要求7所述的装置,其特征在于,所述应用的历史特征包括所述应用使用过的所有名称、描述信息、使用说明和更新日志中的一种或多种。
11.如权利要求7所述的装置,其特征在于,所述检索模块还用于将所述搜索词与所述优化后的正排表进行匹配,将与搜索词匹配的优化后的正排表对应的应用确定为所述搜索词匹配的应用。
12.如权利要求7所述的装置,其特征在于,所述展现模块还用于根据与所述搜索词的相关度对所述应用进行排序,并将排序结果展现给用户。
CN201410148066.5A 2014-04-14 2014-04-14 应用检索方法和装置 Active CN103914552B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410148066.5A CN103914552B (zh) 2014-04-14 2014-04-14 应用检索方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410148066.5A CN103914552B (zh) 2014-04-14 2014-04-14 应用检索方法和装置

Publications (2)

Publication Number Publication Date
CN103914552A true CN103914552A (zh) 2014-07-09
CN103914552B CN103914552B (zh) 2017-06-20

Family

ID=51040232

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410148066.5A Active CN103914552B (zh) 2014-04-14 2014-04-14 应用检索方法和装置

Country Status (1)

Country Link
CN (1) CN103914552B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104573015A (zh) * 2015-01-12 2015-04-29 百度在线网络技术(北京)有限公司 信息检索方法和装置
CN105631627A (zh) * 2015-12-23 2016-06-01 拉扎斯网络科技(上海)有限公司 一种订单地址匹配方法及装置
CN106777254A (zh) * 2016-12-27 2017-05-31 努比亚技术有限公司 一种应用检索方法和装置
CN106919575A (zh) * 2015-12-24 2017-07-04 北京奇虎科技有限公司 应用程序搜索方法及装置
CN106919588A (zh) * 2015-12-24 2017-07-04 北京奇虎科技有限公司 一种应用程序搜索系统及方法
CN107818105A (zh) * 2016-09-13 2018-03-20 腾讯科技(深圳)有限公司 应用程序的推荐方法及服务器
CN108733707A (zh) * 2017-04-20 2018-11-02 腾讯科技(深圳)有限公司 一种确定搜索功能稳定性及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120054216A1 (en) * 2003-09-05 2012-03-01 Google Inc. System and method for providing search query refinements
CN102436446A (zh) * 2010-09-29 2012-05-02 北京思在信息技术有限责任公司 一种更新摘要结构的方法及装置
US20120323877A1 (en) * 2011-06-17 2012-12-20 Microsoft Corporation Enriched Search Features Based In Part On Discovering People-Centric Search Intent
CN103258025A (zh) * 2013-05-08 2013-08-21 百度在线网络技术(北京)有限公司 生成共现关键词的方法、提供关联搜索词的方法以及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120054216A1 (en) * 2003-09-05 2012-03-01 Google Inc. System and method for providing search query refinements
CN102436446A (zh) * 2010-09-29 2012-05-02 北京思在信息技术有限责任公司 一种更新摘要结构的方法及装置
US20120323877A1 (en) * 2011-06-17 2012-12-20 Microsoft Corporation Enriched Search Features Based In Part On Discovering People-Centric Search Intent
CN103258025A (zh) * 2013-05-08 2013-08-21 百度在线网络技术(北京)有限公司 生成共现关键词的方法、提供关联搜索词的方法以及系统

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104573015A (zh) * 2015-01-12 2015-04-29 百度在线网络技术(北京)有限公司 信息检索方法和装置
CN104573015B (zh) * 2015-01-12 2018-06-05 百度在线网络技术(北京)有限公司 信息检索方法和装置
CN105631627A (zh) * 2015-12-23 2016-06-01 拉扎斯网络科技(上海)有限公司 一种订单地址匹配方法及装置
CN106919575A (zh) * 2015-12-24 2017-07-04 北京奇虎科技有限公司 应用程序搜索方法及装置
CN106919588A (zh) * 2015-12-24 2017-07-04 北京奇虎科技有限公司 一种应用程序搜索系统及方法
CN106919575B (zh) * 2015-12-24 2020-12-25 北京奇虎科技有限公司 应用程序搜索方法及装置
CN107818105A (zh) * 2016-09-13 2018-03-20 腾讯科技(深圳)有限公司 应用程序的推荐方法及服务器
CN106777254A (zh) * 2016-12-27 2017-05-31 努比亚技术有限公司 一种应用检索方法和装置
CN108733707A (zh) * 2017-04-20 2018-11-02 腾讯科技(深圳)有限公司 一种确定搜索功能稳定性及装置
CN108733707B (zh) * 2017-04-20 2022-10-04 腾讯科技(深圳)有限公司 一种确定搜索功能稳定性的方法及装置

Also Published As

Publication number Publication date
CN103914552B (zh) 2017-06-20

Similar Documents

Publication Publication Date Title
CN103914552A (zh) 应用检索方法和装置
CN100507915C (zh) 网络搜索方法、网络搜索设备和用户终端
US9424351B2 (en) Hybrid-distribution model for search engine indexes
CN112988969B (zh) 用于文本检索的方法、装置、设备以及存储介质
CN110134760A (zh) 一种搜索方法、装置、设备及介质
US8301437B2 (en) Tokenization platform
CN109299383B (zh) 生成推荐词的方法、装置、电子设备及存储介质
CN103500235A (zh) 一种多媒体文件推荐方法及装置
CN103902697A (zh) 组合搜索方法、客户端和服务器
US9529908B2 (en) Tiering of posting lists in search engine index
US9672254B2 (en) Creating new documents based on global intent and local context
CN108804642A (zh) 检索方法、装置、计算机设备及存储介质
CN101853272A (zh) 基于相关反馈和聚类的搜索引擎技术
CN103995880A (zh) 交互式搜索方法和装置
CN107526746B (zh) 管理文档索引的方法和设备
CN107357830B (zh) 基于人工智能的检索语句语义片段获取方法、装置及终端
CN105302807B (zh) 一种获取信息类别的方法和装置
CN103914533A (zh) 推广搜索结果的展现方法和装置
CN112115232A (zh) 一种数据纠错方法、装置及服务器
CN105117383A (zh) 一种提供搜索结果的方法与装置
CN103914569A (zh) 输入提示方法、装置及字典树模型的创建方法、装置
CN111488510B (zh) 小程序相关词的确定方法、装置、处理设备及搜索系统
CN111859079B (zh) 信息搜索方法、装置、计算机设备及存储介质
CN103886039A (zh) 应用检索的优化方法和装置
US10733218B2 (en) System, method, and program for aggregating data

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant