CN106294784B - 资源搜索方法及装置 - Google Patents

资源搜索方法及装置 Download PDF

Info

Publication number
CN106294784B
CN106294784B CN201610665732.1A CN201610665732A CN106294784B CN 106294784 B CN106294784 B CN 106294784B CN 201610665732 A CN201610665732 A CN 201610665732A CN 106294784 B CN106294784 B CN 106294784B
Authority
CN
China
Prior art keywords
keyword
resource
keywords
target
generic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610665732.1A
Other languages
English (en)
Other versions
CN106294784A (zh
Inventor
成双全
王恒
秦明
刘云剑
尹玉宗
姚键
潘柏宇
王冀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taobao China Software Co Ltd
Original Assignee
Unified Intelligent Technology (shenzhen) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unified Intelligent Technology (shenzhen) Co Ltd filed Critical Unified Intelligent Technology (shenzhen) Co Ltd
Priority to CN201610665732.1A priority Critical patent/CN106294784B/zh
Publication of CN106294784A publication Critical patent/CN106294784A/zh
Application granted granted Critical
Publication of CN106294784B publication Critical patent/CN106294784B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种资源搜索方法及装置。所述资源搜索方法,包括:接收用户针对目标关键词发起的搜索请求;获取所述目标关键词对应的各相关关键词;根据所述目标关键词和各所述相关关键词,分别从资源索引库中获取对应的资源。本发明实施例的资源搜索方法,可以提高泛关键词的匹配度,满足用户对泛关键词搜索的深层需求。

Description

资源搜索方法及装置
技术领域
本发明涉及互联网领域,尤其涉及一种资源搜索方法及装置。
背景技术
泛关键词可以包括各种类型的搜索量很大,模板很不准的词语。泛关键词通常可以代表一个行业或者一个事物,例如金融,服装、儿歌、相声等。现有技术中,对泛关键词的搜索查询通常采用直接命中的方式,即根据时效性、热度等因子,对名称中包括泛关键词的搜索结果进行排序后展现给用户,无法获取泛关键词的深层含义。
例如,用户搜索相声,首先获取视频名称中包括“相声”的视频,并根据时效性、热度等因子对上述视频进行排序后,选取排序靠前的视频返回给用户。但是,用户搜索相声,大部分的情况下可能是在搜索郭德纲或者岳云鹏的相声,在春节的时候可能是在搜索春晚的相声。如果这部分视频里面没有包括“相声”这个词,则无法命中本来属于相声的结果。
发明内容
技术问题
有鉴于此,本发明要解决的技术问题是,提供一种资源搜索方法,以提高泛关键词的匹配度,满足用户对泛关键词搜索的深层需求。
解决方案
为了解决上述技术问题,根据本发明的一实施例,提供了一种资源搜索方法,包括:
接收用户针对目标关键词发起的搜索请求;
获取所述目标关键词对应的各相关关键词;
根据所述目标关键词和各所述相关关键词,分别从资源索引库中获取对应的资源。
对于上述方法,在一种可能的实现方式中,获取所述目标关键词对应的各相关关键词,包括:
获取已经建立的与所述目标关键词相关的同义词树;
根据所述目标关键词在所述同义词树中的节点位置,获取所述目标关键词对应的相关关键词;
其中,所述同义词树包括作为根节点的泛关键词和作为子节点的与泛关键词相关的关键词。
对于上述方法,在一种可能的实现方式中,在获取已经建立的与所述目标关键词相关的同义词树之前,还包括:
以所述泛关键词作为根节点,以与所述泛关键词相关的各所述关键词作为子节点,建立所述同义词树。
对于上述方法,在一种可能的实现方式中,以所述泛关键词作为根节点,以与所述泛关键词相关的各所述关键词作为子节点,建立所述同义词树,包括:
获取与所述泛关键词相关的各第一关键词;
根据所述泛关键词与各所述第一关键词的相关性,对各所述第一关键词进行排序,并根据排序结果从各所述第一关键词中选取用于建立所述同义词树的各第二关键词;
以所述泛关键词作为根节点,以各所述第二关键词作为子节点,建立包括多个层级的所述同义词树;
其中,处于所述同义词树的同一层级的节点的词义不具有相关性。
对于上述方法,在一种可能的实现方式中,根据所述目标关键词和各所述相关关键词,分别从资源索引库中获取对应的资源,包括:
分别从已有的资源索引库中获取所述目标关键词和各所述相关关键词对应的各第一资源;
根据第一评分模型,对各所述第一资源进行评分,并根据各所述第一资源的第一评分,从各所述第一资源中选取各第二资源。
对于上述方法,在一种可能的实现方式中,还包括:
对各所述第二资源进行标识提取;
根据第二评分模型,对具有不同标识的各所述第二资源进行评分,并根据各所述第二资源的第一评分和第二评分,从各所述第二资源中选取各第三资源。
为了解决上述技术问题,根据本发明的另一实施例,提供了一种资源搜索装置,包括:
搜索请求接收模块,用于接收用户针对目标关键词发起的搜索请求;
关键词获取模块,与所述搜索请求接收模块连接,用于获取与所述目标关键词对应的各相关关键词;
资源获取模块,与所述关键词获取模块连接,用于根据所述目标关键词和各所述相关关键词,分别从资源索引库中获取对应的资源。
对于上述装置,在一种可能的实现方式中,所述关键词获取模块包括:
同义词树获取单元,用于获取已经建立的与所述目标关键词相关的同义词树;
相关关键词获取单元,与所述同义词树获取单元连接,用于根据所述目标关键词在所述同义词树中的节点位置,获取所述目标关键词对应的相关关键词;
其中,所述同义词树包括作为根节点的泛关键词和作为子节点的与泛关键词相关的关键词。
对于上述装置,在一种可能的实现方式中,还包括:
同义词树建立模块,用于以所述泛关键词作为根节点,以与所述泛关键词相关的各所述关键词作为子节点,建立所述同义词树。
对于上述装置,在一种可能的实现方式中,所述同义词树建立模块包括:
第一获取单元,用于获取与所述泛关键词相关的各第一关键词;
第一选取单元,与所述第一获取单元连接,用于根据所述泛关键词与各所述第一关键词的相关性,对各所述第一关键词进行排序,并根据排序结果从各所述第一关键词中选取用于建立所述同义词树的各第二关键词;
同义词树建立单元,与所述第一选取单元连接,用于以所述泛关键词作为根节点,以各所述第二关键词作为子节点,建立包括多个层级的所述同义词树;
其中,处于所述同义词树的同一层级的节点的词义不具有相关性。
对于上述装置,在一种可能的实现方式中,所述资源获取模块包括:
第二获取单元,用于分别从已有的资源索引库中获取所述目标关键词和各所述相关关键词对应的各第一资源;
第二选取单元,与所述第二获取单元连接,用于根据第一评分模型,对各所述第一资源进行评分,并根据各所述第一资源的第一评分,从各所述第一资源中选取各第二资源。
对于上述装置,在一种可能的实现方式中,所述资源获取模块还包括:
第三选取单元,与所述第二选取单元连接,具体用于对各所述第二资源进行标识提取;根据第二评分模型,对具有不同标识的各所述第二资源进行评分,并根据各所述第二资源的第一评分和第二评分,从各所述第二资源中选取各第三资源。
有益效果
本发明实施例的资源搜索方法,通过获取目标关键词对应的各相关关键词,并根据目标关键词和各相关关键词,分别从资源索引库中获取对应的资源,可以提高泛关键词的匹配度,满足用户对泛关键词搜索的深层需求。
进一步地,本发明实施例的资源搜索方法,以泛关键词作为根节点,以与泛关键词相关的关键词作为子节点,建立同义词树。通过目标关键词在同义词树中的节点位置,可以直接获取目标关键词对应的相关关键词,提高检索速度。
根据下面参考附图对示例性实施例的详细说明,本发明的其它特征及方面将变得清楚。
附图说明
包括在说明书中并且构成说明书的一部分的附图与说明书一起示出了本发明的示例性实施例、特征和方面,并且用于解释本发明的原理。
图1示出根据本发明一实施例的资源搜索方法的流程图;
图2示出根据本发明一实施例的资源搜索方法的另一流程图;
图3示出根据本发明一实施例的资源搜索方法的另一流程图;
图4示出根据本发明一实施例的资源搜索方法的另一流程图;
图5示出根据本发明另一实施例的资源搜索装置的结构框图;
图6示出根据本发明另一实施例的资源搜索装置的另一结构框图;
图7示出根据本发明另一实施例的资源搜索装置的另一结构框图;
图8示出根据本发明另一实施例的资源搜索设备的结构框图。
具体实施方式
以下将参考附图详细说明本发明的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
另外,为了更好的说明本发明,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本发明同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本发明的主旨。
实施例1
图1示出根据本发明一实施例的资源搜索方法的流程图。如图1所示,所述资源搜索方法,主要包括:
步骤101、接收用户针对目标关键词发起的搜索请求;
步骤102、获取所述目标关键词对应的各相关关键词;
步骤103、根据所述目标关键词和各所述相关关键词,分别从资源索引库中获取对应的资源。
目标关键词可以是用户在搜索栏中输入的用于检索相关资源的关键词,相关关键词可以包括各种类型的与目标关键词相关的关键词,本发明实施例不限定目标关键词和相关关键词的具体类型。根据目标关键词和其对应的各相关关键词,可以分别从资源索引库中获取其对应的资源,并将所获取的资源通过例如列表、表格等形式呈现给用户。其中,资源可以包括各种类型的多媒体资源,例如文本、声音、视频和图像等,对此不作限定。
进一步地,相关关键词可以是在进行细分词或粗分词后包括目标关键词的关键词,也可以是与目标关键词表面词义上没有联系,但是深层含义具有相关性的关键词,对此不作限定。例如,搜索目标关键词“相声”,可以得到“相声”的相关关键词“春晚相声”、“郭德纲”等。其中,“春晚相声”进行细分词后(例如分为春晚、相声)包括“相声”,“郭德纲”与“相声”表面词义上没有联系,但是深层含义具有相关性。
本发明实施例的资源搜索方法可以适用于单一多媒体资源的搜索,例如,在视频网站中搜索与目标关键词相关的视频;也可以适用于混合多媒体资源的搜索,例如,在搜索网站中搜索与目标关键词相关的各种多媒体资源。举例而言,可以在视频网站例如优酷网站上搜索目标关键词“相声”,从而获取与相声相关的视频,例如春晚相声视频、郭德纲相声视频等;也可以在搜索网站中搜索目标关键词“相声”,从而获取与相声相关的多媒体资源,例如相声视频、相声音频、相声台词文本等。
在一种可能的实现方式中,如图2所示,所述资源搜索方法,还可以包括:
步骤100、以所述泛关键词作为根节点,以与所述泛关键词相关的各所述关键词作为子节点,建立所述同义词树。
本发明实施例的泛关键词可以包括各种类型的搜索量很大,模板很不准的词语。泛关键词通常可以代表一个行业或者一个事物,例如金融、服装、儿歌、相声等,对此不作限定。
进一步地,可以通过例如索引、Word2vec模型等方式获取与泛关键词相关的关键词。其中,索引方式可以包括从关键词索引库中获取已经存储的与泛关键词相关的关键词。Word2vec模型方式可以通过对历史数据的训练,把对文本内容的处理简化为K维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度。
本发明实施例的同义词树可以是一种能够表述泛关键词和与其相关的各关键词之间的关系的树状图。其中,树状图可以是一种由n(n>=1)个有限节点组成的一个具有层次关系的集合。每个节点可以具有子节点,没有父节点的节点称为根节点,每一个非根节点有且只有一个父节点,除了根节点外,每个子节点可以分为多个不相交的子树。例如,以泛关键词“儿歌”作为根节点,以与泛关键词“儿歌”相关的各关键词“贝瓦儿歌”、“起跑线”、“儿歌串烧”作为子节点,建立同义词树。
需要说明的是,本领域技术人员应当能够理解,现有技术中有各种方式可以表述泛关键词和与其相关的各关键词之间的关系,树状图可能只是其中的一种方式,还可以通过例如链表、指针等数据结构实现,对此不作限定。
在一种可能的实现方式中,以所述泛关键词作为根节点,以与所述泛关键词相关的各所述关键词作为子节点,建立所述同义词树(步骤100),具体可以包括:
步骤10、获取与所述泛关键词相关的各第一关键词;
步骤20、根据所述泛关键词与各所述第一关键词的相关性,对各所述第一关键词进行排序,并根据排序结果从各所述第一关键词中选取用于建立所述同义词树的各第二关键词;
步骤30、以所述泛关键词作为根节点,以各所述第二关键词作为子节点,建立包括多个层级的所述同义词树。
本发明实施例的获取各第一关键词可以包括获取初始关键词集合的过程,获取各第二关键词可以包括从各第一关键词中选取用于建立同义词树的最终关键词集合的过程,对此不作限定。
其中,初始关键词集合可以包括例如通过索引、Word2vec模型等方式直接获取的、且没有经过筛选的与泛关键词相关的各第一关键词。具体地,初始关键词集合中可能包括例如较大数量级的第一关键词,还可能包括已经停用或小概率使用的冷门词,也可能包括具有相同含义的同义词。
进一步地,可以通过对初始关键词集合中包括的各第一关键词进行筛选,获取用于建立同义词树的最终关键词集合。最终关键词集合可以包括对各第一关键词例如采用粗粒度切词、排除停用词、按数量排序等方式,从各第一关键词中选取用于建立同义词树的各第二关键词。例如,可以从各第一关键词中选取相关性排序为前五的各第二关键词用于建立同义词树。
举例而言,对于泛关键词“儿歌”,例如通过索引、Word2vec模型等方式,可以获取各第一关键词例如“经典儿歌”、“贝瓦儿歌”、“贝瓦儿歌小白兔”、“儿歌串烧”、“儿歌串烧100首连续”、“起跑线”、“拔萝卜儿歌视频”等用户的初始关键词集合。进一步地,例如采用粗粒度切词、排除停用词、按数量排序等方式,可以从各第一关键词中选取各第二关键词例如“贝瓦儿歌”、“起跑线”、“儿歌串烧”。其中,“儿歌串烧100首连续”可以作为“儿歌串烧”的同义词。
需要说明的是,本发明实施例不限定子节点层级的数目。例如,对于同一个或不同的泛关键词,同义词树可以包括根节点和一个层级子节点,也可以包括根节点和多个层级子节点。其中,处于同义词树的同一层级的节点的词义可以不具有相关性。在实际应用过程中,可以根据例如泛关键词的词义大小、检索精确度需求等多方面原因,建立满足不同需求的同义词树。
在一种可能的实现方式中,如图2所示,获取所述目标关键词对应的各相关关键词(步骤102),具体可以包括:
步骤201、获取已经建立的与所述目标关键词相关的同义词树;
步骤202、根据所述目标关键词在所述同义词树中的节点位置,获取所述目标关键词对应的相关关键词。
本发明实施例的同义词树包括作为根节点的泛关键词和作为子节点的与泛关键词相关的关键词。需要说明的是,本发明实施例不限定同义词树的建立时间,可以预先选定部分具有较高搜索概率的泛关键词建立同义词树,也可以实时响应用户针对目标关键词发起的搜索请求(query)而建立同义词树。
例如,可以预先选定部分具有较高搜索概率的泛关键词,并通过线下计算,建立与各泛关键词相关的同义词树,并将建立的同义词树用于响应线上用户针对目标关键词发起的搜索请求。采用线下建立的方式,可以及时响应用户的搜索请求,减少用户等待的时间,提高用户体验,并且可以通过存储已经建立的同义词树实现重复获取调用的过程。
再例如,也可以设置一个同义词树建立模型,在线上用户针对目标关键词发起搜索请求的情况下,利用同义词树建立模型建立与目标关键词相关的同义词树。采用线上建立的方式,可以保证每次建立同义词树时都获取具有较高匹配度的关键词,从而保证同义词树的匹配度和时效性。
本发明实施例的节点位置可以包括节点类型、节点层级等信息,对此不作限定。例如,目标关键词可以是泛关键词,此时,目标关键词处于根节点的位置,其对应的相关关键词可以包括同义词树中各层级子节点位置的关键词。再例如,目标关键词可以是非泛关键词,例如,可以是处于第一层级的子节点,其对应的相关关键词可以包括同义词树中子树下第二层级开始各层级子节点位置的关键词。
在一种可能的实现方式中,如图3所示,根据所述目标关键词和各所述相关关键词,分别从资源索引库中获取对应的资源(步骤103),具体可以包括:
步骤301、分别从已有的资源索引库中获取所述目标关键词和各所述相关关键词对应的各第一资源;
步骤302、根据第一评分模型,对各所述第一资源进行评分,并根据各所述第一资源的第一评分,从各所述第一资源中选取各第二资源。
本发明实施例的资源索引库可以包括用于存储各种类型的多媒体资源的数据库,例如视频库、音乐库、文档库等,对此不作限定。通过检索资源索引库,可以直接获取目标关键词和各相关关键词对应的且没有经过筛选的各第一资源。例如,通过目标关键词“相声”和相关关键词“春晚相声”、“郭德纲”,可以从视频库中获取春晚相声、郭德纲相声等各第一视频资源。
本发明实施例的第一评分模型可以是基础评分模型。在基础评分的过程中,评分可以由例如多媒体资源对应的资源特征(例如时间、热度、点击、转化率、命中率、人名,团体名等)和各资源特征对应的特征值决定。基础评分与资源的历史数据相关,评分过程较少受到人为因素的干扰。
进一步地,可以根据各第一资源的第一评分,对各第一资源进行排序,并根据相关的排序结果从各第一资源中选取各第二资源。本实施例不限定选取各第二资源的具体方式。例如,选取方式可以是评分超过一定数值,也可以是排名满足一定要求。
需要说明的是,本领域技术人员应当能够理解,现有技术中有各种方式可以对各第一资源进行评分和排序,对此不作限定。此外,本发明实施例的对各第一资源进行评分和排序可以在全部第一资源中进行,也可以在每个关键词对应的第一资源中进行,对此不作限定。
在一种可能的实现方式中,如图4所示,根据所述目标关键词和各所述相关关键词,分别从资源索引库中获取对应的资源(步骤103),还可以包括:
步骤303、对各所述第二资源进行标识提取;
步骤304、根据第二评分模型,对具有不同标识的各所述第二资源进行评分,并根据各所述第二资源的第一评分和第二评分,从各所述第二资源中选取各第三资源。
本发明实施例的第二评分模型可以是名称评分模型。在名称评分的过程中,评分可以由例如多媒体资源对应的标识(例如资源名称、资源编码、资源发行商等)决定。名称评分与资源的标识相关,评分过程较多受到人为因素的干扰。例如,对于在推广中的关键词,可以给予更高的评分。
进一步地,可以根据各第二资源的第一评分和第二评分(例如求第一评分和第二评分之和),对各第二资源进行排序,并根据相关的排序结果从各第二资源中选取各第三资源。本实施例不限定选取各第三资源的具体方式,例如,选取方式可以是评分超过一定数值,也可以是排名满足一定要求。
需要说明的是,本发明实施例的资源搜索方法,可以包括例如同义词树的生成(步骤10至步骤30)、资源的获取与第一次评分排序(步骤301至步骤302)、资源的第二次评分排序(步骤303至步骤304)以及响应用户请求等步骤。其中,同义词树的生成、资源的获取与第一次评分排序、资源的第二次评分排序可以在线下计算完成,也可以在线上计算完成,对此不作限定。响应用户请求可以在线上完成,例如,用户搜索请求(query)命中子节点或者子节点对应的同义词,区分用户搜索请求的类别,并参考线下计算的预排序结果,产生最终排序,并呈现给用户。
本发明实施例的资源搜索方法,通过获取目标关键词对应的各相关关键词,并根据目标关键词和各相关关键词,分别从资源索引库中获取对应的资源,可以提高泛关键词的匹配度,满足用户对泛关键词搜索的深层需求。
进一步地,本发明实施例的资源搜索方法,以泛关键词作为根节点,以与泛关键词相关的关键词作为子节点,建立同义词树。通过目标关键词在同义词树中的节点位置,可以直接获取目标关键词对应的相关关键词,提高检索速度。
实施例2
图5示出根据本发明另一实施例的资源搜索装置的结构框图。如图5所示,所述资源搜索装置,主要包括:搜索请求接收模块11,用于接收用户针对目标关键词发起的搜索请求。关键词获取模块13,与所述搜索请求接收模块11连接,用于获取与所述目标关键词对应的各相关关键词。资源获取模块15,与所述关键词获取模块13连接,用于根据所述目标关键词和各所述相关关键词,分别从资源索引库中获取对应的资源。具体原理和示例可以参见实施例1以及图1的相关描述。
在一种可能的实现方式中,如图6所示,所述资源搜索装置,还可以包括:同义词树建立模块20,用于以所述泛关键词作为根节点,以与所述泛关键词相关的各所述关键词作为子节点,建立所述同义词树。具体原理和示例可以参见实施例1以及图2的相关描述。
在一种可能的实现方式中,如图6所示,所述同义词树建立模块20可以包括:第一获取单元201,用于获取与所述泛关键词相关的各第一关键词。第一选取单元203,与所述第一获取单元201连接,用于根据所述泛关键词与各所述第一关键词的相关性,对各所述第一关键词进行排序,并根据排序结果从各所述第一关键词中选取用于建立所述同义词树的各第二关键词。同义词树建立单元205,与所述第一选取单元203连接,用于以所述泛关键词作为根节点,以各所述第二关键词作为子节点,建立包括多个层级的所述同义词树。其中,处于所述同义词树的同一层级的节点的词义不具有相关性。具体原理和示例可以参见实施例1的相关描述。
在一种可能的实现方式中,如图6所示,所述关键词获取模块13可以包括:同义词树获取单元131,用于获取已经建立的与所述目标关键词相关的同义词树。相关关键词获取单元133,与所述同义词树获取单元131连接,用于根据所述目标关键词在所述同义词树中的节点位置,获取所述目标关键词对应的相关关键词。其中,所述同义词树包括作为根节点的泛关键词和作为子节点的与泛关键词相关的关键词。具体原理和示例可以参见实施例1以及图2的相关描述。
在一种可能的实现方式中,如图7所示,所述资源获取模块15可以包括:第二获取单元151,用于分别从已有的资源索引库中获取所述目标关键词和各所述相关关键词对应的各第一资源。第二选取单元153,与所述第二获取单元151连接,用于根据第一评分模型,对各所述第一资源进行评分,并根据各所述第一资源的第一评分,从各所述第一资源中选取各第二资源。具体原理和示例可以参见实施例1以及图3的相关描述。
在一种可能的实现方式中,如图7所示,所述资源获取模块15还可以包括:第三选取单元155,与所述第二选取单元153连接,具体用于对各所述第二资源进行标识提取;根据第二评分模型,对具有不同标识的各所述第二资源进行评分,并根据各所述第二资源的第一评分和第二评分,从各所述第二资源中选取各第三资源。具体原理和示例可以参见实施例1以及图4的相关描述。
本发明实施例的资源搜索装置,通过获取目标关键词对应的各相关关键词,并根据目标关键词和各相关关键词,分别从资源索引库中获取对应的资源,可以提高泛关键词的匹配度,满足用户对泛关键词搜索的深层需求。
进一步地,本发明实施例的资源搜索装置,以泛关键词作为根节点,以与泛关键词相关的关键词作为子节点,建立同义词树。通过目标关键词在同义词树中的节点位置,可以直接获取目标关键词对应的相关关键词,提高检索速度。
实施例3
图8示出了本发明的另一个实施例的一种资源搜索设备的结构框图。所述资源搜索设备1100可以是具备计算能力的主机服务器、个人计算机PC、或者可携带的便携式计算机或终端等。本发明具体实施例并不对计算节点的具体实现做限定。
所述资源搜索设备1100包括处理器(processor)1110、通信接口(CommunicationsInterface)1120、存储器(memory)1130和总线1140。其中,处理器1110、通信接口1120、以及存储器1130通过总线1140完成相互间的通信。
通信接口1120用于与网络设备通信,其中网络设备包括例如虚拟机管理中心、共享存储等。
处理器1110用于执行程序。处理器1110可能是一个中央处理器CPU,或者是专用集成电路ASIC(Application Specific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。
存储器1130用于存放文件。存储器1130可能包括高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1130也可以是存储器阵列。存储器1130还可能被分块,并且所述块可按一定的规则组合成虚拟卷。
在一种可能的实施方式中,上述程序可为包括计算机操作指令的程序代码。该程序具体可用于:实现实施例1中的各步骤。
本领域普通技术人员可以意识到,本文所描述的实施例中的各示例性单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件形式来实现,取决于技术方案的特定应用和设计约束条件。专业技术人员可以针对特定的应用选择不同的方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
如果以计算机软件的形式来实现所述功能并作为独立的产品销售或使用时,则在一定程度上可认为本发明的技术方案的全部或部分(例如对现有技术做出贡献的部分)是以计算机软件产品的形式体现的。该计算机软件产品通常存储在计算机可读取的非易失性存储介质中,包括若干指令用以使得计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各实施例方法的全部或部分步骤。而前述的存储介质包括U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (8)

1.一种资源搜索方法,其特征在于,包括:
接收用户针对目标关键词发起的搜索请求;
获取所述目标关键词对应的各相关关键词;
根据所述目标关键词和各所述相关关键词,分别从资源索引库中获取对应的资源;
采用线上建立的方式,以泛关键词作为根节点,以与所述泛关键词相关的各所述关键词作为子节点,建立同义词树;
获取所述目标关键词对应的各相关关键词,包括:
获取已经建立的与所述目标关键词相关的同义词树;
根据所述目标关键词在所述同义词树中的节点位置,获取所述目标关键词对应的相关关键词。
2.根据权利要求1所述的方法,其特征在于,以所述泛关键词作为根节点,以与所述泛关键词相关的各所述关键词作为子节点,建立所述同义词树,包括:
获取与所述泛关键词相关的各第一关键词;
根据所述泛关键词与各所述第一关键词的相关性,对各所述第一关键词进行排序,并根据排序结果从各所述第一关键词中选取用于建立所述同义词树的各第二关键词;
以所述泛关键词作为根节点,以各所述第二关键词作为子节点,建立包括多个层级的所述同义词树;
其中,处于所述同义词树的同一层级的节点的词义不具有相关性。
3.根据权利要求1或2所述的方法,其特征在于,根据所述目标关键词和各所述相关关键词,分别从资源索引库中获取对应的资源,包括:
分别从已有的资源索引库中获取所述目标关键词和各所述相关关键词对应的各第一资源;
根据第一评分模型,对各所述第一资源进行评分,并根据各所述第一资源的第一评分,从各所述第一资源中选取各第二资源。
4.根据权利要求3所述的方法,其特征在于,还包括:
对各所述第二资源进行标识提取;
根据第二评分模型,对具有不同标识的各所述第二资源进行评分,并根据各所述第二资源的第一评分和第二评分,从各所述第二资源中选取各第三资源。
5.一种资源搜索装置,其特征在于,包括:
搜索请求接收模块,用于接收用户针对目标关键词发起的搜索请求;
关键词获取模块,与所述搜索请求接收模块连接,用于获取与所述目标关键词对应的各相关关键词;
资源获取模块,与所述关键词获取模块连接,用于根据所述目标关键词和各所述相关关键词,分别从资源索引库中获取对应的资源;
同义词树建立模块,用于采用线上建立的方式,以泛关键词作为根节点,以与所述泛关键词相关的各所述关键词作为子节点,建立同义词树;
所述关键词获取模块,包括:
同义词树获取单元,用于获取已经建立的与所述目标关键词相关的同义词树;
相关关键词获取单元,与所述同义词树获取单元连接,用于根据所述目标关键词在所述同义词树中的节点位置,获取所述目标关键词对应的相关关键词。
6.根据权利要求5所述的装置,其特征在于,所述同义词树建立模块包括:
第一获取单元,用于获取与所述泛关键词相关的各第一关键词;
第一选取单元,与所述第一获取单元连接,用于根据所述泛关键词与各所述第一关键词的相关性,对各所述第一关键词进行排序,并根据排序结果从各所述第一关键词中选取用于建立所述同义词树的各第二关键词;
同义词树建立单元,与所述第一选取单元连接,用于以所述泛关键词作为根节点,以各所述第二关键词作为子节点,建立包括多个层级的所述同义词树;
其中,处于所述同义词树的同一层级的节点的词义不具有相关性。
7.根据权利要求5或6所述的装置,其特征在于,所述资源获取模块包括:
第二获取单元,用于分别从已有的资源索引库中获取所述目标关键词和各所述相关关键词对应的各第一资源;
第二选取单元,与所述第二获取单元连接,用于根据第一评分模型,对各所述第一资源进行评分,并根据各所述第一资源的第一评分,从各所述第一资源中选取各第二资源。
8.根据权利要求7所述的装置,其特征在于,所述资源获取模块还包括:
第三选取单元,与所述第二选取单元连接,具体用于对各所述第二资源进行标识提取;根据第二评分模型,对具有不同标识的各所述第二资源进行评分,并根据各所述第二资源的第一评分和第二评分,从各所述第二资源中选取各第三资源。
CN201610665732.1A 2016-08-12 2016-08-12 资源搜索方法及装置 Active CN106294784B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610665732.1A CN106294784B (zh) 2016-08-12 2016-08-12 资源搜索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610665732.1A CN106294784B (zh) 2016-08-12 2016-08-12 资源搜索方法及装置

Publications (2)

Publication Number Publication Date
CN106294784A CN106294784A (zh) 2017-01-04
CN106294784B true CN106294784B (zh) 2019-12-17

Family

ID=57670834

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610665732.1A Active CN106294784B (zh) 2016-08-12 2016-08-12 资源搜索方法及装置

Country Status (1)

Country Link
CN (1) CN106294784B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107122423A (zh) * 2017-04-06 2017-09-01 深圳Tcl数字技术有限公司 影视推介方法及装置
CN110956271B (zh) * 2019-10-21 2022-12-09 北京明朝万达科技股份有限公司 一种海量数据的多级分类方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102722499A (zh) * 2011-03-31 2012-10-10 北京百度网讯科技有限公司 搜索引擎及其实现方法
CN102819601A (zh) * 2012-08-15 2012-12-12 中国联合网络通信集团有限公司 信息检索方法和信息检索设备
CN102999625A (zh) * 2012-12-05 2013-03-27 北京海量融通软件技术有限公司 一种检索请求语义扩展方法
CN102999495A (zh) * 2011-09-09 2013-03-27 北京百度网讯科技有限公司 一种同义词语义映射关系确定方法及装置
CN103294820A (zh) * 2013-06-14 2013-09-11 广东电网公司电力科学研究院 基于语义扩展的web页面归类方法和系统
CN103678412A (zh) * 2012-09-21 2014-03-26 北京大学 一种文档检索的方法及装置
CN104268176A (zh) * 2012-06-26 2015-01-07 北京奇虎科技有限公司 一种基于搜索关键词的推荐方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102722499A (zh) * 2011-03-31 2012-10-10 北京百度网讯科技有限公司 搜索引擎及其实现方法
CN102999495A (zh) * 2011-09-09 2013-03-27 北京百度网讯科技有限公司 一种同义词语义映射关系确定方法及装置
CN104268176A (zh) * 2012-06-26 2015-01-07 北京奇虎科技有限公司 一种基于搜索关键词的推荐方法及系统
CN102819601A (zh) * 2012-08-15 2012-12-12 中国联合网络通信集团有限公司 信息检索方法和信息检索设备
CN103678412A (zh) * 2012-09-21 2014-03-26 北京大学 一种文档检索的方法及装置
CN102999625A (zh) * 2012-12-05 2013-03-27 北京海量融通软件技术有限公司 一种检索请求语义扩展方法
CN103294820A (zh) * 2013-06-14 2013-09-11 广东电网公司电力科学研究院 基于语义扩展的web页面归类方法和系统

Also Published As

Publication number Publication date
CN106294784A (zh) 2017-01-04

Similar Documents

Publication Publication Date Title
CN108304444B (zh) 信息查询方法及装置
US9317613B2 (en) Large scale entity-specific resource classification
US9262527B2 (en) Optimized ontology based internet search systems and methods
US8554854B2 (en) Systems and methods for identifying terms relevant to web pages using social network messages
US8589429B1 (en) System and method for providing query recommendations based on search activity of a user base
US20170212899A1 (en) Method for searching related entities through entity co-occurrence
CN107590128B (zh) 一种基于高置信度特征属性分层聚类方法的论文同名作者消歧方法
JP2009525520A (ja) 検索結果リストにおける電子文書を関連性に基づきランク付けおよびソートする評価方法、およびデータベース検索エンジン
CN101055585A (zh) 文档聚类系统和方法
CN104428767A (zh) 相关实体
US20160092556A1 (en) Generation of data for a dendrogrammatic tree data structure
CN101000608A (zh) 基于搜索引擎技术的关键字动态匹配生成的方法
CN112083812A (zh) 联想词确定方法、装置、存储介质和电子设备
KR20220119745A (ko) 콘텐츠를 검색하는 방법, 장치, 기기 및 컴퓨터 판독 가능 저장 매체
JP6219967B2 (ja) ラベル付非テキスト系アイテムを検索するためのシステム及び方法
CN106294784B (zh) 资源搜索方法及装置
JP2007164633A (ja) コンテンツ検索方法及び装置及びプログラム
CN113918807A (zh) 数据推荐方法、装置、计算设备及计算机可读存储介质
CN107807964B (zh) 数字内容排序方法、装置和计算机可读存储介质
CN103186650A (zh) 一种搜索方法和装置
CN106372123B (zh) 一种基于标签的相关内容推荐方法和系统
CN115292478A (zh) 一种推荐搜索内容的方法、装置、设备和存储介质
del Carmen Rodríguez-Hernández et al. Towards keyword-based pull recommendation systems
JP2004206571A (ja) 文書情報提示方法及び装置並びにプログラム及び記録媒体
Mishra et al. Review of Web Page Clustering

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200521

Address after: 310052 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Alibaba (China) Co.,Ltd.

Address before: 518030, Sannuo building, 19L02, 3012 Binhai Avenue, Shenzhen, Guangdong, Nanshan District

Patentee before: HEYI INTELLIGENT TECHNOLOGY (SHENZHEN) Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210304

Address after: Room 554, 5 / F, building 3, 969 Wenyi West Road, Wuchang Street, Yuhang District, Hangzhou City, Zhejiang Province 311100

Patentee after: TAOBAO (CHINA) SOFTWARE Co.,Ltd.

Address before: 310052 room 508, 5th floor, building 4, No. 699 Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee before: Alibaba (China) Co.,Ltd.

TR01 Transfer of patent right