CN112035688B - 资源搜索方法及装置、搜索设备及存储介质 - Google Patents

资源搜索方法及装置、搜索设备及存储介质 Download PDF

Info

Publication number
CN112035688B
CN112035688B CN201910483325.2A CN201910483325A CN112035688B CN 112035688 B CN112035688 B CN 112035688B CN 201910483325 A CN201910483325 A CN 201910483325A CN 112035688 B CN112035688 B CN 112035688B
Authority
CN
China
Prior art keywords
search
entity
resource
classification information
searching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910483325.2A
Other languages
English (en)
Other versions
CN112035688A (zh
Inventor
房耘耘
丁杰
陈敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Suzhou Software Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Suzhou Software Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Suzhou Software Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201910483325.2A priority Critical patent/CN112035688B/zh
Publication of CN112035688A publication Critical patent/CN112035688A/zh
Application granted granted Critical
Publication of CN112035688B publication Critical patent/CN112035688B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/45Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/41Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种资源搜索方法及装置、搜索设备及存储介质,涉及信息技术领域。所述方法包括:获取搜索词条;根据所述搜索词条,确定所述搜索词条搜索意图的一级分类信息;结合所述搜索词条和所述一级分类信息,搜索所述搜索词条指向的资源;如此一方面,一级分类信息可以给出了更多维度或者更多的搜索参数,有利于搜索到更加精确满足用户搜索需求的资源,另一方面,一级分类信息可以过滤掉部分不必要与搜索词条进行匹配的资源,从而减少匹配资源数量,可以提升搜索效率。

Description

资源搜索方法及装置、搜索设备及存储介质
技术领域
本发明涉及信息技术领域,尤其涉及一种资源搜索方法及装置、搜索设备及存储介质。
背景技术
多媒体资源搜索的过程中,通常获取用户输入的搜索词条,然后利用搜索词条确定用户搜索的目标类型,例如,查询的目标类型是视频、新闻、网页、音乐或小说等,然后在目标类别中进行搜索,返回搜索结果。但是实践发现,这种搜索方式,通常会出现搜索返回的结果并非用户想要的结果等不精确的问题;甚至通过机械的搜索词条匹配,导致有一些是用户想要搜索的多媒体资源却未被搜索到。总之,相关技术中的搜索精确度和完整度等搜索质量还有待进一步提升,且有时候搜索结果返回速率慢。
发明内容
有鉴于此,本发明实施例期望提供一种资源搜索方法及装置、搜索设备及存储介质。
本发明的技术方案是这样实现的:
一种资源搜索方法,包括:
获取搜索词条;
根据所述搜索词条,确定所述搜索词条搜索意图的一级分类信息;
结合所述搜索词条和所述一级分类信息,搜索所述搜索词条指向的资源。
基于上述方案,所述方法还包括:
获取所述一级分类信息的分类概率;
所述结合所述搜索词条和所述一级分类信息,搜索所述搜索词条指向的资源,包括:
若所述分类概率大于概率阈值,结合所述搜索词条和所述一级分类信息搜索资源。
基于上述方案,所述结合所述搜索词条和所述一级分类信息搜索资源,包括:
识别所述搜索词条,确定出所述搜索词条是否包含预定的搜索实体;
若所述搜索词条包含第一搜索实体,根据所述第一搜索实体的数目,确定匹配模式;
利用所述第一搜索实体和所述一级分类信息,使用确定的所述匹配模式,搜索资源。
基于上述方案,所述若所述搜索词条包含第一搜索实体,根据所述第一搜索实体的数目,确定匹配模式,包括以下至少之一:
若所述第一搜索实体的个数为1,确定采用单实体匹配模式;
若所述第一搜索实体的个数大于1,确定采用多实体匹配模式。
基于上述方案,所述利用所述第一搜索实体和所述一级分类信息,使用确定的所述匹配模式,搜索资源,包括:
若采用单实体匹配模式,将所述第一搜索实体与由第二搜索实体形成的搜索树进行匹配;
若所述搜索树中的所述第二搜索实体包含所述第一搜索实体,确定所述搜索树中是否有与所述第一搜索实体匹配的资源实体;
若所述搜索树中有与所述第一搜索实体匹配的资源实体,基于所述第一搜索实体对应的资源标识及所述一级分类信息,确定所述资源。
基于上述方案,所述若所述搜索树中有与所述第一搜索实体匹配的资源实体,基于所述第一搜索实体对应的资源标识及所述一级分类信息,确定所述资源,包括:
若所述搜索树中有与所述第一搜索实体匹配的资源实体,基于所述第一搜索实体对应的资源标识,以第一权重在所述一级分类信息所指向的资源类别中进行资源搜索;以第二权重在所述一级分类信息所指向的资源类别外进行资源搜索,其中,所述第二权重小于所述第一权重。
基于上述方案,所述利用所述第一搜索实体和所述一级分类信息,使用确定的所述匹配模式,搜索资源,包括:
若所述搜索树没有与所述第一搜索实体匹配的资源实体,根据基于所述搜索词条及所述一级分类信息进行所述资源的搜索。
基于上述方案,所述若所述搜索树没有与所述第一搜索实体匹配的资源实体,根据基于所述搜索词条及所述一级分类信息进行所述资源的搜索,包括以下至少之一:
所述若所述搜索树没有与所述第一搜索实体匹配的资源实体,基于所述搜索词条所确定的搜索信息,以第三权重在所述一级分类信息所指向的搜索类别中进行资源搜索;以第四权重在所述一级分类信息所指向的搜索类别外进行资源搜索,其中,所述第三权重小于所述第四权重;所述搜索信息包括搜索类别和/或搜索标签。
基于上述方案,所述利用所述第一搜索实体和所述一级分类信息,使用确定的所述匹配模式,搜索资源,包括:
若采用多实体匹配模式,将一个或多个所述第一搜索实体分别与所述一级分类信息组合形成搜索条件;
基于每一个搜索条件进行资源搜索,并组合每一个搜索条件所形成的搜索结果得到所述目标搜索资源。
基于上述方案,所述若采用多实体匹配模式,将一个或多个所述第一搜索实体分别与所述一级分类信息组合形成搜索条件,包括以下至少之一:
若采用多实体匹配模式,将人物实体和所述一级分类信息组合成所述搜索条件;
若采用多实体匹配模式,将资源实体和所述一级分类信息组合成所述搜索条件。
基于上述方案,所述根据所述搜索词条,确定所述搜索词条搜索意图的一级分类信息,包括:
利用离线训练的分类模型对所述搜索词条进行处理得到所述一级分类信息。
基于上述方案,离线训练所述分类模型包括以下至少之一:
利用基于资源索引文件获得的第一类训练语料训练所述分类模型;
利用基于人物库索引文件获得的第二类训练语料训练所述分类模型;
利用基于搜索引擎的搜索日志获得第三类训练语料训练所述分类模型。
基于上述方案,所述方法还包括:
定期更新所述分类模型,将更新后的所述分类模型的模型参数封装为二进制文件;
将所述二进制文件加载给所述搜索引擎,以用于所述一级分类信息的确定。
一种资源搜索装置,包括:
第一获取模块,用于获取搜索词条;
确定模块,用于根据所述搜索词条,确定所述搜索词条搜索意图的一级分类信息;
搜索模块,用于结合所述搜索词条和所述一级分类信息,搜索所述搜索词条指向的资源。
基于上述方案,所述装置还包括:
第二获取模块,用于获取所述一级分类信息的分类概率;
所述结合模块,具体用于若所述分类概率大于概率阈值,结合所述搜索词条和所述一级分类信息搜索资源。
基于上述方案,所述搜索模块,包括:
识别子模块,用于识别所述搜索词条,确定出所述搜索词条是否包含预定的搜索实体;
第一确定子模块,用于若所述搜索词条包含第一搜索实体,根据所述第一搜索实体的数目,确定匹配模式;
搜索子模块,用于利用所述第一搜索实体和所述一级分类信息,使用确定的所述匹配模式,搜索资源。
基于上述方案,所述第一确定子模块,具体用于执行以下至少之一:
若所述第一搜索实体的个数为1,确定采用单实体匹配模式;
若所述第一搜索实体的个数大于1,确定采用多实体匹配模式。
基于上述方案,所述搜索子模块,具体用于若采用单实体匹配模式,将所述第一搜索实体与由第二搜索实体形成的搜索树进行匹配;若所述搜索树中的所述第二搜索实体包含所述第一搜索实体,确定所述搜索树中是否有与所述第一搜索实体匹配的资源实体;若所述搜索树中有与所述第一搜索实体匹配的资源实体,基于所述第一搜索实体对应的资源标识及所述一级分类信息,确定所述资源。
基于上述方案,所述搜索子模块,还具体用于若所述搜索树中有与所述第一搜索实体匹配的资源实体,基于所述第一搜索实体对应的资源标识,以第一权重在所述一级分类信息所指向的资源类别中进行资源搜索;以第二权重在所述一级分类信息所指向的资源类别外进行资源搜索,其中,所述第二权重小于所述第一权重。
基于上述方案,所述搜索子模块,具体用于若所述搜索树没有与所述第一搜索实体匹配的资源实体,根据基于所述搜索词条及所述一级分类信息进行所述资源的搜索。
基于上述方案,所述搜索子模块,还具体用于所述若所述搜索树没有与所述第一搜索实体匹配的资源实体,基于所述搜索词条所确定的搜索信息,以第三权重在所述一级分类信息所指向的搜索类别中进行资源搜索;以第四权重在所述一级分类信息所指向的搜索类别外进行资源搜索,其中,所述第三权重小于所述第四权重;所述搜索信息包括搜索类别和/或搜索标签。
基于上述方案,所述搜索子模块,还具体用于若采用多实体匹配模式,将一个或多个所述第一搜索实体分别与所述一级分类信息组合形成搜索条件;基于每一个搜索条件进行资源搜索,并组合每一个搜索条件所形成的搜索结果得到所述目标搜索资源。
基于上述方案,所述搜索子模块,具体用于执行以下之一;
若采用多实体匹配模式,将人物实体和所述一级分类信息组合成所述搜索条件;
若采用多实体匹配模式,将资源实体和所述一级分类信息组合成所述搜索条件。
基于上述方案,所述确定模块,具体用于利用离线训练的分类模型对所述搜索词条进行处理得到所述一级分类信息。
基于上述方案,所述装置还包括:
训练模块,用于执行以下至少之一:
利用基于资源索引文件获得的第一类训练语料训练所述分类模型;
利用基于人物库索引文件获得的第二类训练语料训练所述分类模型;
利用基于搜索引擎的搜索日志获得第三类训练语料训练所述分类模型。
基于上述方案,所述装置还包括:
更新模块,用于定期更新所述分类模型,将更新后的所述分类模型的模型参数封装为二进制文件;
加载模块,用于将所述二进制文件加载给所述搜索引擎,以用于所述一级分类信息的确定。
一种搜索设备,包括:
存储器;
处理器,与所述存储器连接,用于通过执行存储在所述存储器上的计算机可执行指令,实现前述任意技术方案提供的资源搜索方法。
一种计算机存储介质;所述计算机存储介质上存储有计算机可执行指令,所述计算机可执行指令被处理器执行后,能够实现前述任意技术方案提供的资源搜索方法。
本发明实施例提供的技术方案,在进行资源搜索时,不会只是直接基于搜索词条进行机械匹配搜索,而是会首先基于搜索词条得到一级分类信息;然后结合搜索词条和搜索词条所对应搜索意图预测得到一级分类信息进行搜索,如此,一方面,一级分类信息可以给出了更多维度或者更多的搜索参数,有利于搜索到更加精确满足用户搜索需求的资源,另一方面,一级分类信息可以过滤掉部分不必要与搜索词条进行匹配的资源,从而减少匹配资源数量,可以提升搜索效率。
附图说明
图1为本发明实施例提供的一种资源搜索方法的流程示意图;
图2为本发明实施例提供的另一种资源搜索方法的流程示意图;
图3为本发明实施提供的一种资源搜索装置的结构示意图;
图4为本发明实施例提供的一种系统架构的示意图;
图5为本发明实施例提供的再一种资源搜索方法的流程示意图;
图6为本发明实施例提供的搜索设备的结构示意图。
具体实施方式
以下结合说明书附图及具体实施例对本发明的技术方案做进一步的详细阐述。
如图1所示,本实施例提供一种资源搜索方法,包括:
步骤S110:获取搜索词条;
步骤S120:根据所述搜索词条,确定所述搜索词条搜索意图的一级分类信息;
步骤S130:结合所述搜索词条和所述一级分类信息,搜索所述搜索词条指向的资源。
本实施例提供的资源搜索方法可应用于搜索引擎中。该搜索引擎可以从搜索的终端设备接收所述搜索词条。所述搜索词条可为用户在搜索框等位置输入的搜索关键字或关键词。所述搜索词条还可以是搜索的终端自动基于获取的用户有搜索意图时自动生成的用于搜索的关键字或关键词。
在本实施例中在获取到搜索词条之后,不是直接将搜索词条与搜索的资源库索引文件进行匹配,进行机械的搜索。
在本实施例中,首先会根据搜索词条获得搜索词条的一级分类信息。
所述资源可为用户或搜索设备想要搜索的任意资源,包括但不限于多媒体资源,例如,多媒体资源包括但不限于视频。
在本实施例中,可以利用机器学习模型和/或深度学习模型对搜索词条进行自动化处理,然后得到所述一级分类信息。所述一级分类信息能够表征搜索词条所对应的搜索意图。
所述一级分类信息包括但不限于以下分类信息:
资源分类信息;
人物分类信息;
地域分类信息;
风格分类信息。
所述资源分类信息可以用于至少以下分类至少之一:
电影、电视剧、短视频、综艺、动漫、小说、论坛、贴吧等。
所述人物分类信息可以用于指示以下人物至少之一:
演员、导演、作者、编剧、明星、网红、模特等真实人物。
在另一些实施例中,所述人物分类信息还可以用于指示虚拟人物,所述虚拟人物包括但不限于以下至少之一:文学作品中的文学角色、游戏角色、动漫角色、历史人物、手办人物。
所述地域分类信息可以用于指示以下地域至少之一:
欧美区域、日韩区域、欧罗斯、印度、中东区域等按照地理位置进行划分的地域。
所述风格分类信息可以用于指示以下至少之一:
文艺片、动作片、纪实、记录片等。
在一些实施例中为了简化所述一级分类信息可仅包括:资源分类信息和人物分类信息。例如,搜索词条为:徐克的狄仁杰,则该搜索词条被预测出的一级分类信息为资源分类信息,并且该资源分类信息所指向的分类为电影。例如,搜索词条为:徐克;则该搜索词条被预测的一级分类信息为人物分类信息,并且该人物分类信息所指向的分类为导演。
在一些实施例中,为了简化一级分类,一级分类信息最终指向可能仅限于一个分类下的一个子类别;例如,以搜索词条为“徐克”为例,徐克归属到人物分类,但是徐克是导演,但是也参与过电影的演绎,也是演员。在步骤S120中一级分类信息仅指向一个分类下的一个子类别时,由于徐克作为导演身份的概率更高,则搜索词条所对应的一级分类信息最终指向导演这一子类别。
在步骤S130中会结合搜索词条和一级分类信息,共同形成搜索条件进行资源搜索从而得到用户或搜索设备想要的资源。
此处的资源可包括各种能够搜索到的信息,包括但不限于:视频、视频、音频、动漫或者序列帧等。
总之,在本实施例中,搜索引擎在拿到搜索词条以后,不是直接拆分搜索词条进行搜索,而是会对搜索词条进行意图解析得到搜索词条本身可能并不涵盖的一级分类信息,而一级分类信息与搜索词条组合得到搜索过程中更多的搜索信息量,从而有利于精准的搜索到用户或搜索设备想要的资源,从而提升了搜索精确度。且由于搜索信息中引入了一级分类信息,相对于仅基于搜索词条在所有资源中进行匹配,可以首先基于一级分类信息去除部分不必要搜索的范围,从而也可以整体上加速搜索速率。
在一些实施例中,所述方法还包括:
获取所述一级分类信息的分类概率;
所述步骤S130可包括:
若所述分类概率大于概率阈值,结合所述搜索词条和所述一级分类信息搜索资源。
在获得一级分类信息的同时,会获得当前预测得到的一级分类信息是否准确的分类概率或者置信度等概率信息。
为了减少一级分类信息当前的分类概率并不高的情况下,由于基于分类指向并不精确的一级分类信息进行搜索导致的搜索遗漏或搜索难度大的问题,在本实施例中,会将一级分类信息的分类概率与概率阈值进行比较,在分类概率大于概率阈值时,才结合对应的一级分类信息进行资源的搜索,否则可以直接基于所述搜索词条进行资源的搜索。
例如,利用神经网络等深度学习模型对搜索词条的意图进行预测,在资源分类和人物分类这两大类中进行区分,若深度学习模型计算出当前搜索词条归属人物分类的分类概率为0.45,而归属资源分类的分类概率为0.55,则此时搜索词条在两个分类之间的差异并不大,即便根据分类概率越高就将其归属到对应的分类,但是由于资源分类的分类概率仅为0.55,可能并不准确,若着重搜索资源分类,可能会遗漏人物分类中与搜索词条匹配的信息。故在本实施例中,确定是否需要基于一级分类信息进行搜索,需要将一级分类信息的分类概率进一步与概率阈值进行比较来确定,以尽可能的提升精度并减少遗漏。
所述分类概率的概率阈值可为事先确定的值,例如,具体取值可为0.6以上的取值,例如,具体可为0.6、0.7、0.8或0.85等,概率阈值的取值范围可在0.6至0.85之间,但不限于该范围。以上概率阈值是针对两个分类时的取值,在一级分类有3个或3个以上的类别时,可以基于实际需要进行概率阈值的调整。例如,针对有3个以上的分类时,可以将概率阈值设定在0.4以上即可。
在另一些实施例中,如图2所示,所述步骤S130可包括:
步骤S131:识别所述搜索词条,确定出所述搜索词条是否包含预定的搜索实体;
步骤S132:若所述搜索词条包含第一搜索实体,根据所述第一搜索实体的数目,确定匹配模式;
步骤S133:利用所述第一搜索实体和所述一级分类信息,使用确定的所述匹配模式,搜索资源。
在本实施例中,可以利用关系数据库中的实体来对应特定的搜索对象。例如,所述搜索实体包括但不限于以下至少之一:资源实体;人物实体。
搜索词条有时候长,有时候短,故有搜索词条包括一个或多个搜索实体。如此,可以根据搜索词条所包含的搜索实体的个数采用相应的匹配方式进行搜索匹配,以精准并快速获得搜索的资源。
在一些实施例中,若所述搜索词条不包括所述预定的搜索实体,则直接组合所述搜索词条和所述一级分类信息继续搜索。
在一些实施例中,所述步骤S132可包括以下至少之一:
若所述第一搜索实体的个数为1,确定采用单实体匹配模式;
若所述第一搜索实体的个数大于1,确定采用多实体匹配模式。
在本实施例中将从搜索词条中解析出的搜索实体称之为第一搜索实体。例如,从搜索词条中就解析出一个搜索实体就采用单实体匹配模式,就以该单个搜索实体进行匹配。
若搜索词条中包含多个第一搜索实体,在搜索词条的机械匹配中会将这些多个搜索实体视为一个大的搜索实体进行匹配,在本实施例中会以最小粒度的搜索实体,将搜索词条进行拆分,然后基于多个搜索实体采用多实体匹配模式进行多实体匹配,从而减少多个小信息粒度的搜索实体被视为一个大信息粒度的单一实体匹配导致的资源遗漏。这种资源遗漏,一方面可能是资源的索引信息并没有拆分为多个实体,或者拆分为了多个实体但是未组合或者实体拆分有遗漏。例如,徐克的电影狄仁杰,在构建资源索引时,仅提取了关键字狄仁杰,若将搜索词条的“徐克的狄仁杰”作为一个大的搜索实体进行匹配,则实际上有匹配的资源,但是因为资源所建立的搜索索引中关键字的不齐全,会导致搜索遗漏。另一方面,有时候用户输入的搜索词条可能并不是完全正确,例如,有的错别字或者输入了错误的名称的,若将原本可以拆分为多个搜索实体的搜索词条视为一个大的搜索实体,则可能会导致实质上用户想要搜索的信息的遗漏或错失。
总之,在本实施例中若一个搜索词条包括多个搜索实体,会采用多实体匹配模式。此处的多实体匹配模式为:多个搜索实体分别匹配搜索,然后再组合搜索结果。
在一些实施例中,所述步骤S133具体可包括:
若采用单实体匹配模式,将所述第一搜索实体与由第二搜索实体形成的搜索树进行匹配;
若所述搜索树中的所述第二搜索实体包含所述第一搜索实体,确定所述搜索树中是否有与所述第一搜索实体匹配的资源实体;
若所述搜索树中有与所述第一搜索实体匹配的资源实体,基于所述第一搜索实体对应的资源标识及所述一级分类信息,确定所述资源。
若搜索引擎发现了某些搜索资源,例如,通过爬虫技术获得了资源之后,会建立搜索树,在搜索树中每一个节点可能对应了一种资源或者一个具体的资源。
若是第一搜索实体为1个,则是单一搜索实体,可以将该单一搜索实体直接与搜索树中第二搜索实体进行文本的匹配,从而确定出搜索树中是否有包含第一搜索实体。若搜索树中包括所述第一搜索实体,则看搜索树命中的节点下是否连接有第一搜索实体所对应的资源实体。若有资源实体,则该资源实体所对应的资源有非常高的概率为搜索词条所意图搜索的资源。
在本实施例中,为了提升搜索精确度,会基于搜索步骤S120中得到的一级分类信息进行搜索。例如,以搜索词条为“狄仁杰”,若当前电影资源新上映,电影狄仁杰比电视剧狄仁杰的搜索热度高,在步骤S120中得到的一级分类信息指向电影;则此时在搜索时,电影和电视剧狄仁杰,则由于一级分类信息指向电影,会以更高的权重搜索电影狄仁杰,以较小的概率搜索电视剧狄仁杰或者其他资源类型的狄仁杰。这种权重可以体现在搜索引擎对搜索资源的配置上,例如,以较多的计算线程搜索电影狄仁杰,以较少的线程搜索电影以外的其他资源的狄仁杰。
在一些实施例中,所述若所述搜索树中有与所述第一搜索实体匹配的资源实体,基于所述第一搜索实体对应的资源标识及所述一级分类信息,确定所述资源,包括:
若所述搜索树中有与所述第一搜索实体匹配的资源实体,基于所述第一搜索实体对应的资源标识,以第一权重在所述一级分类信息所指向的资源类别中进行资源搜索;以第二权重在所述一级分类信息所指向的资源类别外进行资源搜索,其中,所述第二权重小于所述第一权重。
所述资源标识包括资源名称等,在海量资源形成的资源库中,可能存在同名的资源。如此在进行资源的搜索时,结合之前的一级分类信息,以较高权重的搜索一级分类信息指向的资源类别;以较低的权重搜索一级分类信息未指向的资源类别,一方面可以更加快速的搜索到用户或搜索设备指向的资源。在搜索过程中将的部分先搜索到的资源返回给用户,若用户已经看到了自己想要的资源,选择了对应的资源打开,则在存在海量相同信息时,可以直接停止搜索,从而减少不必要的继续搜索。
在一些实施例中,所述步骤S130可包括:
若所述搜索树没有与所述第一搜索实体匹配的资源实体,根据基于所述搜索词条及所述一级分类信息进行所述资源的搜索。
若在搜索树中没有与第一搜索实体匹配的资源实体,则根据搜索词条解析得到的其他搜索信息并结合一级分类信息,进行资源的搜索;如此,一方面仅利用搜索词条进行较少搜索条件限定的搜索,可以减少搜索过程的匹配量,另一方面,由于限缩了搜索范围,可以提升搜索速率。
进一步地,所述步骤S130可包括以下至少之一:
所述若所述搜索树没有与所述第一搜索实体匹配的资源实体,基于所述搜索词条所确定的搜索信息,以第三权重在所述一级分类信息所指向的搜索类别中进行资源搜索;以第四权重在所述一级分类信息所指向的搜索类别外进行资源搜索,其中,所述第三权重小于所述第四权重;所述搜索信息包括搜索类别和/或搜索标签。
由于搜索树中没有与第一搜索实体匹配的资源实体,拆分所述搜索词条会得到一些搜索信息,这些搜索信息同样可以用于在资源库中定位资源。同样地,为了加速搜索和提升搜索精准度,一级分类信息限定的搜索类别的搜索权重更大一些。此时的一级分类限定的搜索类别可为资源类别、人物类别、地域类别或风格类别等。
在一些实施例中,所述基于搜索词条所确定的搜索信息可以认为是一级分类信息之后进一步解析得到的二级分类信息。
在一些实施例中,所述搜索信息包括搜索类别,该搜索类别可以与一级分类信息限定的类别相同或者是一级分类信息所限定类别的子类别,还可以是一级分类信息所限定类别以外的其他类别或细分类别。在本实施例中,基于搜索词条所确定的搜索信息优选为一级分类信息所限定类别以外的其他类别和细分类别,如此,一方面可以通过增加搜索条件的限定参数,从而有利于精确搜索,另一方面可以方便搜索过程中快速的过滤掉不相关的资源,从而有利于提升搜索速率。
在一些实施例中,所述第三权重可以与前述的第一权重相同或不同;和/或,所述第四权重可与前述的第二权重相同或不同。
在还有一些实施例中,所述步骤S130具体可包括:
若采用多实体匹配模式,将一个或多个所述第一搜索实体分别与所述一级分类信息组合形成搜索条件;
基于每一个搜索条件进行资源搜索,并组合每一个搜索条件所形成的搜索结果得到所述目标搜索资源。
在本实施例中,采用多实体匹配模式,为了减少遗漏,会将每一个第一搜索实体分别进行匹配搜索。例如,一个搜索词条被拆分出N个第一搜素实体,这N个第一搜素实体分别和一级分类信息,将组成N个搜索条件,以这N个搜索条件分别过滤资源库中的资源,从而会得到N个搜索结果。最后基于这N个搜索结果得到最终的搜索结果,以定位资源。
例如,对这N个搜索条件所形成的搜索结果取交集,如此,若交集不为空,则交集内的资源有最高的概率为用户想要搜索的资源。
再例如,对这N个搜索条件所形成的搜索结果取并集,如此,得到搜索并集,直接将搜索并集中资源的资源信息返回给搜索终端,供搜索终端展示,方便用户基于展示选择自己想要的资源。进一步地,根据N个第一搜索实体所对应类型的优先级进行排序,优先将优先级高的搜索条件所对应的搜索结果返回给搜索终端。例如,以搜索词条为“刘德华的天若有情”,这个搜索词条有两个搜索实体,一个是人物实体“刘德华”,另一个是资源实体“天若有情”。由于用户想要的搜索的资源,故在进行优先排序时,资源实体的优先级高于人物实体的优先级;人物实体的优先级高于地域实体的优先级;人物实体的优先级高于风格实体的优先级。基于优先级将对应于对应搜索实体的搜索结果进行排序,按照优先级的高低,优先向搜索终端返回优先级高的搜索结果。
当然在一些实施例中,在进行取交集操作时,还可以将多个第一搜索实体优先级高的2个或2个以上的第一搜索实体所对应的搜索条件的搜索结果进行取交集,若所有第一搜索实体所对应的搜索条件取交集为空时,则优先将部分高优先级第一搜索实体所对应搜索条件的搜索结果的交集返回给搜索终端。
总之,在本实施例中,由于在进行多实体匹配条件时,每一个单一的第一搜索实体中都引入了一级分类信息,如此单一的搜索条件都不用在整个资源库中进行检索,从而相对于简单的拆分搜索词条得到多个搜索实体分别与整个资源库进行匹配,也可以减少匹配量,提升搜索效率和搜索结果的精确度。
在一些实施例中,所述若采用多实体匹配模式,将一个或多个所述第一搜索实体分别与所述一级分类信息组合形成搜索条件,包括以下至少之一:
若采用多实体匹配模式,将人物实体和所述一级分类信息组合成所述搜索条件;
若采用多实体匹配模式,将资源实体和所述一级分类信息组合成所述搜索条件。
在本实施例中,至少给出了两种组合形成搜索条件的方式,一个是将资源实体与一级分类信息进行组合得到的,另一个是将人物实体与一级分类信息组合得到的。
在还有一些实施例中,所述第一搜索实体还可包括与一级分类信息进行组合的:
标签实体与一级分类信息组合形成的搜索条件。
该标签实体包括但不限于:
地域标签;
风格标签;
评价标签。
所述地域标签可以用于指示资源的源产地或者归属地;所述风格标签可以用于指示资源的风格,例如,指示电影的风格是动作片还是搞笑片;指示音乐是摇滚乐还是民谣等。
评价标签可为其他观众或者资源的获取者给出的评价形成的标签,例如,高分电影的好评标签,和差评电影的差评标签。
总之,在本实施例中会最终在对实体匹配模式下,会利用多个第一搜索实体分别与一级分类信息进行匹配得到所述搜索条件。
在另一些实施例中,所述步骤S120可包括:
利用离线训练的分类模型对所述搜索词条进行处理得到所述一级分类信息。
在本实施例中会离线训练分类模型,该分类模型可为机器学习模型也可以是深度学习模型。在离线训练则不用占用线上资源。在离线完成了分类模型的训练之后,将分类模型的模型参数打包,加载到连接在网络中可以响应搜索终端的搜索请求的搜索引擎中,完成分类模型的上线。分类模型上线之后,就可以用于对搜索词条进行处理得到所述一级分类信息。
所述搜索词条被输入到分类模型中之后,分类模型自动判定出搜索词条的搜索意图所指向的一级分类信息。
在本实施例中将搜索词条输入到分类模型之前,会对搜索词条进行预处理,通过预处理使得搜索词条的文本规范化。所述预处理包括但不限于以下至少之一:
去除搜索词条中的停用词;
去除搜索词条中的非法字符或非法字符串;
去除搜索词条中的乱码。
所述停用词包括但不限于以下至少之一:
搜索词条中的不具有实际含义的功能词,例如,量词、方位介词等介词、语气助词、副词、连接词等。
而通常搜索词条中有实际含义的字词可包括名词。在一些情况下所述搜索词条中有实际含义的字词还可包括:动词和形容词等。
在完成预处理后的搜索词条可以进一步进行分词处理,例如,根据词性语义进行搜索词条的拆分,可以得到一个或多个关键词对应的词组序列;最终将该词组序列输入到分类模型中得到所述一级分类信息。
在步骤S130中结合搜索词条和一级分类信息进行资源的搜索可包括:
结合所述词组序列和所述一级分类信息进行资源的搜索。
在一些实施例中,离线训练所述分类模型包括以下至少之一:
利用基于资源索引文件获得的第一类训练语料训练所述分类模型;
利用基于人物库索引文件获得的第二类训练语料训练所述分类模型;
利用基于搜索引擎的搜索日志获得第三类训练语料训练所述分类模型。
在本实施例中进行分类模型可以采用上述三类训练语料中的一个中或多种进行分类模型的训练,如此训练得到的分类模型能够精确的预测出搜索词条的一级分类信息。
在一些实施例中,所述方法还包括:
定期更新所述分类模型,将更新后的所述分类模型的模型参数封装为二进制文件;
将所述二进制文件加载给所述搜索引擎,以用于所述一级分类信息的确定。
在本实施例中,所述定期更新分类模型包括:周期更新分类模型,也可以按照不等时间间隔更新所述分类模型。
通过分类模型的定期更新,可以方便根据当前搜索情况动态的调整分类模型的模型参数,从而使得模型参数对搜索意图的预测能够更上随时间产生的变化。
在本实施例中会将所述分类模型的模型参数封装为二进制文件,所述模型参数包括超参数和普通参数;所述超参数决定了分类模型的结构,例如,决定了神经网络的网络层数,每一次包括的节点数;所述普通参数可包括:但一个节点的权重等。
总之,搜索引擎拿到所述模型参数之后,可以还原出所述分类模型。在本实施例中所述模型参数封装为二进制文件,而二进制文件是一种机械语言构成的文件,一方面封装引擎可以很便捷的识别并获得分类模型,相对于封装为自然语言或汇编语言,搜索引擎拿到自然语言或汇编语言首先需要转换为机械语言,才能获得所述分类模型。
如图3所示,本实施例提供一种资源搜索装置,包括:
第一获取模块110,用于获取搜索词条;
确定模块120,用于根据所述搜索词条,确定所述搜索词条搜索意图的一级分类信息;
搜索模块130,用于结合所述搜索词条和所述一级分类信息,搜索所述搜索词条指向的资源。
在一些实施例中,所述第一获取模块110、确定模块120及搜索模块130均可为程序模块;所述程序模块被处理器执行后,能够获取到所述搜索词条、一级分类信息及资源的定位。
在另一些实施例中,所述第一获取模块110、确定模块120及搜索模块130均可为软硬结合模块;所述软硬结合模块包括但不限于可编程阵列;所述可编程阵列包括但不限于复杂编程阵列或现场可编程阵列。
在还有一些实施例中,所述第一获取模块110、确定模块120及搜索模块130可为纯硬件模块;所述纯硬件模块包括但不限于专用集成电路。
可选地,所述装置还包括:
第二获取模块,用于获取所述一级分类信息的分类概率;
所述结合模块,具体用于若所述分类概率大于概率阈值,结合所述搜索词条和所述一级分类信息搜索资源。
可选地,所述搜索模块130,包括:
识别子模块,用于识别所述搜索词条,确定出所述搜索词条是否包含预定的搜索实体;
第一确定子模块,用于若所述搜索词条包含第一搜索实体,根据所述第一搜索实体的数目,确定匹配模式;
搜索子模块,用于利用所述第一搜索实体和所述一级分类信息,使用确定的所述匹配模式,搜索资源。
可选地,所述第一确定子模块,具体用于执行以下至少之一:
若所述第一搜索实体的个数为1,确定采用单实体匹配模式;
若所述第一搜索实体的个数大于1,确定采用多实体匹配模式。
可选地,所述搜索子模块,具体用于若采用单实体匹配模式,将所述第一搜索实体与由第二搜索实体形成的搜索树进行匹配;若所述搜索树中的所述第二搜索实体包含所述第一搜索实体,确定所述搜索树中是否有与所述第一搜索实体匹配的资源实体;若所述搜索树中有与所述第一搜索实体匹配的资源实体,基于所述第一搜索实体对应的资源标识及所述一级分类信息,确定所述资源。
可选地,所述搜索子模块,还具体用于若所述搜索树中有与所述第一搜索实体匹配的资源实体,基于所述第一搜索实体对应的资源标识,以第一权重在所述一级分类信息所指向的资源类别中进行资源搜索;以第二权重在所述一级分类信息所指向的资源类别外进行资源搜索,其中,所述第二权重小于所述第一权重。
可选地,所述搜索子模块,具体用于若所述搜索树没有与所述第一搜索实体匹配的资源实体,根据基于所述搜索词条及所述一级分类信息进行所述资源的搜索。
可选地,所述搜索子模块,还具体用于所述若所述搜索树没有与所述第一搜索实体匹配的资源实体,基于所述搜索词条所确定的搜索信息,以第三权重在所述一级分类信息所指向的搜索类别中进行资源搜索;以第四权重在所述一级分类信息所指向的搜索类别外进行资源搜索,其中,所述第三权重小于所述第四权重;所述搜索信息包括搜索类别和/或搜索标签。
可选地,所述搜索子模块,还具体用于若采用多实体匹配模式,将一个或多个所述第一搜索实体分别与所述一级分类信息组合形成搜索条件;基于每一个搜索条件进行资源搜索,并组合每一个搜索条件所形成的搜索结果得到所述目标搜索资源。
可选地,所述搜索子模块,具体用于执行以下之一;
若采用多实体匹配模式,将人物实体和所述一级分类信息组合成所述搜索条件;
若采用多实体匹配模式,将资源实体和所述一级分类信息组合成所述搜索条件。
可选地,所述确定模块120,具体用于利用离线训练的分类模型对所述搜索词条进行处理得到所述一级分类信息。
可选地,所述装置还包括:
训练模块,用于执行以下至少之一:
利用基于资源索引文件获得的第一类训练语料训练所述分类模型;
利用基于人物库索引文件获得的第二类训练语料训练所述分类模型;
利用基于搜索引擎的搜索日志获得第三类训练语料训练所述分类模型。
可选地,所述装置还包括:
更新模块,用于定期更新所述分类模型,将更新后的所述分类模型的模型参数封装为二进制文件;
加载模块,用于将所述二进制文件加载给所述搜索引擎,以用于所述一级分类信息的确定。
以下结合上述任意实施例提供一个具体示例:
本示例提出一套完整的视频搜索中的查询意图识别方案,用于预测用户查询中的资源分类,提取关键人物和资源实体,资源标签信息等,并基于以上信息给出完善的视频查询处理方案。本示例在于准确的理解、识别用户的需求和检索条件,解决基于文本匹配的搜索在某些情况下即使结果存在用户也无法获取真正想要的结果的问题。提供视频搜索引擎意图识别能力,可以人性化的帮助用户尽可能的搜索到所需的视频资源,提升搜索质量。
第一步:本示例中首先采用基于机器学习的分类方法进行查询资源类别训练和判断,其系统架构图4所示,具体包括:
离线分类模型训练;
模型加载上线之后,在线进行视频资源分类预测。
意图识别方案的查询资源分类预测部分采用离线训练和在线分类的方式部署。离线训练和在线分类,使计算量大的分类模型训练部分在后台周期运行,通过训练输出分类模型。搜索引擎加载分类模型后,供在线预测模块判别搜索词的资源分类。模型训练过程不影响在线分类,周期性的训练使模型能够不断基于数据进行迭代更新,对在线分类模型做出适时调整,不断优化以适应视频查询热点和新资源的不断变化。
具体流程如下:
首先,离线训练,所述离线训练包括:
文本语料搜集:搜集整理文本语料集合用于词向量和分类模型训练。
在训练过程中,利用逻辑回归函数和softmax作为损失函数进行模型训练或更新。具体实现过程中,分类模型的训练可以不限于逻辑回归和softmax的应用。
本示例分别从搜索引擎索引库和搜索引擎点击日志库中获取训练数据,具体为:
一般视频资源索引文件训练语料提取:抽取资源名称和对应资源类别作为一类分类模型训练语料;抽取资源描述和资源类别作为一类训练语料,抽取资源标签信息和资源类别作为一类训练语料。
如:
狄仁杰之神都龙王 电影
【徐克狄仁杰电影】 电影
韩剧 电视剧
bbc 纪实
来自星星的你电视剧
……
从人物库索引文件中,提取人物名和人物类别组合成训练语料。
如:
刘德华 人物
从搜索引擎点击日志中提取训练语料:提取每个用户的查询和对应的点击序列以及点击的资源类别,每个查询结果点击最多的资源类别作为查询对应的资源类别标签,每个查询和抽取的资源类别形成一条分类模型训练数据。
如:
刘德华的电影 电影
徐克导演的狄仁杰 电影
……
文本预处理:文本规范化,去除文本中的常用停用词,非法字符,非法字符串,乱码等文本语义理解的干扰,清晰和规范化文本。
文本分词:根据词性语义对文本进行中文分词,将文本划分成中文词组序列。
词向量训练:以无监督学习的方式,统计词频,词的共性,词的搭配等信息,实现语料库中词分布式表达和编码。
模型训练:将文本编码为词向量的形式,输入机器学习模型,采用逻辑回归+softmax训练,有监督机器学习方式训练分类模型参数。根据查询点击日志和视频索引资源等训练语料的不断更新,周期性的训练优化分类模型,输出更新后的分类模型,保证分类模型的时效性和准确率。
模型输出:离线训练部分输出为优化好的分类模型二进制文件,其中封装了语料的词向量字典和分类模型的超参数等模型参数,能够方便部署和调用。
其次,在线分类,所述在线分类包括:
第一步:调用分类模型:搜索引擎周期性的加载最新训练的分类模型,查询请求经过文本预处理后,调用分类模型的预测接口进行在线查询资源类别意图判别,获取查询请求对应的资源类别和概率值。
比如用户搜索“徐克的狄仁杰”,查询意图分类模型通过计算给出“电影 0.95”,“电视剧 0.03”,……,模型以很大的概率预测出本次用户的查询意图为电影类资源。
当前分类模型输出视频查询的一级分类目标包括人物、电影、纪实、电视剧、动漫、综艺。
第二步:接下来进行进一步精细化的解析查询语句,获取关键的视频资源和人物名,影片标签,影片类型,地域描述等关键信息,并归纳为四类查询逻辑,结合第一步的查询资源分类预测信息,调用查询逻辑精准查找并返回用户需要的资源。分类模型上线之后,进行资源搜索时,所述流程可如图5所示,包括:
查询,例如,搜索设备继续资源查询,则搜索引擎将接收到查询语句,这里的查询语句为前述搜索词条的一种。
查询文本预处理,查询文本为查询语句的组成部分,此处的预处理主要是使得查询文本规范化,删减去查询文本中的停用词、非法字符或字符串等。
意图分类预测引擎基于分类模型进行意图预测,从而得到前述的一级分类信息,并得到一级分类信息所指向的一级分类的得分,该得分对应于前述的分类概率。
一级分类的概率得分是否大于0.8,此处的0.8即为前述的概率阈值的一种;
若是,进行实体识别;
若否,直接基于搜索词条(即所述查询文本)进行资源搜索。
在实体识别之后,判断是否存在实体;
若存在实体,确定是否单实体,即查询文本中仅包括一个搜索实体;
若不存在实体,则直接基于搜索词条和一级分离信息进行资源搜索;
若为单实体,将单实体与搜索树进行匹配;
基于单实体与搜索树的匹配,确定搜索树中是否有与搜索树匹配的资源实体;
若有资源实体,基于搜索词条形成的类别或标签,进行标签查询并提高一级分类信息所对应的类别的权重;
若无资源实体,基于资源名称和搜索词条对应的搜索意图进行资源搜索,并加大一级分类信息所对应类别的权重。
若不是单实体,确定是采用组合类型进行多实体匹配;
一种方式:利用人物实体和一级分类信息和基于搜索词条再次解析得到的意图封装为搜索条件;
另一种方式,利用人物实体、资源名称和搜索词条再次解析得到的意图封装为搜索条件。
将搜索条件输入到搜索引擎进行资源搜索。
实体、标签抽取和模式匹配模块
实体抽取:实体为用户查询的子串且同时为视频库内的资源名、演员导演名称,或视频标签、地域和资源类型描述等。实现方案是使用库内数据构造树(tree),通过最大前缀匹配找出查询串包含的所有实体。此处的子串为:用户输入的查询内容中的部分内容;例如,用户输入的查询内容为“刘德华版狄仁杰”,其中,“刘德华”及“狄仁杰”都是属于查询内容“刘德华版狄仁杰“的子串。
1:单实体类型
模式A1:一级分类及子类别,资源类型和地域描述等,以及资源标签信息。查询方案引入标签搜索,并加大资源一级分类权重。
比如:“韩剧”,“bbc”,“纪录片”,“欧美动作片”,“宫斗剧”等是一些热门标签。
用户搜索“bbc”时,意图识别模块判断用户查询“纪实”资源,标签为“bbc”,搜索逻辑查询并返回标签为“bbc”的纪实类资源。
模式B1:实体资源和带意图文本,搜索实体资源并将该一级分类提高权重。
比如用户搜索“狄仁杰电视剧”和“狄仁杰电影”时,意图识别向搜索引擎输出参训参数和方案:搜索引擎查询逻辑分别查找片名为“狄仁杰”相关的电视剧和电影资源。
2:多实体类型
模式A2:人物+一级分类:按照人物域和一级分类域分别进行搜索,组合搜索结果。
比如用户搜索“刘德华电影”,意图识别引擎提取“刘德华”是电影人物实体,“电影”是一级资源分类,搜索引擎查询刘德华的电影资源返回用户。
模式B2:人物+资源名称:按照人物和资源名称分别进行搜索,组合搜索结果,并对意图一级分类提高权重。
比如用户搜索“刘德华演的狄仁杰”,意图引擎识别出用户要查找刘德华主演的电影,并且电影名称和“狄仁杰”相关。搜索引擎模块会查询刘德华主演的片名为“狄仁杰”相关的电影资源,并返回用户。
搜索引擎模块,用于将提取的查询文本和过滤条件输入搜索引擎,进行匹配查找,返回结果给用户。
基于倒排索引和关键词匹配,过滤和返回查询结果。
本示例采用机器学习的方法,训练和预测用户的查询目标视频资源分类。具体为视频中的资源大类,包括但不限于:电影、电视剧、纪实、综艺、动漫和人物。
另外训练查询资源目标类别的语料收集和抽取方案:
从原始索引数据中抽取资源名称、标签、描述,资源类别字段,人物库抽取人物名称等和资源类别标签组成训练语料;结合从用户点击日志抽取用户查询语句和点击的资源类别,共同作为查询资源分类的训练语料。
除上一步中的搜索意图资源类别预测外,本示例提出的视频搜索中的细粒度查询语句解析策略,以及对应的分组查询方案为另一大保护点,包括但不限于以上四大查询模式匹配和查询处理方案。具体为通过实体抽取,标签抽取,模式匹配分类组织成不同的查询意图,调用对应查询逻辑处理。
本示例提出的视频搜索资源分类预测结合资源实体和标签信息抽取,准确判断查询语句中的关键信息,然后调用精准的查询逻辑,并基于资源分类预测的概率得分调控对应资源在查询结果里的分组排序。
本示例能够提取和理解用户的查询意图,分组成不同查询方案,并调用查询逻辑精准返回结果。解决了单纯文本匹配的查询方式查不准、查不全的弊端。
基于索引和查询训练的分类模型,用在资源分类中精度高,泛化性强。
本示例的查询资源分类的训练和分析过程是自动化的,无需人工干预,自动从索引库和日志库获取数据源,抽取训练语料,训练和更新分类模型,提升了系统的自动化程度。
准确预测判断查询的资源类别和用户需求,按条件过滤资源,不用查询全部类型资源数据,节省查询处理开销。
如图6所示,本实施例提供了一种搜索设备,包括:
存储器;
处理器,与所述存储器连接,用于通过执行位于所述存储器上的计算机可执行指令,能够实现前述任意技术方案提供的资源搜索方法,例如,图1和/或图3所示资源搜索方法。
该存储器可为各种类型的存储器,可为随机存储器、只读存储器、闪存等。所述存储器可用于信息存储,例如,存储计算机可执行指令等。所述计算机可执行指令可为各种程序指令,例如,目标程序指令和/或源程序指令等。
所述处理器可为各种类型的处理器,例如,中央处理器、微处理器、数字信号处理器、可编程阵列、数字信号处理器、专用集成电路或图像处理器等。
所述处理器可以通过总线与所述存储器连接。所述总线可为集成电路总线等。
在一些实施例中,所述搜索设备还可包括:通信接口,该通信接口可包括:网络接口、例如,局域网接口、收发天线等。所述通信接口同样与所述处理器连接,能够用于信息收发。
在一些实施例中,所述搜索设备还包括人机交互接口,例如,所述人机交互接口可包括各种输入输出设备,例如,键盘、触摸屏等。
本实施例提供一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令;所述计算机可执行指令被执行后,能够应用于搜索设备、数据库、第一私有网络中一个或多个技术方案提供的资源搜索方法,例如,图1、图2及图5所示资源搜索方法中的一个或多个。
所述计算机存储介质可为包括具有记录功能的各种记录介质,例如,CD、软盘、硬盘、磁带、光盘、U盘或移动硬盘等各种存储介质。可选的所述计算机存储介质可为非瞬间存储介质,该计算机存储介质可被处理器读取,从而使得存储在计算机存储机制上的计算机可执行指令被处处理器获取并执行后,能够实现前述任意一个技术方案提供的资源搜索方法,例如,执行图1、图2及图5所示方法中的一个或多个。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理模块中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (7)

1.一种资源搜索方法,其特征在于,包括:
获取搜索词条;
根据所述搜索词条,确定所述搜索词条搜索意图的一级分类信息;
结合所述搜索词条和所述一级分类信息,搜索所述搜索词条指向的资源;
其中,所述结合所述搜索词条和所述一级分类信息搜索资源,包括:
识别所述搜索词条,确定出所述搜索词条是否包含预定的搜索实体;
若所述搜索词条包含第一搜索实体,根据所述第一搜索实体的数目,确定匹配模式;
利用所述第一搜索实体和所述一级分类信息,使用确定的所述匹配模式,搜索资源;
其中,所述若所述搜索词条包含第一搜索实体,根据所述第一搜索实体的数目,确定匹配模式,包括以下至少之一:若所述第一搜索实体的个数为1,确定采用单实体匹配模式;若所述第一搜索实体的个数大于1,确定采用多实体匹配模式;
其中,所述利用所述第一搜索实体和所述一级分类信息,使用确定的所述匹配模式,搜索资源,包括:
若采用单实体匹配模式,将所述第一搜索实体与由第二搜索实体形成的搜索树进行匹配;
若所述搜索树中的所述第二搜索实体包含所述第一搜索实体,确定所述搜索树中是否有与所述第一搜索实体匹配的资源实体;
若所述搜索树中有与所述第一搜索实体匹配的资源实体,基于所述第一搜索实体对应的资源标识及所述一级分类信息,确定所述资源;
其中,所述若所述搜索树中有与所述第一搜索实体匹配的资源实体,基于所述第一搜索实体对应的资源标识及所述一级分类信息,确定所述资源,包括:
若所述搜索树中有与所述第一搜索实体匹配的资源实体,基于所述第一搜索实体对应的资源标识,以第一权重在所述一级分类信息所指向的资源类别中进行资源搜索;以第二权重在所述一级分类信息所指向的资源类别外进行资源搜索,其中,所述第二权重小于所述第一权重;
其中,所述利用所述第一搜索实体和所述一级分类信息,使用确定的所述匹配模式,搜索资源,包括:
若所述搜索树没有与所述第一搜索实体匹配的资源实体,根据基于所述搜索词条及所述一级分类信息进行所述资源的搜索;
其中,所述若所述搜索树没有与所述第一搜索实体匹配的资源实体,根据基于所述搜索词条及所述一级分类信息进行所述资源的搜索,包括以下至少之一:
所述若所述搜索树没有与所述第一搜索实体匹配的资源实体,基于所述搜索词条所确定的搜索信息,以第三权重在所述一级分类信息所指向的搜索类别中进行资源搜索;以第四权重在所述一级分类信息所指向的搜索类别外进行资源搜索,其中,所述第三权重小于所述第四权重;所述搜索信息包括搜索类别和/或搜索标签。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述一级分类信息的分类概率;
所述结合所述搜索词条和所述一级分类信息,搜索所述搜索词条指向的资源,包括:
若所述分类概率大于概率阈值,结合所述搜索词条和所述一级分类信息搜索资源。
3.根据权利要求1所述的方法,其特征在于,所述利用所述第一搜索实体和所述一级分类信息,使用确定的所述匹配模式,搜索资源,包括:
若采用多实体匹配模式,将一个或多个所述第一搜索实体分别与所述一级分类信息组合形成搜索条件;
基于每一个搜索条件进行资源搜索,并组合每一个搜索条件所形成的搜索结果得到目标搜索资源。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述根据所述搜索词条,确定所述搜索词条搜索意图的一级分类信息,包括:
利用离线训练的分类模型对所述搜索词条进行处理得到所述一级分类信息。
5.一种资源搜索装置,其特征在于,包括:
第一获取模块,用于获取搜索词条;
确定模块,用于根据所述搜索词条,确定所述搜索词条搜索意图的一级分类信息;
搜索模块,用于结合所述搜索词条和所述一级分类信息,搜索所述搜索词条指向的资源;
所述搜索模块,包括:
识别子模块,用于识别所述搜索词条,确定出所述搜索词条是否包含预定的搜索实体;
第一确定子模块,用于若所述搜索词条包含第一搜索实体,根据所述第一搜索实体的数目,确定匹配模式;
搜索子模块,用于利用所述第一搜索实体和所述一级分类信息,使用确定的所述匹配模式,搜索资源;
所述第一确定子模块,还用于执行以下至少之一:若所述第一搜索实体的个数为1,确定采用单实体匹配模式;若所述第一搜索实体的个数大于1,确定采用多实体匹配模式;
所述搜索子模块,还用于若采用单实体匹配模式,将所述第一搜索实体与由第二搜索实体形成的搜索树进行匹配;若所述搜索树中的所述第二搜索实体包含所述第一搜索实体,确定所述搜索树中是否有与所述第一搜索实体匹配的资源实体;若所述搜索树中有与所述第一搜索实体匹配的资源实体,基于所述第一搜索实体对应的资源标识及所述一级分类信息,确定所述资源;若所述搜索树中有与所述第一搜索实体匹配的资源实体,基于所述第一搜索实体对应的资源标识,以第一权重在所述一级分类信息所指向的资源类别中进行资源搜索;以第二权重在所述一级分类信息所指向的资源类别外进行资源搜索,其中,所述第二权重小于所述第一权重;若所述搜索树没有与所述第一搜索实体匹配的资源实体,根据基于所述搜索词条及所述一级分类信息进行所述资源的搜索;所述若所述搜索树没有与所述第一搜索实体匹配的资源实体,基于所述搜索词条所确定的搜索信息,以第三权重在所述一级分类信息所指向的搜索类别中进行资源搜索;以第四权重在所述一级分类信息所指向的搜索类别外进行资源搜索,其中,所述第三权重小于所述第四权重;所述搜索信息包括搜索类别和/或搜索标签。
6.一种搜索设备,包括:
存储器;
处理器,与所述存储器连接,用于通过执行存储在所述存储器上的计算机可执行指令,实现权利要求1至4任一项提供的方法。
7.一种计算机存储介质;所述计算机存储介质上存储有计算机可执行指令,所述计算机可执行指令被处理器执行后,能够实现权利要求1至4任一项提供的方法。
CN201910483325.2A 2019-06-04 2019-06-04 资源搜索方法及装置、搜索设备及存储介质 Active CN112035688B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910483325.2A CN112035688B (zh) 2019-06-04 2019-06-04 资源搜索方法及装置、搜索设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910483325.2A CN112035688B (zh) 2019-06-04 2019-06-04 资源搜索方法及装置、搜索设备及存储介质

Publications (2)

Publication Number Publication Date
CN112035688A CN112035688A (zh) 2020-12-04
CN112035688B true CN112035688B (zh) 2022-12-13

Family

ID=73576457

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910483325.2A Active CN112035688B (zh) 2019-06-04 2019-06-04 资源搜索方法及装置、搜索设备及存储介质

Country Status (1)

Country Link
CN (1) CN112035688B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112579899A (zh) * 2020-12-21 2021-03-30 杭州米络星科技(集团)有限公司 一种主播的搜索方法和装置
CN112883266A (zh) * 2021-02-18 2021-06-01 深圳市欢太科技有限公司 搜索方法、搜索装置、存储介质与电子设备
CN114006719B (zh) * 2021-09-14 2023-10-13 国科信创科技有限公司 基于态势感知的ai验证方法、装置及系统
CN115757699B (zh) * 2022-11-19 2023-07-25 深圳市宁远科技股份有限公司 基于模糊匹配的医疗平台智能用户实体搜索系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102033877A (zh) * 2009-09-27 2011-04-27 阿里巴巴集团控股有限公司 检索方法和装置
CN102737029A (zh) * 2011-04-02 2012-10-17 腾讯科技(深圳)有限公司 搜索方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102033877A (zh) * 2009-09-27 2011-04-27 阿里巴巴集团控股有限公司 检索方法和装置
CN102737029A (zh) * 2011-04-02 2012-10-17 腾讯科技(深圳)有限公司 搜索方法及系统

Also Published As

Publication number Publication date
CN112035688A (zh) 2020-12-04

Similar Documents

Publication Publication Date Title
US11720572B2 (en) Method and system for content recommendation
CN112035688B (zh) 资源搜索方法及装置、搜索设备及存储介质
CN108829893B (zh) 确定视频标签的方法、装置、存储介质和终端设备
US9626424B2 (en) Disambiguation and tagging of entities
US20040049499A1 (en) Document retrieval system and question answering system
WO2017070656A1 (en) Video content retrieval system
US20130060769A1 (en) System and method for identifying social media interactions
CN114661872B (zh) 一种面向初学者的api自适应推荐方法与系统
CN114186013A (zh) 实体识别模型热更新方法及其装置、设备、介质、产品
US20120130999A1 (en) Method and Apparatus for Searching Electronic Documents
CN113688951A (zh) 视频数据处理方法以及装置
CN114997288A (zh) 一种设计资源关联方法
CN114676346A (zh) 新闻事件处理方法、装置、计算机设备和存储介质
US20220222289A1 (en) Automatic embedding of additional content to articles
US20210406291A1 (en) Dialog driven search system and method
Kordabadi et al. A movie recommender system based on topic modeling using machine learning methods
Werner et al. Using DL-reasoner for hierarchical multilabel classification applied to economical e-news
WO2017135889A1 (en) Ontology determination methods and ontology determination devices
US11934406B2 (en) Digital content data generation systems and methods
CN115374781A (zh) 文本数据信息挖掘方法、装置、设备
CN114595370A (zh) 模型训练、排序方法、装置、电子设备及存储介质
Shrimali et al. Content based Video Recommendation System
CN111061939A (zh) 基于深度学习的科研学术新闻关键字匹配推荐方法
Wang et al. Exploring knowledge of sub-domain in a multi-resolution bootstrapping framework for concept detection in news video
KR100350785B1 (ko) 멀티미디어 데이타의 특징 기술정보 생성방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant