CN110377817A

CN110377817A - 搜索词条挖掘方法和装置及其在多媒体资源的应用

Info

Publication number: CN110377817A
Application number: CN201910512254.4A
Authority: CN
Inventors: 马春洋; 王园; 陈玉娴; 董维山
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-06-13
Filing date: 2019-06-13
Publication date: 2019-10-25
Anticipated expiration: 2039-06-13
Also published as: CN110377817B

Abstract

本发明实施例涉及信息技术及计算机技术领域，提供了一种搜索(query)词条挖掘方法和装置及其在多媒体资源的应用。所述搜索词条挖掘方法包括：从多种文本数据源中挖掘出候选搜索词条；对所述候选搜索词条进行质量审核；以及对通过所述质量审核后的候选搜索词条进行召回评估，并将通过所述召回评估的候选搜索词条确定为优质搜索词条。本发明实施例的搜索词条挖掘方法不仅基于多种文本数据源挖掘了搜索词条，还对搜索词条进行了质量审核和召回评估，只保留优质搜索词条，提高了搜索词条的搜索效果及实用性，且还能应用于多媒体资源中以主动满足用户对知识和资讯的搜索需求。

Description

搜索词条挖掘方法和装置及其在多媒体资源的应用

技术领域

本发明涉及信息技术及计算机技术领域，具体地涉及一种搜索词条挖掘方法和装置及其在多媒体资源的应用。

背景技术

目前，为了满足用户对知识和资讯的需求的不断增长，许多应用(Application)都在考虑为用户配置专门的搜索(query)词条，例如在网页新闻的下方列出一些新闻关键词等。

但现有技术中对于直接实现搜索词条的生成并无成熟技术方案，只是简单地以某一类词条作为搜索词条或人工生成搜索词条，效果局限显著，实用性较低。具体地，现有技术中主要有以下三种获取搜索词条的方案：

1)直接以用户历史搜索词条为搜索词条。

其中，用户历史搜索词条例如为用户通过搜索引擎进行信息搜索时输入的词条，其可以反映用户对资讯和知识的直接需求。但是，用户历史搜索词条是UGC(UserGenerated Content，用户原创内容)数据，可能存在大量不规范甚至不合规的信息，如果直接作为搜索词条，是不合适的，甚至可能产生法律风险。此外，用户输入的搜索词条，也并不一定就能够获得相符合的搜索结果，即无法保证较高的召回匹配度。

2)直接以用户搜索热词为搜索词条。

用户搜索热词例如百度风云榜、微博头条等直接给出的词条，采用这类词条的好处在于能够充分捕捉时事热点，且已经经过相关网站和机构的过滤，避免了不合规词条的出现。但是，用户搜索热词的数量非常有限，不足以满足多用户对搜索词条的量级需求，并且同样无法保证较高的召回匹配度。

3)人工生产搜索词条。

该方法的好处是人工生产的搜索词条质量优质，主要缺陷则在于人工成本极高，且无法满足时效性和搜索词条的量级需求。

因此，需要有新的方案来挖掘出具有基数大、时效性高、召回匹配度高等优点的优质搜索词条，以满足更多应用(Application)的需求。

发明内容

本发明实施例的目的是提供一种搜索词条挖掘方法，用于解决或至少部分解决上述技术问题。

为了实现上述目的，本发明实施例提供一种搜索词条挖掘方法，所述方法包括：从多种文本数据源中挖掘出候选搜索词条；对所述候选搜索词条进行质量审核；以及对通过所述质量审核后的候选搜索词条进行召回评估，并将通过所述召回评估的候选搜索词条确定为优质搜索词条。

可选的，所述多种文本数据源包括提供以下文本数据中的任意一者或多者的数据源：搜索热词、线上信息资源的文本数据以及多媒体资源的文本数据。

可选的，所述从多种文本数据源中挖掘出候选搜索词条包括：从所述多种文本数据源中获取文本数据；以及基于所获取的文本数据的字数进行文本数据处理，以筛选出候选搜索词条。

可选的，所述基于所获取的文本数据的字数进行文本数据处理包括：选择字数符合预设字数范围的文本数据作为所述候选搜索词条；以及对字数超出所述预设字数范围的文本数据，执行：对该文本数据进行关键词提取以形成关键词列表；对该文本数据进行长文本截断以形成若干短子句；以及若所述短子句中包含所述关键词列表中的关键词的数量超出设定阈值，则将该短子句作为所述候选搜索词条。

可选的，所述对所述候选搜索词条进行质量审核包括：对所述候选搜索词条进行去重处理，以去除其中重复的词条；以及对通过所述去重处理后的所述候选搜索词条进行语法审核，以选择出符合预设语法规则的词条。

可选的，所述对通过所述质量审核后的候选搜索词条进行召回评估包括：获取每一候选搜索词条对应的召回资源及该召回资源的标题；对所述每一候选搜索词条进行关键词提取，并获取所提取的关键词中处于该每一搜索词条对应的召回资源的标题中的合格关键词的占比，若该占比超过预设的资源匹配概率，则判定该候选搜索词条与对应召回资源的资源匹配度合格；获取每一候选搜索词条对应的召回资源中与该每一候选搜索词条相匹配的合格召回资源的占比，若该占比超过预设的召回匹配概率，则判定针对该候选搜索词条的召回合格；以及将召回合格且资源匹配度合格的候选搜索词条判定为召回评估合格。

相对于现有技术，本发明实施例所述的搜索词条挖掘方法具有以下优势：本发明实施例的搜索词条挖掘方法不仅基于多种文本数据源挖掘了搜索词条，还对搜索词条进行了质量审核和召回评估，使得只保留优质搜索词条，提高了搜索词条的搜索效果及实用性。

本发明另一目的在于提出一种在多媒体资源中生成搜索词条的方法，以实现上述搜索词条挖掘方法的应用。

为达到该目的，本发明实施例还提供一种在多媒体资源中生成搜索词条的方法，该方法包括：采用上述的搜索词条挖掘方法挖掘出优质搜索词条；将所述优质搜索词条匹配至多媒体资源；以及配置所述优质搜索词条在所述多媒体资源中能够响应于用户操作而展示对应搜索结果。

可选的，所述将所述优质搜索词条匹配至多媒体资源中包括：将所述优质搜索词条推送至所述多媒体资源中；和/或获取所述多媒体资源的内容，并匹配与所述多媒体资源的内容对应的所述优质搜索词条。

相对于现有技术，本发明所述的在多媒体资源中生成搜索词条的方法具有以下优势：本发明实施例在多媒体资源中生成了可以点击的优质搜索词条，能主动满足用户对知识和资讯的搜索需求，可以培养用户在浏览多媒体资源的同时进行知识搜索的行为习惯。

相应的，本发明实施例还提供一种搜索词条挖掘装置，所述搜索词条挖掘装置包括：候选词条挖掘模块，用于从多种文本数据源中挖掘出候选搜索词条；质量审核模块，用于对所述候选搜索词条进行质量审核；以及召回评估模块，用于对通过所述质量审核后的候选搜索词条进行召回评估，并将通过所述召回评估的候选搜索词条确定为优质搜索词条。

可选的，所述候选词条挖掘模块包括：文本获取子模块，用于从所述多种文本数据源中获取文本数据；以及文本处理子模进行文本数据处理，以筛选出候选搜索词条。

可选的，所述文本处理子模块用于基于所获取的文本数据的字数进行文本数据处理包括：选择字数符合预设字数范围的文本数据作为所述候选搜索词条；以及对字数超出所述预设字数范围的文本数据，执行以下操作：对该文本数据进行关键词提取以形成关键词列表；对该文本数据进行长文本截断以形成若干短子句；以及若所述短子句中包含所述关键词列表中的关键词的数量超出设定阈值，则将该短子句作为所述候选搜索词条。

可选的，所述质量审核模块包括：去重子模块，用于对所述候选搜索词条进行去重处理，以去除其中重复的词条；以及语法审核子模块，用于对通过所述去重处理后的所述候选搜索词条进行语法审核，以选择出符合预设语法规则的词条。

可选的，所述召回评估模块包括：召回资源获取子模块，用于获取每一候选搜索词条对应的召回资源及该召回资源的标题；第一判定子模块，用于对所述每一候选搜索词条进行关键词提取，并获取所提取的关键词中处于该每一搜索词条对应的召回资源的标题中的合格关键词的占比，若该占比超过预设的资源匹配概率，则判定该候选搜索词条与对应召回资源的资源匹配度合格；第二判定子模块，用于获取每一候选搜索词条对应的召回资源中与该每一候选搜索词条相匹配的合格召回资源的占比，若该占比超过预设的召回匹配概率，则判定针对该候选搜索词条的召回合格；以及第三判定子模块，用于将召回合格且资源匹配度合格的候选搜索词条判定为召回评估合格。

该搜索词条挖掘装置与上述搜索词条挖掘方法相对于现有技术所具有发明目的及优势相同，在此不再赘述。

相应的，本发明实施例还提供一种在多媒体资源中生成搜索词条的装置，所述装置包括：上述的搜索词条挖掘装置，用于挖掘出优质搜索词条；词条匹配模块，用于将所述优质搜索词条匹配至多媒体资源中；以及配置模块，用于配置所述优质搜索词条在所述多媒体资源中能够响应于用户操作而展示对应搜索结果。

可选的，所述词条匹配模块包括：推送子模块，用于将所述优质搜索词条推送至所述多媒体资源中；和/或内容匹配子模块，用于根据所述多媒体资源的内容，匹配与所述多媒体资源的内容对应的所述优质搜索词条。

该在多媒体资源中生成搜索词条的装置与上述在多媒体资源中生成搜索词条的方法相对于现有技术所具有发明目的及优势相同，在此不再赘述。

相应的，本发明实施例还提供一种机器可读存储介质，该机器可读存储介质上存储有指令，该指令用于机器执行上述的搜索词条挖掘方法或上述的在多媒体资源中生成搜索词条的方法。

相应的，本发明实施例还提供一种计算机设备，该计算机设备包括：一个或多个处理器；存储器，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上所述的搜索词条挖掘方法或如上所述的在多媒体资源中生成搜索词条的方法。

该机器可读存储介质及计算机设备与如上所述的搜索词条挖掘方法及在多媒体资源中生成搜索词条的方法相对于现有技术所具有发明目的及优势相同，在此不再赘述。

本发明实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明实施例，但并不构成对本发明实施例的限制。在附图中：

图1是本发明实施例的搜索词条挖掘方法的流程示意图；

图2是本发明实施例中基于字数进行文本数据处理的流程示意图；

图3是本发明实施例中对候选搜索词条进行质量审核的流程示意图；

图4是本发明实施例的示例中去除重复搜索词条的流程示意图；

图5是本发明实施例的示例中进行语法审核的流程示意图；

图6是本发明实施例进行词条召回评估的流程示意图；

图7是本发明实施例中在多媒体资源中生成搜索词条的方法的流程示意图；

图8是本发明实施例的一种搜索词条挖掘装置的结构示意图；以及。

图9是本发明实施例的一种在多媒体资源中生成搜索词条的装置的结构示意图。

附图标记说明

810、候选词条挖掘模块；820、质量审核模块；830、召回评估模块；811、文本获取子模块；812、文本处理子模块；821、去重子模块；822、语法审核子模块；831、召回资源获取子模块；832、第一判定子模块；833、第二判定子模块；834、第三判定子模块；800、搜索词条挖掘装置；910、词条匹配模块；920、配置模块；911、推送子模块；912、内容匹配子模块。

具体实施方式

以下结合附图对本发明实施例的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明实施例，并不用于限制本发明实施例。

图1是本发明实施例的搜索词条挖掘方法的流程示意图，其中搜索词条在现有技术中与常常称为query词条。如图1所示，本发明实施例的搜索词条控制方法可以包括以下的步骤S100-S300：

步骤S100，从多种文本数据源中挖掘出候选搜索词条。

其中，所述多种文本数据源包括提供以下文本数据中的任意一者或多者的数据源：搜索热词、线上信息资源的文本数据以及多媒体资源的文本数据。下面对这三种文本数据进行具体介绍。

1)搜索热词。

其中，搜索热词为用户搜索信息时的输入词条，可以通过用户日志挖掘的形式获得。另外，目前的一些已有互联网产品已经分析了用户的搜索热词，通过获取这些产品的数据，也可以直接获得搜索热词。这样的互联网产品包括但不限于各类热搜风云榜、用户关注点、相关搜索、推荐搜索、微博头条等。

2)线上信息资源的文本数据。

其中，线上信息资源可以包括但不限于：新闻、资讯、网页、音乐等。对应的线上信息资源的文本内容可以包括但不限于：新闻的标题、资讯的标题、视频的标题、音乐的名称或简介等。

3)多媒体资源的文本数据。

其中，多媒体资源包括但不限于：图片、视频、全景、AR和VR等。多媒体资源的文本数据包括但不限于其附加的视频弹幕、视频评论、音乐评论等。需说明的是，该第3)点的多媒体资源的文本数据相对于第2)点中线上信息资源的文本数据，更多的是UGC数据。

据此，本发明实施例通过对多种文本数据源进行文本挖掘，保证了候选搜索词条具有较大的信息量及基数，为后续从候选搜索词条中挖掘出优质搜索词条提供了数据基础。但是，直接从各个文本数据源挖掘出的词条中很可能存在大量的字数过长或过短等不合规的词条，若将这些不合规的词条作为候选搜索词条而继续用于下一步挖掘，无疑会增加后续挖掘的复杂性。

对此，在优选的实施例中，该步骤S100可以具体包括以下步骤：

步骤S110，从所述多种文本数据源中获取文本数据。

举例而言，可通过爬取、接口访问等方式从多种文本数据源中挖掘出候选搜索词条，其中多种文本数据源如上所述。

步骤S120，基于所获取的文本数据的字数进行文本数据处理，以筛选出候选搜索词条。

图2是本发明实施例中基于字数进行文本数据处理的流程示意图。如图2所示，具体可以包括以步骤：

步骤S121，选择字数符合预设字数范围的文本数据作为所述候选搜索词条。

其中，预设字数范围根据最终要求的优质搜索词条来进行设置。如此，对于字数符合优质搜索词条要求的文本数据，将其直接作为候选搜索词条以传递给下一步骤。

步骤S122，对字数超出所述预设字数范围的文本数据，进行文本数据的关键词提取以形成关键词列表，以及进行长文本截断以形成若干短子句。

其中，字数过长的文本资源多来自于各种标题。举例而言，通过步骤S121进行关键词提取，可获得关键词列表{kw1，kw2，……}。另外，提取关键词的方法可以但不限于：TextRank技术、tf-idf技术、tf-iwf技术等。

其中，可以以文本数据中的关键标点符号为分隔符，将长文本截断成若干的短子句。需说明的是，对截断后字数仍然过长的短子句，可继续进行截断或直接过滤掉，对于字数过短的文本数据，则可直接丢弃。

步骤S123，若所述短子句中包含所述关键词列表中的关键词的数量超出设定阈值，则将该短子句作为所述候选搜索词条。

举例而言，对于文本截断、过滤后及丢弃处理后的剩余短子句，选择包含关键词列表{kw1，kw2，……}中更多(数量通过设置阈值进行控制)的关键词的短子句作为候选搜索词条。

步骤S200，对所述候选搜索词条进行质量审核。

通过上文可知，候选搜索词条的来源中包括UGC数据，且有些词条是通过文本截取等方式获得，因此其中可能仍包含很多质量不符合规定词条。从而，质量审核即是对词条质量进行审核以保留质量符合规定的词条。

图3是本发明实施例中对候选搜索词条进行质量审核的流程示意图。如图3所示，其可以包括以下步骤：

步骤S210，对所述候选搜索词条进行去重处理，以去除其中重复的词条。

对于基于多种来源生成的候选搜索词条，可能出现较多的词条重复或词条相似的情况。而优质搜索词条应该能够满足相互不重复的条件，所以质量审核的第一步就是去除重复的搜索词条。

举例而言，图4是本发明实施例的示例中去除重复搜索词条的流程示意图。如图4所示，可以包括以下步骤：

步骤S211，建立一个为空的不重复搜索词条列表：LU。

步骤S212，对于所有的候选搜索词条，将其按照词条的长度进行降序排列，存入列表LC。

步骤S213，遍历列表LC中的搜索词条q。

步骤S214，判断q与LU中的词条的文本相似度，若q与LU中任一词条q’的文本相似度高于阈值，则丢弃q，否则将q加入LU中。

其中，判断q与q’的文本相似度的方法可以但不限于：共有词判断、编辑距离、Jaccard相似性系数、欧几里得距离、余弦距离等。

步骤S220，对通过所述去重处理后的所述候选搜索词条进行语法审核，以选择出符合预设语法规则的词条。

即，通过分析候选搜索词条的语法结果，判断该候选搜索词条是否是完整短句。其中，图5是本发明实施例的示例中进行语法审核的流程示意图。参考图5，给定一条候选搜索词条，对其进行语法审核则具体可以包括以下步骤：

步骤S221，根据需求制定出符合审核条件的词条的规则。

举例而言，所述规则可以是但不限于：包含主语和谓语、包含主谓宾语、属于修饰词+核心词结构等。

步骤S222，分析候选搜索词条的语义和词性。

步骤S223，根据语义和词性的分析结果，若该候选搜索词条符合规则中的任意一条，则认为该候选搜索词条通过审核，否则认为不合格，进行丢弃。

步骤S300，对通过所述质量审核后的候选搜索词条进行召回评估，并将通过所述召回评估的候选搜索词条确定为优质搜索词条。

即，对于每一条候选搜索词条，预先评估该词条能否召回相关搜索结果。其中，图6是本发明实施例进行词条召回评估的流程示意图。如图6所示，给定一条候选搜索词条，对其进行召回评估则具体可以包括以下步骤：

步骤S310，获取每一候选搜索词条对应的召回资源及该召回资源的标题。

其中，所述标题例如资讯标题、视频标题、音源名称等。

步骤S320，对所述每一候选搜索词条进行关键词提取，并获取所提取的关键词中处于该每一搜索词条对应的召回资源的标题中的合格关键词的占比，若该占比超过预设的资源匹配概率，则判定该候选搜索词条与对应召回资源的资源匹配度合格。

其中，所述预设的资源匹配概率可根据经验和/或需求来进行设置，例如需要较多关键词满足需求时，可将资源匹配概率设置得较小，如小于50％，则只要合格关键词数量过半就能满足要求。

步骤S330，获取每一候选搜索词条对应的召回资源中与该每一候选搜索词条相匹配的合格召回资源的占比，若该占比超过预设的召回匹配概率，则判定针对该候选搜索词条的召回合格。

其中，所述预设的召回匹配概率也可根据经验和/或需求来进行设置，例如需要词条与对应召回资源的匹配度较高时，可将召回匹配概率设置得较大，如大于60％，则只要合格召回资源的数量超过全部召回资源的60％才能满足要求。

步骤S340，将召回合格且资源匹配度合格的候选搜索词条判定为召回评估合格。

据此，召回合格且资源匹配度合格的候选搜索词条作为最终的优质搜索词条保留下来，其他搜索词条则可以丢弃。

综上所述，本发明实施例的搜索词条挖掘方法不仅基于多种文本数据源挖掘了搜索词条，还对搜索词条进行了质量审核和召回评估，使得只保留优质搜索词条，提高了搜索词条的搜索效果及实用性。而基于上文，可知相对于简单地以某一类词条作为搜索词条或人工生成搜索词条的方法，本发明实施例保留的优质搜索词条至少具有以下几个方面的优势：

1)信息量大，且和用户关注点相关。这与本发明实施例采用了多文本数据源挖掘相关，作为数据基础的文本数据源越多，挖掘的搜索词条的信息量越大，且其中包括的用户关注点也越多。

2)时效性高。这也与本发明实施例采用了多文本数据源挖掘相关，例如其中采用了搜索热词作为挖掘基础，而这些搜索热词正好反映了当前正热门的新闻资讯。

3)搜索词条基数较大且不重复，使得不会向用户重复推送相似词条。这是通过上述的词条质量审核处理所实现，例如其中的去重处理。

4)以搜索词条进行搜索时，可以得到与搜索词条足够相关的信息。这是通过上述的召回评估处理所实现的，召回匹配度越高，则表明通过搜索词条进行搜索得到的相关信息越多。

需说明的是，相对于现有技术中采用的搜索词条，一般满足1)到3)点就可以更好地吸引用户点击，但在一些场景，搜索词条是以主动的形式推送给用户的，从而满足第4)点可以保证用户点击搜索词条后确实能获得想要的信息。

本发明实施例的搜索词条挖掘方法可以应用于多个场景，例如以下将详细描述的带有视觉信息的多媒体资源的场景。

在用户进行信息获取和娱乐休闲等场景中，带有视觉信息的多媒体资源承担着越来越重要的作用，例如图片、视频、全景、AR和VR等。长期以来，在搜索场景中，用户对带有视觉信息的多媒体资源的兴趣度和搜索点击量，也一直呈现上升趋势。调查和统计发现，用户在浏览和/或观看带有视觉信息的多媒体资源时，经常对其中的内容(例如人物、事件、品牌、音乐等)的相关知识和资讯有更深层次的了解需求。以视频为例，用户对与视频内容相关的知识和资讯的了解需求主要通过两种渠道实现：

1)在评论中询问或在视频中以弹幕发送问题的方式表达。然而，无论是评论还是弹幕中的问题，都不一定能得到其他用户的解答，并且输入评论和弹幕询问的被动询问方式增加了搜索的繁琐性。

2)额外连接搜索引擎，在搜索输入框内，手动输入想了解的内容以获得搜索结果。然而，这种方式需要在视频观看的同时启动搜索引擎并涉及较多用户操作，无疑会影响视频观看的体验。

据此，可通过上述实施例的搜索词条挖掘方法来在带有视觉信息的多媒体资源中生成搜索词条，以解决相关技术问题，并满足用户在浏览和/或观看带有视觉信息的多媒体资源时对相关知识和资讯的了解需求。

图7是本发明实施例中在多媒体资源中生成搜索词条的方法的流程示意图。如图7所示，该方法可以包括以下步骤：

步骤S710，获取优质搜索词条。

具体地，采用上述实施例的搜索词条挖掘方法挖掘出优质搜索词条。

步骤S720，将所述优质搜索词条匹配至多媒体资源中。

在第一优选的实施例中，可以将所述优质搜索词条推送至所述多媒体资源中。举例而言，在用户观看视频的同时，实时或以一定的周期向该视频推送所述优质搜索词条。该方式下，优质搜索词条的内容可以与视频内容相关，也可以不相关，例如用户正在观看某电视剧，可向该电视剧视频推送其相关电视评论，也可向该电视剧视频推送与电视剧内容无关的实时热点新闻。并且，该方式下，不同用户观看同一视频时获取的优质搜索词条可能是不同的。

在第二优选的实施例中，可获取所述多媒体资源的内容，并匹配与所述多媒体资源的内容对应的所述优质搜索词条。举例而言，先获取某一视频的内容，例如其中的人物、事件、品牌、音乐等内容，并根据这些内容出现的时间，预先匹配上相应的针对人物、事件、品牌、音乐等内容的优质搜索词条。该方式下，优质搜索词条的内容是与视频内容相关的，且不同用户观看同一视频时获取的优质搜索词条是相同的。因此，为了满足不同用户的搜索需求，本发明实施例要求了优质搜索词条不会向用户重复推送相似词条，举例而言，在某一电视剧视频中某一人物会多次出现，则第一次出现时，可匹配关于人物生平的搜索词条，第二出现时，可匹配关于扮演者介绍的搜索词条，第三次出现可匹配关于扮演者作品集的搜索词条等等，从而可满足不同用户的搜索需求。

步骤S730，配置所述优质搜索词条在所述多媒体资源中能够响应于用户操作而展示对应搜索结果。

其中，所述用户操作可以是鼠标点击操作，也可以是触摸屏触摸点击操作，从而实现了针对搜索结果的一键展示功能，使得用户不用再额外地通过搜索引擎来获取搜索结果。另外，还可以进一步配置搜索结果的展示方式，例如配置其展示框处于视频的右上角并呈现与当前画面颜色较为一致的效果，从而避免影响用户观看视频。

综上所述，本发明实施例在多媒体资源中生成了可以点击的优质搜索词条，能主动满足用户对知识和资讯的搜索需求，可以培养用户在浏览多媒体资源的同时进行知识搜索的行为习惯。据此，本发明实施例在生态建设方面为搜索开辟了全新的流量入口，有利于搜索引擎运营方(例如百度)产生更大更多元化的搜索流量，稳固百度在搜索领域的市场主导地位。

图8是本发明实施例的一种搜索词条挖掘装置的结构示意图，该搜索词条挖掘装置与上述实施例的搜索词条挖掘方法的发明思路相同。如图8所示，所述搜索词条挖掘装置800可以包括：候选词条挖掘模块810，用于从多种文本数据源中挖掘出候选搜索词条；质量审核模块820，用于对所述候选搜索词条进行质量审核；以及召回评估模块830，用于对通过所述质量审核后的候选搜索词条进行召回评估，并将通过所述召回评估的候选搜索词条确定为优质搜索词条。

在优选的实施例中，所述候选词条挖掘模块810可以包括：文本获取子模块811，用于从所述多种文本数据源中获取文本数据；以及文本处理子模块812，用于基于所获取的文本数据的字数进行文本数据处理，以筛选出候选搜索词条。

其中，文本处理子模块812基于所获取的文本数据的字数进行文本数据处理可以包括：选择字数符合预设字数范围的文本数据作为所述候选搜索词条；以及对字数超出所述预设字数范围的文本数据，执行以下操作：对该文本数据进行关键词提取以形成关键词列表；对该文本数据进行长文本截断以形成若干短子句；以及若所述短子句中包含所述关键词列表中的关键词的数量超出设定阈值，则将该短子句作为所述候选搜索词条。

在优选的实施例中，所述质量审核模块820可以包括：去重子模块821，用于对所述候选搜索词条进行去重处理，以去除其中重复的词条；以及语法审核子模块822，用于对通过所述去重处理后的所述候选搜索词条进行语法审核，以选择出符合预设语法规则的词条。

在优选的实施例中，所述召回评估模块830包括：召回资源获取子模块831，用于获取每一候选搜索词条对应的召回资源及该召回资源的标题；第一判定子模块832，用于对所述每一候选搜索词条进行关键词提取，并获取所提取的关键词中处于该每一搜索词条对应的召回资源的标题中的合格关键词的占比，若该占比超过预设的资源匹配概率，则判定该候选搜索词条与对应召回资源的资源匹配度合格；第二判定子模块833，用于获取每一候选搜索词条对应的召回资源中与该每一候选搜索词条相匹配的合格召回资源的占比，若该占比超过预设的召回匹配概率，则判定针对该候选搜索词条的召回合格；以及第三判定子模块834，用于将召回合格且资源匹配度合格的搜索词条判定为召回评估合格。

本发明实施例的搜索词条挖掘装置的具体实施细节及效果可参考上述关于搜索词条挖掘方法的实施例，在此则不再进行赘述。

图9是本发明实施例的一种在多媒体资源中生成搜索词条的装置的结构示意图。如图9所示，所述装置可以包括以下模块：上述的搜索词条挖掘装置800，用于挖掘出优质搜索词条；以及词条匹配模块910，用于将所述优质搜索词条匹配至多媒体资源中；以及配置模块920，用于配置所述优质搜索词条在所述多媒体资源中能够响应于用户操作而展示对应搜索结果。

在优选的实施例中，所述词条匹配模块910可以包括：推送子模块911，用于将所述优质搜索词条推送至所述多媒体资源中；和/或内容匹配子模块912，用于根据所述多媒体资源的内容，匹配与所述多媒体资源的内容对应的所述优质搜索词条。

本发明实施例的在多媒体资源中生成搜索词条的装置的具体实施细节及效果可参考上述在多媒体资源中生成搜索词条的方法的实施例，在此则不再进行赘述。

本发明另一实施例还提供一种计算机设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上所述的搜索词条挖掘方法或所述的在多媒体资源中生成搜索词条的方法。

本发明另一实施例还提供一种机器可读存储介质，该机器可读存储介质上存储有指令，该指令用于使得机器执行如上所述的搜索词条挖掘方法或所述的在多媒体资源中生成搜索词条的方法。

对于计算机设备及机器可读存储介质中的如上所述的搜索词条挖掘方法或所述的在多媒体资源中生成搜索词条的方法可参考上述实施例进行理解，在此不再赘述。下面主要结合应用场景对计算机设备及机器可读存储介质进行进一步介绍。

本领域内的技术人员应明白，本发明实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上结合附图详细描述了本发明实施例的可选实施方式，但是，本发明实施例并不限于上述实施方式中的具体细节，在本发明实施例的技术构思范围内，可以对本发明实施例的技术方案进行多种简单变型，例如改变步骤执行顺序，这些简单变型均属于本发明实施例的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本发明实施例对各种可能的组合方式不再另行说明。

此外，本发明实施例的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明实施例的思想，其同样应当视为本发明实施例所公开的内容。

Claims

1.一种搜索词条挖掘方法，其特征在于，该搜索词条挖掘方法包括：

从多种文本数据源中挖掘出候选搜索词条；

对所述候选搜索词条进行质量审核；以及

对通过所述质量审核后的候选搜索词条进行召回评估，并将通过所述召回评估的候选搜索词条确定为优质搜索词条。

2.根据权利要求1所述的搜索词条挖掘方法，其特征在于，所述多种文本数据源包括提供以下文本数据中的任意一者或多者的数据源：搜索热词、线上信息资源的文本数据以及多媒体资源的文本数据。

3.根据权利要求1所述的搜索词条挖掘方法，其特征在于，所述从多种文本数据源中挖掘出候选搜索词条包括：

从所述多种文本数据源中获取文本数据；以及

基于所获取的文本数据的字数进行文本数据处理，以筛选出候选搜索词条。

4.根据权利要求3所述的搜索词条挖掘方法，其特征在于，所述基于所获取的文本数据的字数进行文本数据处理包括：

选择字数符合预设字数范围的文本数据作为所述候选搜索词条；以及

对字数超出所述预设字数范围的文本数据，执行以下操作：

对该文本数据进行关键词提取以形成关键词列表；

对该文本数据进行长文本截断以形成若干短子句；以及

若所述短子句中包含所述关键词列表中的关键词的数量超出设定阈值，则将该短子句作为所述候选搜索词条。

5.根据权利要求1所述的搜索词条挖掘方法，其特征在于，所述对所述候选搜索词条进行质量审核包括：

对所述候选搜索词条进行去重处理，以去除其中重复的词条；以及

对通过所述去重处理后的所述候选搜索词条进行语法审核，以选择出符合预设语法规则的词条。

6.根据权利要求1所述的搜索词条挖掘方法，其特征在于，所述对通过所述质量审核后的候选搜索词条进行召回评估包括：

获取每一候选搜索词条对应的召回资源及该召回资源的标题；

对所述每一候选搜索词条进行关键词提取，并获取所提取的关键词中处于该每一搜索词条对应的召回资源的标题中的合格关键词的占比，若该占比超过预设的资源匹配概率，则判定该候选搜索词条与对应召回资源的资源匹配度合格；

获取每一候选搜索词条对应的召回资源中与该每一候选搜索词条相匹配的合格召回资源的占比，若该占比超过预设的召回匹配概率，则判定针对该候选搜索词条的召回合格；以及

将召回合格且资源匹配度合格的候选搜索词条判定为召回评估合格。

7.一种在多媒体资源中生成搜索词条的方法，其特征在于，所述方法包括：

采用权利要求1至5中任意一项所述的搜索词条挖掘方法挖掘出优质搜索词条；

将所述优质搜索词条匹配至多媒体资源；以及

配置所述优质搜索词条在所述多媒体资源中能够响应于用户操作而展示对应搜索结果。

8.根据权利要求7所述的方法，其特征在于，所述将所述优质搜索词条匹配至多媒体资源中包括：

将所述优质搜索词条推送至所述多媒体资源中；和/或

获取所述多媒体资源的内容，并匹配与所述多媒体资源的内容对应的所述优质搜索词条。

9.一种搜索词条挖掘装置，其特征在于，所述搜索词条挖掘装置包括：

候选词条挖掘模块，用于从多种文本数据源中挖掘出候选搜索词条；

质量审核模块，用于对所述候选搜索词条进行质量审核；以及

召回评估模块，用于对通过所述质量审核后的候选搜索词条进行召回评估，并将通过所述召回评估的候选搜索词条确定为优质搜索词条。

10.根据权利要求9所述的搜索词条挖掘装置，其特征在于，所述多种文本数据源包括提供以下文本数据中的任意一者或多者的数据源：搜索热词、线上信息资源的文本数据以及多媒体资源的文本数据。

11.根据权利要求9所述的搜索词条挖掘装置，其特征在于，所述候选词条挖掘模块包括：

文本获取子模块，用于从所述多种文本数据源中获取文本数据；以及

文本处理子模块，用于基于所获取的文本数据的字数进行文本数据处理，以筛选出候选搜索词条。

12.根据权利要求11所述的搜索词条挖掘装置，其特征在于，所述文本处理子模块用于基于所获取的文本数据的字数进行文本数据处理包括：

对字数超出所述预设字数范围的文本数据，执行以下操作：

对该文本数据进行关键词提取以形成关键词列表；

对该文本数据进行长文本截断以形成若干短子句；以及

13.根据权利要求9所述的搜索词条挖掘装置，其特征在于，所述质量审核模块包括：

去重子模块，用于对所述候选搜索词条进行去重处理，以去除其中重复的词条；以及

语法审核子模块，用于对通过所述去重处理后的所述候选搜索词条进行语法审核，以选择出符合预设语法规则的词条。

14.根据权利要求9所述的搜索词条挖掘装置，其特征在于，所述召回评估模块包括：

召回资源获取子模块，用于获取每一候选搜索词条对应的召回资源及该召回资源的标题；

第一判定子模块，用于对所述每一候选搜索词条进行关键词提取，并获取所提取的关键词中处于该每一搜索词条对应的召回资源的标题中的合格关键词的占比，若该占比超过预设的资源匹配概率，则判定该候选搜索词条与对应召回资源的资源匹配度合格；

第二判定子模块，用于获取每一候选搜索词条对应的召回资源中与该每一候选搜索词条相匹配的合格召回资源的占比，若该占比超过预设的召回匹配概率，则判定针对该候选搜索词条的召回合格；以及

第三判定子模块，用于将召回合格且资源匹配度合格的候选搜索词条判定为召回评估合格。

15.一种在多媒体资源中生成搜索词条的装置，其特征在于，所述装置包括：

权利要求9至14中任意一项所述的搜索词条挖掘装置，用于挖掘出优质搜索词条；

词条匹配模块，用于将所述优质搜索词条匹配至多媒体资源中；以及

配置模块，用于配置所述优质搜索词条在所述多媒体资源中能够响应于用户操作而展示对应搜索结果。

16.根据权利要求15所述的装置，其特征在于，所述词条匹配模块包括：

推送子模块，用于将所述优质搜索词条推送至所述多媒体资源中；和/或

内容匹配子模块，用于根据所述多媒体资源的内容，匹配与所述多媒体资源的内容对应的所述优质搜索词条。

17.一种机器可读存储介质，该机器可读存储介质上存储有指令，该指令用于使得机器执行权利要求1至6中任意一项所述的搜索词条挖掘方法或权利要求7或8所述的在多媒体资源中生成搜索词条的方法。

18.一种计算机设备，其特征在于，该计算机设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1至6中任意一项所述的搜索词条挖掘方法或权利要求7或8所述的在多媒体资源中生成搜索词条的方法。