CN105138539B

CN105138539B - 信息搜索方法和系统

Info

Publication number: CN105138539B
Application number: CN201510399071.8A
Authority: CN
Inventors: 唐呈光
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-07-08
Filing date: 2015-07-08
Publication date: 2018-10-19
Anticipated expiration: 2035-07-08
Also published as: CN105138539A

Abstract

本发明提出一种信息搜索方法和系统，该信息搜索方法包括接收搜索词；获取与所述搜索词关联的学习路线，所述学习路线是预先对图书的相关数据进行序列模式挖掘得到的，所述图书是所述搜索词所属学习领域的图书；在搜索结果页上，展示所述学习路线。该方法能够实现对知识的挖掘和整理，给用户一条真正切实可行，真实可靠的学习路线，满足用户对技能获取型搜索的需求。

Description

信息搜索方法和系统

技术领域

本发明涉及搜索技术领域，尤其涉及一种信息搜索方法和系统。

背景技术

搜索引擎是网民获取信息和知识的重要途径，现有技术是基于关键词匹配方式，从网页索引库中获取和搜索词(query)相关的文档，以列表的形式呈现给用户。

用户的搜索行为存在这样一种情形：技能获取型搜索，比如：C语言怎么学，Android开发学习路线，会计从入门到精通等。针对这类搜索，现有技术中的搜索结果往往是各种培训班的网站，或者一些相关博客、文档，而这些结果零散不成体系，内容相似且不具备权威性和推广性，用户浏览了搜索结果页，依然不知道怎么学，即使跟着学了，也很容易误入歧途，因此用户需求并没有被解决。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种信息搜索方法，该方法可以实现对知识的挖掘和整理，给用户一条真正切实可行，真实可靠的学习路线，满足用户对技能获取型搜索的需求。

本发明的另一个目的在于提出一种信息搜索系统。

为达到上述目的，本发明第一方面实施例提出的信息搜索方法，包括：接收搜索词；获取与所述搜索词关联的学习路线，所述学习路线是预先对图书的相关数据进行序列模式挖掘得到的，所述图书是所述搜索词所属学习领域的图书；在搜索结果页上，展示所述学习路线。

本发明第一方面实施例提出的信息搜索方法，通过序列模式挖掘，可以获取一条真正切实可行，真实可靠的学习路线，实现对零散知识的挖掘和整理，通过向用户展示学习路线，可以减少用户操作步骤和摸索时间，节约用户成本，提升用户体验，满足用户对技能获取型搜索的需求。

为达到上述目的，本发明第二方面实施例提出的信息搜索系统，包括：接收模块，用于接收搜索词；获取模块，用于获取与所述搜索词关联的学习路线，所述学习路线是预先对图书的相关数据进行序列模式挖掘得到的，所述图书是所述搜索词所属学习领域的图书；展示模块，用于在搜索结果页上，展示所述学习路线。

本发明第二方面实施例提出的信息搜索系统，通过序列模式挖掘，可以获取一条真正切实可行，真实可靠的学习路线，实现对零散知识的挖掘和整理，通过向用户展示学习路线，可以减少用户操作步骤和摸索时间，节约用户成本，提升用户体验，满足用户对技能获取型搜索的需求。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明一实施例提出的信息搜索方法的流程示意图；

图2是本发明实施例中的搜索结果页的示意图；

图3是本发明另一实施例提出的信息搜索方法的流程示意图；

图4是本发明实施例中确定学习路线的流程示意图；

图5是本发明实施例中一种用户评论的示意图；

图6是本发明实施例中一种聚类结果的示意图；

图7是本发明实施例中一种图书自身描述信息的示意图；

图8是本发明实施例中一种用户评价信息的示意图；

图9是本发明实施例中用于确定难度系数的一种用户评价内容的示意图；

图10是本发明实施例中用于确定难度系数的另一种用户评价内容的示意图；

图11是本发明实施例中难易度排序后的结果示意图；

图12是本发明另一实施例提出的信息搜索方法的流程示意图；

图13是本发明实施例中跳转到的购买页面的示意图；

图14是本发明另一实施例提出的信息搜索系统的结构示意图；

图15是本发明另一实施例提出的信息搜索系统的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

图1是本发明一实施例提出的信息搜索方法的流程示意图，该方法包括：

S11：接收搜索词。

其中，用户可以采用如下方式中的一种或多种进行搜索词(query)输入：文本输入，语音输入，图像输入。

当客户端接收到用户输入的搜索词后，客户端可以将搜索词发送给服务端，由服务端获取与搜索词对应的搜索结果。

S12：获取与所述搜索词关联的学习路线，所述学习路线是预先对图书的相关数据进行序列模式挖掘得到的，所述图书是所述搜索词所属学习领域的图书。

当搜索词是技能获取型的搜索词时，现有技术中，搜索结果是培训班或者杂乱无章的结果，与现有技术不同的是，本实施例中，当搜索词是技能获取型的搜索词时，搜索结果是与该搜索词关联的学习路线。

例如，服务端预先将学习领域与学习路线关联存储，如，C语言领域对应第一学习路线，则当搜索词是“C语言怎么学”时，通过语义解析等可以获取当前的搜索词属于的学习领域是C语言领域，再根据预先存储的信息，可以获取关联的学习路线是第一学习路线。

可以理解的是，学习领域与学习路线在存储时是采用文本方式进行存储，当搜索词是文本方式输入时，可以直接根据文本内容获取相应的学习路线。当搜索词是语音或图像输入时，可以先进行语音识别或图像识别，将搜索词识别为文本，之后再根据文本内容获取相应的学习路线。

S13：在搜索结果页上，展示所述学习路线。

其中，服务端获取学习路线后，可以将学习路线发送给客户端，由客户端将学习路线作为搜索结果展示给用户。

另外，学习路线在展示时可以具体采用文本、图片、语音中一种或多种形式进行展示。

例如，参见图2，当搜索词21是“C语言怎么学”时，可以在搜索结果页上展示如图2所示的包括学习路线的搜索结果22，其中，图2中的学习路线用图片形式展示，学习路线的横坐标表示学习耗时，纵坐标表示难易程度，节点处的文字(如C程序设计语言)表示图书名称。

本实施例中，通过序列模式挖掘，可以获取一条真正切实可行，真实可靠的学习路线，实现对零散知识的挖掘和整理，通过向用户展示学习路线，可以减少用户操作步骤和摸索时间，节约用户成本，提升用户体验，满足用户对技能获取型搜索的需求。

为了在搜索时能够获取学习路线，可以先建立该学习路线。参见图3，该信息搜索方法还可以包括：

S31：获取所述搜索词所属学习领域的图书的相关数据，所述相关数据包括：用户评价数据，和/或，图书自身描述数据。

例如，参见图4，采用分布式爬虫(S41)对网络资源进行爬取，并从各类网络资源中获取特定领域的图书资源，以及从图书资源中获取图书的相关数据。其中，特定领域是指当前要建立的学习路线的关联领域，例如，当前要建立C语言领域的学习路线，则获取C语言领域的图书资源。

具体的，在爬取图书资源时，包括但不限于从如下网站进行爬取：

书评类网站，如豆瓣读书；

电商网站的图书频道，如京东网站的图书频道。

爬取的图书资源中会包括图书的信息，以及图书对应的相关数据，相关数据可以包括用户评价数据，和/或，图书自身描述数据。用户评价数据例如包括：用户对图书的评论、评分、满意度等，图书自身描述数据例如包括：作者，出版社，中文或外文图书等。

S32：对所述相关数据进行序列模式挖掘，确定所述学习领域的学习路线。

序列模式挖掘(sequence pattern mining)是指挖掘相对时间或其他模式出现频率高的模式。在本实施例中，由于人类的学习过程是有潜在的行为模式，通过序列模式挖掘，可以获取人们通过图书获取知识的行为序列。

一些实施例中，参见图4，所述对所述相关数据进行序列模式挖掘，确定所述学习领域的学习路线，包括：

S42：对所述相关数据进行信息抽取。

信息抽取主要依赖自然语言处理技术实现。

其中，信息抽取可以包括：实体抽取，概念抽取，情感分析，关系抽取。

例如，以图5所示的图书以及对应的用户评论51为例，上述四种抽取分别是指：

实体抽取：是自然语言处理的关键基础技术。这里的实体指的是命名实体，是指识别文本中具有特定意义的实体，主要包括人名、书名、地名、机构名、专有名词等。例如图5里提到的“C++”、“C++程序设计教程”、“深入浅出MFC”、“Lippman”等都是实体。

概念抽取：指的是语义概念，一般会利用上下文关系进行语义消歧，得到一个最终概念。例如：“入门”、“比较难”、“不适合初学者”(消歧后变成“难度适中”)、“进阶”等都是概念。

情感分析：是指情感倾向性分析，又称意见挖掘(opinion mining)，它的目的是通过分析带有主观情感或者褒贬倾向的主观性文本，挖掘其中的观点或评价信息，以其更加直观的方式或者形式呈现给大家。例如：通过“CP4是非常权威的，毕竟Lippman大大是……”可以推断出，该评论对CP4是好评的。

关系抽取：实体抽取那一步抽取出的知识要素是以离散的形式存在的，只能反映文本中包含哪些实体，却不能反映出知识要素之间的关系，但关系抽取能把实体直接的关系挖掘出来，例如图5的“侯捷的《深入浅出MFC》”，我们可以提取出“侯捷”与“《深入浅出MFC》”是作者与作品的关系。

信息提取的数据可以为后续数据挖掘提供基础数据。

S43：根据信息抽取的结果，对图书进行聚类。

例如，经过上述的实体抽取，概念抽取，情感分析，关系抽取后，可以得到表征图书不同方面的信息，之后可以根据不同方面的信息进行聚类。例如，对应每本图书，根据上述不同的信息抽取，可以获取图书类别的权重，作者权威的权重，图书评分的权重，难易程度的权重等，之后再根据要聚类的类别以及相应的权重，将图书聚类到不同类别中。

例如，参见图6，以C语言学习路径为例，将C语言相关图书聚成3个大簇，分别为“入门级”簇(偏易)、“中级”簇、“高级”簇(偏难)。

S44：在聚类后得到的每个簇族中，对图书进行打分，并在每个簇族内选择得分较高的预设个数的图书。

例如，在每个簇族中，依据图书自身描述信息(如：作者是否知名、出版社是否知名、是国内图书还是国外图书等)和用户评价信息(如：评分、满意度等)指标，对每个簇族内的图书打分，再进行排序，选择TopN本图书作为代表，参与后面的难易度排序。

通过图书打分可以获取权威性高、具有代表性的图书。

可以理解的是，信息抽取得到的结果可以作为后续各流程的基础数据，后续各流程在使用信息抽取的结果时，可以使用一种或多种信息抽取的结果，还可以对信息抽取的结果进行挖掘分析。

例如，参见图7，打分时的自身描述信息71可以采用实体抽取和关系抽取的结果，例如“出版社”、“人民邮电出版社”都是实体，组成key-value对应关系。

又例如，参见图8，用户评价信息81采用了实体抽取和关系抽取的结果，最后的结果，总评分：9.2，评价人数：3868，五星占比：67.0％等。

S45：对选择出的图书进行难易度排序，得到所述学习领域的学习路线。

可以根据信息抽取的结果对选择出的图书进行难易度排序。

例如，当用户评价信息中包括如图9所示的评价内容91时，表明该书不适合入门，难度系数可以设置为中间档位。

又例如，当用户评价信息中包括如图10所示的评价内容101时，表明该书偏高阶，难度系数设置为偏大的系数。

难易度排序的结果可以利用机器学习排序(Learning To Rank)的方法获得，本实施例利用LambdaMART(可参考：http://research.microsoft.com/pubs/132652/MSR-TR-2010-82.pdf)排序算法对图书进行排序。

难易度排序后的结果111可以如图11所示，该难易度排序结果可以作为学习路线进行展示。其中，难易度排序后的结果的横轴表示学习耗时，纵轴表示难度系数，难度系数可以根据机器学习排序算法得到，学习耗时可以根据实体抽取获取的时间确定，或者，可以根据难易程度和学习经验，推断得到。

S33：将所述学习路线与所述学习领域关联存储。

例如，参见图4，将学习路线与学习领域关联存储在服务端的检索系统中(S46)。

本实施例中，通过获取图书相关数据，可以提高知识的权威性，通过序列模式挖掘获取学习路线，可以为用户挖掘和整理出权威有效以及简便的学习路径。具体的，通过对用户对图书评论和评分的挖掘，进行信息抽取，用户情感分析，通过聚类算法获取同一知识领域内多个簇族，从每个簇族中选出权威性最高的N个(N可人工指定)，然后再依据学习难易程度排序，连点成线，整理成知识，减少用户寻找答案的时间，让搜索引擎更懂用户的意图，直接解答用户的疑惑。以图文并茂、良好交互体验的方式，让人们更便捷地获取信息、找到所求。通过对用户评论和评分数据和图书描述信息的挖掘，构造图书评价特征和图书自身属性特征，借鉴蚁群算法中路径发现的思路，运用聚类算法和排序算法，获取用户频繁路径(frequent path)，最终得到一条行之有效、经过前人检验的成长曲线。

一些实施例中，所述搜索结果页上还包括如下项中的至少一项：

评论栏，点赞按钮，分享按钮，购买按钮。

其中，购买按钮例如为图2中所示的“批量购买”按钮，该按钮可以设置在学习路线的左下角。评论栏，点赞按钮，分享按钮可以设置在学习路线的右下角。可以理解的是，上述各按钮的设置位置只是示例，还可以设置在其他位置，例如对应每个图书设置。

通过评论栏，点赞按钮，分享按钮，可以供用户交流学习心得、反馈信息、分享经验，增加学习路线的可信度，对后台系统而言，可以获取更多用户数据，将更有利于提供更优的且个性化的学习路径，从而实现正向循环。

一些实施例中，参见图12，该方法还可以包括：

S121：当用户点击该按钮后，跳转到预设的购买网页。

例如，用户点击“批量购买”按钮后，可以跳转到图13所示的包含购物信息131的购买页面。

本实施例中，提供了流量变现的新模式，完成from query to transaction，真正实现流量闭环，连接人与服务。用户看到切实可行的，而且经过别人检验过的成长路径，自然欣喜，那么接下来就要准备开始学习了，要学习得购买相关的学习资料，可以提供图书购买服务，包括纸质书和电子书，用户可自由选择。另外，这部分流量变现可以通过预设购买平台(如百度糯米平台)来完成。

另外，可以将相关图书打包销售，并给予一定的折扣优惠，提高流量的转化率。

一些实施例中，参见图12，该方法还可以包括：

S122：当用户在所述购买网页进行购买支付时，跳转到预设的支付网页进行支付。

支付网页同样可以指定，例如通过百度钱包支付。

在支付后，卖家就可以发货了。整个操作流程十分流畅，一气呵成，连用户买书的需求都满足了，减少用户找书、买书的时间，相比于通过打培训班广告的形式进行流量变现，这种变现方式可以非常大的提升用户体验。

图14是本发明另一实施例提出的信息搜索系统的结构示意图，该系统140包括：

接收模块141，用于接收搜索词；

获取模块142，用于获取与所述搜索词关联的学习路线，所述学习路线是预先对图书的相关数据进行序列模式挖掘得到的，所述图书是所述搜索词所属学习领域的图书；

展示模块143，用于在搜索结果页上，展示所述学习路线。

一些实施例中，所述展示模块143具体用于：

在搜索结果页上，以如下形式中的至少一种形式，展示所述学习路线：图片，文本，语音。

例如，参见图2，当搜索词21是“C语言怎么学”时，可以在搜索结果页上展示如图2所示的包括学习路线的搜索结果22，其中，图2中的学习路线用图片形式展示，学习路线的横坐标表示学习耗时，纵坐标表示难易程度，“C程序设计语言”等表示图书名称。

为了在搜索时能够获取学习路线，可以先建立该学习路线。参见图15，一些实施例中，该系统140还包括：

收集模块144，用于获取所述搜索词所属学习领域的图书的相关数据，所述相关数据包括：用户评价数据，和/或，图书自身描述数据；

书评类网站，如豆瓣读书；

电商网站的图书频道，如京东网站的图书频道。

确定模块145，用于对所述相关数据进行序列模式挖掘，确定所述学习领域的学习路线；

一些实施例中，所述确定模块145具体用于：

对所述相关数据进行信息抽取；

根据信息抽取的结果，对图书进行聚类；

在聚类后得到的每个簇族中，对图书进行打分，并在每个簇族内选择得分较高的预设个数的图书；

对选择出的图书进行难易度排序，得到所述学习领域的学习路线。

其中，确定模块的具体内容可以参见方法实施例中的相关描述，在此不再赘述。

存储模块146，用于将所述学习路线与所述学习领域关联存储。

评论栏，点赞按钮，分享按钮，购买按钮。

一些实施例中，所述搜索结果页上还包括：购买按钮，所述系统140还包括：

第一跳转模块147，用于当用户点击购买按钮后，跳转到预设的购买网页。

例如，用户点击“批量购买”按钮后，可以跳转到图13所示的购买页面。

一些实施例中，该系统140还包括：

第二跳转模块148，用于当用户在所述购买网页进行购买支付时，跳转到预设的支付网页进行支付。

支付网页同样可以指定，例如通过百度钱包支付。

需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种信息搜索方法，其特征在于，包括：

接收搜索词；

获取与所述搜索词关联的学习路线，所述学习路线是预先对图书的相关数据进行序列模式挖掘得到的，所述图书是所述搜索词所属学习领域的图书；其中，所述对图书的相关数据进行序列模式挖掘，包括：对所述相关数据进行信息抽取；根据信息抽取的结果，对图书进行聚类；在聚类后得到的每个簇族中，对图书进行打分，并在每个簇族内选择得分较高的预设个数的图书；对选择出的图书进行难易度排序，得到所述学习领域的学习路线；

在搜索结果页上，展示所述学习路线。

2.根据权利要求1所述的方法，其特征在于，还包括：

获取所述搜索词所属学习领域的图书的相关数据，所述相关数据包括：用户评价数据，和/或，图书自身描述数据；

对所述相关数据进行序列模式挖掘，确定所述学习领域的学习路线；

将所述学习路线与所述学习领域关联存储。

3.根据权利要求1或2所述的方法，其特征在于，所述搜索词包括如下项中的至少一项：

语音输入的搜索词，文本输入的搜索词，图像输入的搜索词。

4.根据权利要求1或2所述的方法，其特征在于，所述展示所述学习路线，包括：

以如下形式中的至少一种形式，展示所述学习路线：图片，文本，语音。

5.根据权利要求1或2所述的方法，其特征在于，所述搜索结果页上还包括如下项中的至少一项：

评论栏，点赞按钮，分享按钮，购买按钮。

6.根据权利要求5所述的方法，其特征在于，还包括：

当用户点击购买按钮后，跳转到预设的购买网页。

7.根据权利要求6所述的方法，其特征在于，还包括：

当用户在所述购买网页进行购买支付时，跳转到预设的支付网页进行支付。

8.一种信息搜索系统，其特征在于，包括：

接收模块，用于接收搜索词；

获取模块，用于获取与所述搜索词关联的学习路线，所述学习路线是预先对图书的相关数据进行序列模式挖掘得到的，所述图书是所述搜索词所属学习领域的图书；其中，所述对图书的相关数据进行序列模式挖掘，包括：对所述相关数据进行信息抽取；根据信息抽取的结果，对图书进行聚类；在聚类后得到的每个簇族中，对图书进行打分，并在每个簇族内选择得分较高的预设个数的图书；对选择出的图书进行难易度排序，得到所述学习领域的学习路线；

展示模块，用于在搜索结果页上，展示所述学习路线。

9.根据权利要求8所述的系统，其特征在于，还包括：

收集模块，用于获取所述搜索词所属学习领域的图书的相关数据，所述相关数据包括：用户评价数据，和/或，图书自身描述数据；

确定模块，用于对所述相关数据进行序列模式挖掘，确定所述学习领域的学习路线；

存储模块，用于将所述学习路线与所述学习领域关联存储。

10.根据权利要求8或9所述的系统，其特征在于，所述展示模块具体用于：

11.根据权利要求8或9所述的系统，其特征在于，所述搜索结果页上还包括：购买按钮，所述系统还包括：

第一跳转模块，用于当用户点击购买按钮后，跳转到预设的购买网页。

12.根据权利要求11所述的系统，其特征在于，还包括：

第二跳转模块，用于当用户在所述购买网页进行购买支付时，跳转到预设的支付网页进行支付。