CN103294815B - 基于关键字分类并有多种呈现方式的搜索引擎装置与方法 - Google Patents

基于关键字分类并有多种呈现方式的搜索引擎装置与方法 Download PDF

Info

Publication number
CN103294815B
CN103294815B CN201310229058.9A CN201310229058A CN103294815B CN 103294815 B CN103294815 B CN 103294815B CN 201310229058 A CN201310229058 A CN 201310229058A CN 103294815 B CN103294815 B CN 103294815B
Authority
CN
China
Prior art keywords
search
keyword
search results
key
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310229058.9A
Other languages
English (en)
Other versions
CN103294815A (zh
Inventor
林荣恒
赵耀
邹华
吕文博
杨放春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201310229058.9A priority Critical patent/CN103294815B/zh
Publication of CN103294815A publication Critical patent/CN103294815A/zh
Application granted granted Critical
Publication of CN103294815B publication Critical patent/CN103294815B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

一种基于关键字分类并有多样化呈现的搜索引擎装置和方法,该装置设有四个组成部件:用户交互界面、关键字处理单元、搜索单元和搜索结果呈现单元,其搜索方法是:先对用户输入的关键字进行预处理和分类,再根据关键字的分类结果,选择多样化的不同呈现方式;并将搜索结果进行聚类后,填入所选定的呈现模板,使用相应的呈现方式将最终搜索结果向用户展示。本发明装置结构简单,操作容易;其呈现方式(突出关键字的不同分类)有利于用户的理解和使用,并使得搜索结果更简明、清晰。用户只需继续点击,就能进入与其搜索目标内容更相关的主题。有利于用户快速定位需求信息,节省用户自行筛选所需信息的时间,提升搜索效率和呈现效果。

Description

基于关键字分类并有多种呈现方式的搜索引擎装置与方法
技术领域
本发明涉及一种信息检索系统,确切的说,涉及一种基于关键字分类进行搜索、并使搜索结果具有多样化呈现方式的搜索引擎装置与方法,属于互联网服务的技术领域。
背景技术
搜索引擎(search engine)的百科定义是:万维网环境中包括目录服务和关键字检索两种服务方式的信息检索系统或装置,它是一种根据设定的策略、运用特定的计算机程序从互联网上搜集信息,再对信息进行组织和处理后,为用户提供检索服务,将用户需要检索的相关信息展示给用户的系统或装置。通常,将用户输入的待搜索的字符串定义为关键字。百度、搜狗和谷歌等都是目前比较常用的独立搜索引擎的代表。
随着信息技术和网络技术的快速发展,搜索引擎已经成为人们通过网络获取信息的有效途径和手段。搜索引擎可以帮助用户从复杂、多样的海量互联网数据信息中,高效快速地查找出用户所需的有效信息和数据,用户可在搜索引擎中输入待搜索的关键字,搜索引擎将为用户返回一个根据与该关键字具有相关性排序的搜索结果列表。
搜索引擎的工作原理主要分为以下四个步骤:
(1)爬行和抓取:搜索引擎派出一个能够在网页上发现新网页并抓取文件的“爬虫”程序,由该“爬虫”程序从已知的网页数据库出发,依次浏览这些网页并抓取文件。同时,搜索引擎会跟踪网页中的链接,以访问更多的网页。而且,这些新的网页都会被存入数据库等待抓取。
(2)建立索引:对在第一步中爬取的网页文件进行分解和分析,并将分析结果存入数据库中。由于数据量非常庞大,所以必须建立索引,以加快查询数据库的速度。
(3)关键字预处理:搜索引擎系统对关键字进行预处理,如中文特有的分词处理、去除停止词等。
(4)排序:从索引数据库中查找出所有包含关键字的网页,并根据排名算法按照排名顺序返回给用户显示。
美国专利申请《搜索结果呈现》(“Presentation of search results”,申请号:US2012174011A1)公开的技术是:各个实施例都是在一个交互式显示装置上显示的搜索请求。例如,一个公开的实施例提供一种方法,其中包括:通过一个显示在交互式显示装置上的搜索请求控制器接收输入的搜索请求,再由该搜索请求控制器生成一个搜索结果标签,该搜索结果标签是一个可移动的元素,并且,所有的搜索结果都排列在该搜索结果标签周围,并可以随搜索结果标签的移动而移动。
目前,搜索引擎为用户所呈现的搜索结果主要存在两方面的问题:
(1)搜索结果的呈现形式:搜索引擎通常是以列表或图片链接的形式返回针对用户输入的关键字的搜索结果,用户通常只能逐条点击链接、即采用依次浏览搜索结果的标题和摘要,才能找到和确定其感兴趣的信息,或者所需要的搜索内容。这样的搜索过程效率低下,用户无法直观地获得想要的搜索结果。
(2)关键字的语义歧义性:语义歧义性是指输入的关键字的语义可以有多种理解方式,由于语义的歧义性或用户无法准确表达自己的需求,使得现有的搜索引擎不能够区分关键字的不同歧义,有可能造成搜索结果中包含用户实际并不感兴趣的信息,这样,就需要用户自己筛选定位,更进一步增加了用户筛选有效信息的工作量,从而增加了搜索时间,降低了搜索效率。
因此,如何对其进行改进就成为业内科技人员关注的新课题。
下面简要介绍本发明所涉及到的数据挖掘领域技术包括:
(1)分类:分类被视为从一个数据集到一组预先定义的、非交叠的类别的映射过程。其中,映射关系的生成和映射关系的应用是数据挖掘分类方法的主要研究内容。该映射关系是分类函数或分类模型,映射关系的应用是使用分类模型将未分类的数据划分到设定类别中的某一类别的过程。分类包括两个步骤:
a)建立模型,描述预订的数据类型集和概念集:通过分析由属性描述的数据集元组构造模型,用于建模而被分析的数据元组的集合形成了训练集。为保证构建的模型与原始数据的分布匹配,选取训练集的过程需要尽量随机。
b)分类模型的应用:在应用之前,首先要评估模型的预测准确率,在达到可接受范围后,才可以用来对未分类的数据元组进行分类。
(2)聚类:聚类是在预先不知道欲划分类的情况下,根据信息相似度原则进行信息聚类的一种方法。聚类的目的是使得属于同群组的对象之间的差别尽可能的小,进而划分出不同群组。
发明内容
有鉴于此,本发明的目的是提供一种基于关键字分类并有多种呈现方式的搜索引擎装置与方法,用于解决当前搜索引擎提供的搜索结果非常混杂、没有区分度的问题。本发明的创新关键技术是能够根据搜索关键字的类型,将搜索结果以不同的形式呈现给用户。该呈现形式与原来的文本或图片链接方式相比较,能够更加直观、简明、清楚地表示该类型的关键字搜索结果,从而使用户更加高效、便捷地寻找到所需要的搜索内容。其中,搜索关键字的分类模型、搜索结果与呈现模板各部分之间的对应关系都是本发明要解决的创新关键。
为了达到上述目的,本发明提供了一种基于关键字分类进行搜索、并使搜索结果具有多样化呈现方式的搜索引擎装置,其特征在于:该装置设有四个组成部件:用户交互界面、关键字处理单元、搜索单元和搜索结果呈现单元,其中:
用户交互界面,用于以Web浏览器方式与用户进行人机交互,交互界面设有搜索框、搜索按钮和搜索结果列表,以供用户在搜索时,先在搜索框中输入关键字并触发搜索按钮后,启动该装置执行搜索操作,在该交互界面上的搜索结果列表中显示搜索结果;
关键字处理单元,用于接收从用户交互界面传递来的关键字,对关键字进行预处理后,将处理结果送到搜索单元;同时对预处理后的关键字利用事先建立的分类模型进行分类,再将该关键字分类结果转发给搜索结果呈现单元;设有:顺序连接的关键字预处理模块和由关键字特征选择、关键字分类和分类模型三个构件组成的关键字分类模块;所述关键字分类模块中的三个组成构件的功能分别是:
关键字特征选择构件,负责对预处理后的关键字特征集合进行筛选,删除部分信息含量低、不具有类别意义的词,以便在减少特征数量的同时,减小特征向量维度;利用所选择的特征选择方法分别计算各个特征权重或评估分数,以此作为筛选依据,得到的筛选后的结果被称为特征子集;所述特征选择方法是采用有监督的特征选择方法、即利用已知类别的训练样本,通过若干个评估函数来统计特征与类别之间的相互关系,再根据统计结果决定特征的取舍;
关键字分类构件,用于根据关键字特征选择构件筛选出的特征子集,利用分类模型构件对未知类别的扩展文本、即关键字进行分类,也就是根据特征子集重新计算得到未分类扩展文本的特征向量,再根据这些特征向量得到关键字的分类结果,并将分类结果同时发送给分类模型构件和搜索结果呈现单元;
分类模型构件,负责在系统运行前期完成对关键字分类模型的建模,通过关键字训练集完成初始学习过程,形成初始分类模型;在系统运行阶段,该分类模型能够通过关键字分类构件对关键字的分类结果进行动态更新;该分类模型构件通过基于K最近邻的分类方法获得分类模型;
搜索单元,用于对接收到的经过预处理的关键字采用独立搜索引擎进行搜索,并对搜索结果进行聚类分析,且在聚类分析时存储搜索结果的时间戳,该时间戳用于完成与时间相关的呈现内容;然后,将经过聚类处理后的搜索结果发送给搜索结果呈现单元;
搜索结果呈现单元,为每个关键字分类都设置有相应的呈现模板,以供根据来自关键字处理单元的分类结果确定相应的呈现模板,再将搜索单元的搜索结果加入到该呈现模板中的相应位置,最后将该呈现模板中呈现的搜索单元的搜索结果信息通过用户交互界面向用户显示。
为了达到上述目的,本发明还提供了一种基于关键字分类并有多样化呈现方式的搜索引擎装置的搜索方法,其特征在于:系统先对用户输入的关键字进行预处理,然后进行分类,并根据分类结果确定相应的呈现方式,再将搜索结果进行聚类处理后,使用该呈现方式向用户呈现;所述方法包括下列操作步骤:
(1)用户在搜索框中输入关键字后,该装置的关键字处理单元中的关键字预处理模块就对该关键字进行预处理,以使得到的结果数据呈现标准化状态;再将该预处理后的结果、即关键字特征集合分别送入使用预先训练好的分类模型进行分类的关键字分类模块和搜索单元,同时分别执行后续步骤(2)的分类操作和步骤(3)的搜索操作;
(2)系统对每种分类对应设置一种呈现方式,以便根据分类结果,确定该关键字对应的呈现方式;关键字分类模块中的三个组成构件对关键字特征集合依次顺序进行筛选和分类,以获得分类结果;再将该分类结果反馈给分类模型构件,完成分类模型的动态更新操作;同时将该分类结果送至搜索结果呈现单元,用以确定最终搜索结果所需的呈现模板;
(3)搜索单元根据预处理后的关键字按照独立搜索引擎方式执行搜索,并利用K-means算法对得到的搜索结果进行聚类处理,在聚类处理时保留该搜索结果的时间戳,以供在后续步骤中,利用该时间戳呈现与时间相关的内容;再将经过聚类处理后的搜索结果送至搜索结果呈现单元;
(4)搜索结果呈现单元接收到上述同时分别执行的分类操作和搜索操作的结果数据后,将所获得的各类搜索结果分别添入至由分类操作确定的呈现模板的相应区域中;
(5)用户交互界面将最终的搜索结果向用户呈现。
本发明的有益效果和优点是:
与现有技术相比,本发明提供了一种基于关键字分类并具有多种呈现方式的搜索引擎装置的结构组成与其搜索方法。不同于原有搜索引擎的搜索结果是单一的文本或图片链接的显示形式,本发明装置和方法是:先对关键字进行分类,并针对每一种类型的关键字,提供一种更便于用户理解和使用的呈现方式。该呈现方式将突出不同分类的关键字特点,其显示的交互界面中对于该关键字的搜索结果能够呈现给用户更加简明、清晰的搜索内容,用户只需通过下一步的点击,就能够进入到与其想要搜索内容更加相关、联系更加密切的主题,以此实现引导用户的下一步搜索的目标。
因此,本发明装置和方法有利于用户从庞杂的搜索结果中快速定位自己所需求的信息,有效解决了现有搜索引擎的搜索结果没有区分度的问题,因而可以有效提高用户的搜索体验,并节省用户的搜索时间。因此,本发明具有很好的推广应用前景。
附图说明
图1是本发明基于关键字分类并有多样化呈现方法的搜索引擎装置结构组成示意图。
图2是本发明基于关键字分类并有多样化呈现方法的搜索引擎装置的搜索方法操作流程图。
图3是本发明系统实施例中交互界面上不同分类的关键字对应不同呈现模板示意图。
图4是本发明实施例中的搜索页面首页示意图。
图5是实施例中搜索关键字“Apple”后,得到的搜索结果页面示意图。
图6是实施例中搜索关键字“IT公司”后,得到的搜索结果页面示意图。
图7是实施例中搜索关键字“苹果公司”后,得到的搜索结果页面示意图。
图8是实施例中搜索关键字“史蒂夫·乔布斯”后,得到的搜索结果页面示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图和实施例对本发明作进一步的详细描述。
本发明基于关键字分类并有多种呈现方式的搜索引擎装置的工作原理是:
先对用户输入的关键字进行预处理和分类,再根据关键字的分类结果,选择多样化的不同呈现方式;同时,对关键字进行搜索并将搜索结果进行聚类后,填入所选定的呈现模板,将最终搜索结果返回给用户。该装置能有效节省用户自行筛选所需信息的时间,提升搜索效率和呈现效果。
下面先介绍本发明搜索引擎装置使用关键字表示用户待搜索或查询的内容与信息的特点是:
(A)用户每次查询的关键字不一定只有一个词语,通常是包含了以空格分隔的多个关键字。这种情况同样也被视为一个关键字,此时的多个关键字代表了用户需要的某种信息的多个特点。
(B)关键字的内容离散且短,不能独立成文,但其为有实际涵义的词串。
(C)非规范与特有性:用户输入的关键字通常为表述简洁,往往只表达出其意义,而不太注意规范性,可能包括拼写错误或者缩写短语等。
参见图1,介绍该装置结构组成中的四个组成部件:用户交互界面、关键字处理单元、搜索单元和搜索结果呈现单元的功能与特点:
用户交互界面:用于以Web浏览器方式与用户进行人机交互,交互界面设有搜索框、搜索按钮和搜索结果列表,以供用户在搜索时,先在搜索框中输入关键字并触发搜索按钮后,启动该装置执行搜索操作,同时等待该搜索引擎装置在该交互界面上的搜索结果列表中显示搜索结果。
关键字处理单元:用于接收从用户交互界面传递来的关键字,对关键字进行预处理后,将处理结果送到搜索单元;同时对预处理后的关键字利用事先建立的分类模型对其进行分类,再将该关键字分类结果转发给搜索结果呈现单元。设有:顺序连接的关键字预处理模块和由关键字特征选择、关键字分类和分类模型三个构件组成的关键字分类模块。该两个模块功能介绍如下:
(A)关键字预处理模块:用于接收来自用户交互界面的关键字,并对该关键字进行数据清洗的预处理:包括利用Lucene分词工具对输入的原始文本执行中文特有的分词处理、即删除其中的停止词和无实际意义的虚词等,使得预处理后的关键字数据呈现为标准化状态、即特征集合(代表用户所需要搜索的某些内容的特征组合),有利于执行后续聚类算法。该关键字预处理模块完成所有预处理操作后,将处理结果分别发送给关键字分类模块和搜索单元做后续处理。
(B)关键字分类模块:用于接收关键字预处理模块传来的特征集合,并采用预先训练的分类模型对该特征集合进行分类,将其归属到设定类别中,再将分类结果发送给搜索结果呈现模块;设有下述三个组成构件:关键字特征选择构件、关键字分类构件和分类模型构件。这三个组成构件的功能分别说明如下:
关键字特征选择构件,负责对预处理后的关键字特征集合进行筛选,删除部分信息含量低、不具有类别意义的词,以便在减少特征数量的同时,减小特征向量维度;利用所选择的有监督的特征选择方法分别计算各个特征权重或评估分数,以此作为筛选依据,得到的筛选后的结果被称为特征子集。所采用特征选择方法通常是利用已知类别的训练样本,通过若干个评估函数来统计特征与类别之间的相互关系,再根据统计结果决定特征的取舍。相比于无监督的特征选择方法来说,有监督的特征选择方法效果较好。
关键字分类构件,用于根据关键字特征选择构件筛选出的特征子集,利用分类模型构件对未知类别的扩展文本(即关键字)进行分类,也就是根据特征子集重新计算得到未分类扩展文本的特征向量,再根据这些特征向量(作为该构件的输入)得到关键字的分类结果,并将分类结果同时发送给分类模型构件和搜索结果呈现单元。
分类模型构件,负责在系统运行前期完成对关键字分类模型的建模,通过关键字训练集完成初始学习过程,形成初始分类模型。在系统运行阶段,该分类模型能够通过关键字分类构件利用关键字的分类结果对分类模型进行动态更新。该分类模型构件通过基于K最近邻的分类方法获得分类模型。
搜索单元,用于对接收到的经过预处理的关键字采用独立搜索引擎进行搜索,并采用K-means算法对搜索结果进行聚类分析,且在聚类分析时存储搜索结果的时间戳,以供在后续步骤中,利用该时间戳呈现与时间相关的信息;然后,发送给搜索结果呈现单元。设有搜索结果获取模块和聚类处理模块,其中:
搜索结果获取模块,用于接收由关键字处理单元发来的、经过预处理后的关键字,按照该关键字采用独立搜索引擎获取搜索结果,并将搜索结果发送给聚类处理模块进行下一步处理。
聚类处理模块,用于接收搜索结果获取模块发送来的搜索结果,并采用K-means算法对该搜索结果进行聚类处理,且在聚类处理时存储搜索结果的时间戳,以便在聚类处理过程中利用该时间戳完成与时间相关的呈现内容。再将聚类处理后的搜索结果发送给搜索结果呈现单元。
搜索结果呈现单元,为每个关键字分类都设置有相应的特定呈现模板,以供根据来自关键字处理单元的分类结果确定相应的呈现模板,再将搜索单元的搜索结果加入到该呈现模板中的相应位置,最后将该呈现信息通过用户交互界面向用户显示。
参见图2,介绍本发明具有多样化呈现的搜索引擎装置的搜索方法:用户首先在搜索框中输入关键字,系统就对用户输入的关键字先进行预处理,然后进行分类(分类模型是预先经过关键字学习获得的),并根据分类结果确定搜索结果相应的呈现方式,再将搜索结果进行聚类处理后,使用该呈现方式向用户呈现。用户只需点击其中某一个选项后,就随之更新关键字,重新进行分类和相应处理过程;然后,重复上述过程或直接链接到最终的搜索内容页面,结束搜索过程。同时,对于用户的点击行为进行用户群体行为的分析,更新被点击项的权重,提高搜索的命中率。该方法包括下列操作步骤:
步骤1,用户在搜索框中输入关键字后,该装置的关键字处理单元中的关键字预处理模块就对该关键字进行预处理,以使得到的结果数据呈现标准化状态;再将该预处理后的结果、即关键字特征集合分别送入使用预先训练好的分类模型进行分类的关键字分类模块和搜索单元,同时分别执行后续步骤2的分类操作和步骤3的搜索操作。
步骤2,系统对每种分类对应设置一种呈现方式,以便根据分类结果,确定该关键字对应的呈现方式;关键字分类模块中的三个组成构件对关键字特征集合依次顺序进行筛选和分类,以获得分类结果;再将该分类结果反馈给分类模型构件,完成分类模型的动态更新操作;同时将该分类结果送至搜索结果呈现单元,用以确定最终搜索结果所需的呈现模板。该步骤包括下列具体操作内容:
(21)为减小特征向量维度,关键字分类模块用特征选择方法对预处理后的关键字特征集合进行筛选后,获得关键字特征子集。
(22)关键字分类构件根据关键字特征子集重新计算未分类扩展文本、即关键字的特征向量,通过特征向量对关键字进行分类,并将分类结果送入分类模型构件进行分类模型的自学习;同时,还将该分类结果送至搜索结果呈现单元,以供确定最终搜索结果所需的呈现模板。
(23)分类模型构件根据关键字分类构件对关键字的分类结果,对其预先建模和学习完成的关键字分类模型进行动态更新,以完善其自学习的过程。
步骤3,搜索单元根据预处理后的关键字按照独立搜索引擎方式执行搜索,并利用K-means算法对得到的搜索结果进行聚类处理,在聚类处理时保留搜索结果的时间戳,以供在后续步骤中,利用该时间戳呈现与时间相关的信息;再将经过聚类处理后的搜索结果送至搜索结果呈现单元。该步骤包括的具体操作内容如下:
(31)将预处理后的关键字送入搜索单元进行搜索后,通过搜索结果获取模块获取该关键字的搜索结果,并将该搜索结果送至聚类处理模块。
(32)聚类处理模块用K-means算法对该搜索结果进行聚类分析,在聚类处理时保留搜索结果的时间戳,得到一次聚类结果。
(33)聚类处理模块验证该聚类结果,判断计算得到的各个向量距离是否小于预设的门限值;若是,则完成聚类分析,获得聚类分析的最终结果;否则,返回执行步骤(32),直至其向量距离小于预设的门限值,才结束筛选循环操作。
步骤4,搜索结果呈现单元接收到上述同时分别执行的分类操作和搜索操作的结果数据后,将所获得的各类搜索结果分别添入至由分类操作确定的呈现模板的相应区域中;
步骤5,用户交互界面将最终的搜索结果向用户呈现。
参见图3,介绍本发明装置的用户使用界面的实施例示意图:用户在最上方的搜索框中输入希望查询的关键字后,该装置就会根据关键字的不同分类,使用不同的呈现模板(如图3所示):
当用户查询的关键字所属分类为“歧义性”时,该分类对应的搜索结果呈现模板,将按照不同的语义为用户提供多个搜索结果的列表;
当用户查询的关键字所属分类为“集合”时,其对应的呈现模板会依次列出该“集合”中的所有“元素”,这些元素可以以文字形式或图片形式呈现。
本发明已经进行了多次实施试验,下面介绍本发明实施例中一个用户的使用实例,说明本发明搜索装置的搜索过程和搜索结果的呈现处理。
(1)用户先进入搜索首页(如图4所示),在“搜索”框中输入需要搜索的关键字(例如“Apple”)。
(2)因为“Apple”具有二义性,既可理解为“水果”,也可以指“苹果公司”,故其呈现页面分为两列,分别代表不同的含义(如图5所示)。用户再点击其中某一栏的内容时,该搜索装置就记录用户的选择,从用户群体选择的角度判断用户对该二义性词语含义的理解。
(3)若搜索关键字“IT公司”,该搜索装置首先将该关键字分类到“集合”类别,并将搜索出的属于这个集合的各元素都将以图标或字符形式散列在屏幕上(如图6所示)。
(4)继续点击“苹果公司”的图标,关键字就更新为“苹果公司”,进入“苹果公司”的搜索结果页面(如图7所示):其左栏显示“苹果公司”的大事件时间轴以及关于“苹果公司”的新闻搜索结果,右栏显示包括公司的简介和与“苹果公司”相关的其他关键字提示。
(5)再点击相关搜索中的“史蒂夫·乔布斯”的链接,关键字更新为“史蒂夫·乔布斯”,并进入“史蒂夫·乔布斯”的搜索结果页面(如图8所示)。同样地,也包括人物的生平大事件时间轴、与该人物有关的新闻搜索结果、人物简介和相关搜索提示。如果继续点击页面上的某条新闻链接,则会进入该新闻页面。
总之,本发明的实施例试验是成功的,实现了发明目的。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (7)

1.一种基于关键字分类进行搜索、并使搜索结果具有多样化呈现方式的搜索引擎装置,其特征在于:该装置设有四个组成部件:用户交互界面、关键字处理单元、搜索单元和搜索结果呈现单元,其中:
用户交互界面,用于以Web浏览器方式与用户进行人机交互,交互界面设有搜索框、搜索按钮和搜索结果列表,以供用户在搜索时,先在搜索框中输入关键字并触发搜索按钮后,启动该装置执行搜索操作,在该交互界面上的搜索结果列表中显示搜索结果;
关键字处理单元,用于接收从用户交互界面传递来的关键字,对关键字进行预处理后,将处理结果送到搜索单元;同时对预处理后的关键字利用事先建立的分类模型进行分类,再将该关键字分类结果转发给搜索结果呈现单元;设有:顺序连接的关键字预处理模块和由关键字特征选择、关键字分类和分类模型三个构件组成的关键字分类模块;所述关键字分类模块中的三个组成构件的功能分别是:
关键字特征选择构件,负责对预处理后的关键字特征集合进行筛选,删除部分信息含量低、不具有类别意义的词,以便在减少特征数量的同时,减小特征向量维度;利用所选择的特征选择方法分别计算各个特征权重或评估分数,以此作为筛选依据,得到的筛选后的结果被称为特征子集;所述特征选择方法是采用有监督的特征选择方法、即利用已知类别的训练样本,通过若干个评估函数来统计特征与类别之间的相互关系,再根据统计结果决定特征的取舍;
关键字分类构件,用于根据关键字特征选择构件筛选出的特征子集,利用分类模型构件对未知类别的扩展文本、即关键字进行分类,也就是根据特征子集重新计算得到未分类扩展文本的特征向量,再根据这些特征向量得到关键字的分类结果,并将分类结果同时发送给分类模型构件和搜索结果呈现单元;
分类模型构件,负责在系统运行前期完成对关键字分类模型的建模,通过关键字训练集完成初始学习过程,形成初始分类模型;在系统运行阶段,该分类模型能够通过关键字分类构件对关键字的分类结果进行动态更新;该分类模型构件通过基于K最近邻的分类方法获得分类模型;
搜索单元,用于对接收到的经过预处理的关键字采用独立搜索引擎进行搜索,并对搜索结果进行聚类分析,且在聚类分析时存储搜索结果的时间戳,该时间戳用于完成与时间相关的呈现内容;然后,将经过聚类处理后的搜索结果发送给搜索结果呈现单元;
搜索结果呈现单元,为每个关键字分类都设置有相应的呈现模板,以供根据来自关键字处理单元的分类结果确定相应的呈现模板,再将搜索单元的搜索结果加入到该呈现模板中的相应位置,最后将该呈现模板中呈现的搜索单元的搜索结果信息通过用户交互界面向用户显示。
2.根据权利要求1所述的装置,其特征在于:所述关键字处理单元中的两个模块功能如下:
关键字预处理模块,用于接收来自用户交互界面的关键字,并对该关键字进行包括中文特有的分词处理、即删除停止词和无实际意义的虚词的数据清洗预处理,使得预处理后的关键字数据呈现为标准化状态、即特征集合,有利于执行后续聚类算法;该关键字预处理模块完成所有预处理操作后,将处理结果分别发送给关键字分类模块和搜索单元做后续处理;
关键字分类模块,用于接收关键字预处理模块传来的特征集合,并采用预先训练的分类模型对该特征集合进行分类,将其归属到设定类别中,再将分类结果发送给搜索结果呈现模块;设有下述三个组成构件:关键字特征选择构件、关键字分类构件和分类模型构件。
3.根据权利要求2所述的装置,其特征在于:所述分词是利用Lucene分词工具对输入的原始文本进行分词处理:删除其中的停止词和无实际意义的虚词;经过预处理后的关键字被称为表明用户所需要搜索的关键字特征集合。
4.根据权利要求1所述的装置,其特征在于,所述搜索单元各个模块功能如下:
搜索结果获取模块,用于接收由关键字处理单元发来的、经过预处理后的关键字,按照该关键字采用独立搜索引擎获取搜索结果,并将搜索结果发送给聚类处理模块进行下一步处理;
聚类处理模块,用于接收搜索结果获取模块发送来的搜索结果,并采用K-means算法对该搜索结果进行聚类处理;且在聚类处理时存储搜索结果的时间戳,以便在聚类处理过程中,利用该时间戳完成与时间相关的呈现内容;再将聚类处理后的搜索结果发送给搜索结果呈现单元。
5.一种采用权利要求1所述的具有多样化呈现的搜索引擎装置的搜索方法,其特征在于:系统先对用户输入的关键字进行预处理,然后进行分类,并根据分类结果确定相应的呈现方式,再将搜索结果进行聚类处理后,使用该呈现方式向用户呈现;所述方法包括下列操作步骤:
(1)用户在搜索框中输入关键字后,该装置的关键字处理单元中的关键字预处理模块就对该关键字进行预处理,以使得到的结果数据呈现标准化状态;再将该预处理后的结果、即关键字特征集合分别送入使用预先训练好的分类模型进行分类的关键字分类模块和搜索单元,同时分别执行后续步骤(2)的分类操作和步骤(3)的搜索操作;
(2)系统对每种分类对应设置一种呈现方式,以便根据分类结果,确定该关键字对应的呈现方式;关键字分类模块中的三个组成构件对关键字特征集合依次顺序进行筛选和分类,以获得分类结果,再将该分类结果反馈给分类模型构件,完成分类模型的动态更新操作;同时将该分类结果送至搜索结果呈现单元,用以确定最终搜索结果所需的呈现模板;
(3)搜索单元根据预处理后的关键字按照独立搜索引擎方式执行搜索,并利用K-means算法对得到的搜索结果进行聚类处理,在聚类处理时保留该搜索结果的时间戳,以供在后续步骤中,利用该时间戳呈现与时间相关的内容;再将经过聚类处理后的搜索结果送至搜索结果呈现单元;
(4)搜索结果呈现单元接收到上述同时分别执行的分类操作和搜索操作的结果数据后,将所获得的各类搜索结果分别添入至由分类操作确定的呈现模板的相应区域中;
(5)用户交互界面将最终的搜索结果向用户呈现。
6.根据权利要求5所述的方法,其特征在于:所述步骤(2)进一步包括下列操作内容:
(21)为减小特征向量维度,关键字分类模块用特征选择方法对预处理后的关键字特征集合进行筛选后,获得关键字特征子集;
(22)关键字分类构件根据关键字特征子集重新计算未分类扩展文本、即关键字的特征向量,通过特征向量对关键字进行分类,并将分类结果送入分类模型构件进行分类模型的自学习;同时,还将该分类结果送至搜索结果呈现单元,以供确定最终搜索结果所需的呈现模板;
(23)分类模型构件根据关键字分类构件对关键字的分类结果,对其预先建模和学习完成的关键字分类模型进行动态更新,以完善其自学习的过程。
7.根据权利要求5所述的方法,其特征在于:所述步骤(3)进一步包括下列操作内容:
(31)将预处理后的关键字送入搜索单元进行搜索后,通过搜索结果获取模块获取该关键字的搜索结果,并将该搜索结果送至聚类处理模块;
(32)聚类处理模块用K-means算法对该搜索结果进行聚类分析,在聚类分析过程中保留搜索结果的时间戳,得到一次聚类结果;
(33)聚类处理模块验证该聚类结果,判断计算得到的各个向量距离是否小于预设的门限值;若是,则完成聚类分析,获得聚类分析的最终结果;否则,返回执行步骤(32),直至其向量距离小于预设的门限值,才结束筛选循环操作。
CN201310229058.9A 2013-06-08 2013-06-08 基于关键字分类并有多种呈现方式的搜索引擎装置与方法 Active CN103294815B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310229058.9A CN103294815B (zh) 2013-06-08 2013-06-08 基于关键字分类并有多种呈现方式的搜索引擎装置与方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310229058.9A CN103294815B (zh) 2013-06-08 2013-06-08 基于关键字分类并有多种呈现方式的搜索引擎装置与方法

Publications (2)

Publication Number Publication Date
CN103294815A CN103294815A (zh) 2013-09-11
CN103294815B true CN103294815B (zh) 2017-06-06

Family

ID=49095677

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310229058.9A Active CN103294815B (zh) 2013-06-08 2013-06-08 基于关键字分类并有多种呈现方式的搜索引擎装置与方法

Country Status (1)

Country Link
CN (1) CN103294815B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156109B (zh) * 2015-04-03 2020-09-04 阿里巴巴集团控股有限公司 一种搜索方法及装置
CN104965853B (zh) * 2015-05-11 2018-05-04 腾讯科技(深圳)有限公司 聚合类应用的推荐、多方推荐源聚合的方法、系统和装置
CN104899285B (zh) * 2015-06-04 2018-09-25 百度在线网络技术(北京)有限公司 搜索结果展示方法和装置
US10242112B2 (en) 2015-07-15 2019-03-26 Google Llc Search result filters from resource content
CN104965934A (zh) * 2015-08-04 2015-10-07 时代新媒体出版社有限责任公司 一种基于互联网内容挖掘的一搜成书方法
US10296538B2 (en) * 2016-02-23 2019-05-21 Baidu Usa Llc Method for matching images with content based on representations of keywords associated with the content in response to a search query
US10599731B2 (en) * 2016-04-26 2020-03-24 Baidu Usa Llc Method and system of determining categories associated with keywords using a trained model
CN106021516A (zh) * 2016-05-24 2016-10-12 百度在线网络技术(北京)有限公司 搜索方法及装置
CN105956181A (zh) * 2016-05-31 2016-09-21 北京百度网讯科技有限公司 搜索方法及装置
CN106096037A (zh) * 2016-06-27 2016-11-09 北京百度网讯科技有限公司 基于人工智能的搜索结果聚合方法、装置以及搜索引擎
CN107609018B (zh) * 2017-08-04 2021-09-17 百度在线网络技术(北京)有限公司 搜索结果的呈现方法、装置和终端设备
CN109948013B (zh) * 2017-08-16 2021-11-05 北京国双科技有限公司 网页处理方法和装置
CN108399194A (zh) * 2018-01-29 2018-08-14 中国科学院信息工程研究所 一种网络威胁情报生成方法及系统
CN108494665B (zh) * 2018-03-27 2021-03-23 维沃移动通信有限公司 一种群消息显示方法及移动终端
CN109120781B (zh) * 2018-08-03 2021-04-13 Oppo广东移动通信有限公司 信息提示方法、电子装置及计算机可读存储介质
CN111580742B (zh) * 2019-08-30 2021-06-15 上海忆芯实业有限公司 使用加速器处理读(Get)/Put(写)请求的方法及其信息处理系统
CN113343131B (zh) * 2021-06-30 2022-08-26 北京三快在线科技有限公司 一种模型训练的方法、信息展示的方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101908071A (zh) * 2010-08-10 2010-12-08 厦门市美亚柏科信息股份有限公司 一种提高搜索引擎搜索效率的方法及其系统
CN102339311A (zh) * 2011-09-19 2012-02-01 百度在线网络技术(北京)有限公司 在用户设备上基于查询分类搜索网页内容的方法与设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8880520B2 (en) * 2010-04-21 2014-11-04 Yahoo! Inc. Selectively adding social dimension to web searches

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101908071A (zh) * 2010-08-10 2010-12-08 厦门市美亚柏科信息股份有限公司 一种提高搜索引擎搜索效率的方法及其系统
CN102339311A (zh) * 2011-09-19 2012-02-01 百度在线网络技术(北京)有限公司 在用户设备上基于查询分类搜索网页内容的方法与设备

Also Published As

Publication number Publication date
CN103294815A (zh) 2013-09-11

Similar Documents

Publication Publication Date Title
CN103294815B (zh) 基于关键字分类并有多种呈现方式的搜索引擎装置与方法
US9449271B2 (en) Classifying resources using a deep network
WO2019218514A1 (zh) 网页目标信息的提取方法、装置及存储介质
US9460193B2 (en) Context and process based search ranking
CN107220386A (zh) 信息推送方法和装置
CN108280114B (zh) 一种基于深度学习的用户文献阅读兴趣分析方法
CN110825956A (zh) 一种信息流推荐方法、装置、计算机设备及存储介质
WO2021098648A1 (zh) 文本推荐方法、装置、设备及介质
CN109451147B (zh) 一种信息展示方法及装置
US20230147941A1 (en) Method, apparatus and device used to search for content
CN107193987A (zh) 获取与页面相关的搜索词的方法、装置和系统
CN108959580A (zh) 一种标签数据的优化方法及系统
CN112699295A (zh) 一种网页内容推荐方法、装置和计算机可读存储介质
CN104503988A (zh) 搜索方法及装置
CN112749328B (zh) 搜索方法、装置和计算机设备
Nawazish et al. Integrating “Random Forest” with Indexing and Query Processing for Personalized Search
Hopfgartner et al. Simulated evaluation of faceted browsing based on feature selection
JP5384567B2 (ja) 潜在クラス分析装置、潜在クラス分析方法及びプログラム
CN114048347A (zh) 歌曲标签整理、访问方法及其装置、设备、介质、产品
Preetha et al. Personalized search engines on mining user preferences using clickthrough data
CN113761125A (zh) 动态摘要确定方法和装置、计算设备以及计算机存储介质
Ma A new aggregated search method
Jiang et al. A personalized search engine model based on RSS User's interest
Liu et al. A Collaborative Filtering Recommendation Method with Integrated User Profiles
CN117009170A (zh) 训练样本的生成方法、装置、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant