CN106126561A - 搜索结果摘要的生成方法及装置 - Google Patents

搜索结果摘要的生成方法及装置 Download PDF

Info

Publication number
CN106126561A
CN106126561A CN201610430974.2A CN201610430974A CN106126561A CN 106126561 A CN106126561 A CN 106126561A CN 201610430974 A CN201610430974 A CN 201610430974A CN 106126561 A CN106126561 A CN 106126561A
Authority
CN
China
Prior art keywords
page
content element
key word
search key
pages
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610430974.2A
Other languages
English (en)
Inventor
肖欣延
吕雅娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201610430974.2A priority Critical patent/CN106126561A/zh
Publication of CN106126561A publication Critical patent/CN106126561A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种搜索结果摘要的生成方法及装置。本发明实施例通过根据所获取的搜索关键词,获得至少一个页面,进而根据所述至少一个页面中每个页面,以及所述至少一个页面中除了该页面之外的其他页面,获得所述每个页面的摘要,使得能够输出包含所述每个页面的摘要的搜索结果,由于不再完全依赖于单个页面,而是结合与搜索关键词所匹配的其他相关页面来生成摘要,充分利用了大数据的特点,从而提高了摘要的质量。

Description

搜索结果摘要的生成方法及装置
【技术领域】
本发明涉及互联网技术,尤其涉及一种搜索结果摘要的生成方法及装置。
【背景技术】
搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供搜索服务,将用户搜索相关的信息展示给用户的系统。据国家统计局的报道,中国网民人数已经超过了4亿,这个数据意味着中国已经超过美国成为世界上第一大网民国,且中国的网站总数量已经超过了200万。因此,如何利用搜索服务最大限度满足用户需求,对于互联网企业而言,始终是一个重要的课题。为了增强搜索引擎所提供的搜索结果的展示效果,在搜索结果中,除了页面的标题和页面的统一资源定位符(Uniform Resource Locator,URL)之外,还可以进一步包括一段来自页面的摘要。通常,搜索引擎可以采用动态摘要生成方式,即根据搜索关键词在页面中的位置,提取出周围的内容即片段例如,不完整的句子等来,在输出时将搜索关键词进行高亮显示。
然而,现有的摘要完全依赖于其对所对应的单个页面,可能会导致摘要的质量的降低。
【发明内容】
本发明的多个方面提供一种搜索结果摘要的生成方法及装置,用以提高摘要的质量。
本发明的一方面,提供一种搜索结果摘要的生成方法,包括:
获取搜索关键词;
根据所述搜索关键词,获得至少一个页面;
根据所述至少一个页面中每个页面,以及所述至少一个页面中除了该页面之外的其他页面,获得所述每个页面的摘要;
输出包含所述每个页面的摘要的搜索结果。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述至少一个页面中每个页面,以及所述至少一个页面中除了该页面之外的其他页面,获得所述每个页面的摘要,包括:
根据所述搜索关键词中的内容单元、所述每个页面中的内容单元和所述其他页面中的内容单元,获得所述搜索关键词中的内容单元与所述每个页面中的内容单元之间的第一相关度,以及所述每个页面中的内容单元与所述其他页面中的内容单元之间的第二相关度;
根据所述第一相关度和第二相关度,获得所述每个页面中的内容单元的重要性特征;
根据所述每个页面中的内容单元的重要性特征,获得至少一个内容单元;
根据所述至少一个内容单元,获得所述每个页面的摘要。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述搜索关键词中的内容单元、所述每个页面中的内容单元和所述其他页面中的内容单元,获得所述搜索关键词中的内容单元与所述每个页面中的内容单元之间的第一相关度,以及所述每个页面中的内容单元与所述其他页面中的内容单元之间的第二相关度,包括:
根据所述搜索关键词中的内容单元、所述每个页面中的内容单元和所述其他页面中的内容单元,
采用至少一种相关度算法,获得所述搜索关键词中的内容单元与所述每个页面中的内容单元之间的第一相关度,以及所述每个页面中的内容单元与所述其他页面中的内容单元之间的第二相关度。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述至少一个页面中每个页面,以及所述至少一个页面中除了该页面之外的其他页面,获得所述每个页面的摘要,还包括:
根据所述每个页面,获得所述每个页面中的内容单元的文档特征;
所述根据所述每个页面中的内容单元的重要性特征,获得至少一个内容单元,包括:
根据所述每个页面中的内容单元的重要性特征和所述每个页面中的内容单元的文档特征,获得所述至少一个内容单元。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述内容单元包括字、词和句子中的至少一项。
本发明的另一方面,提供一种搜索结果摘要的生成装置,包括:
获取单元,用于获取搜索关键词;
匹配单元,用于根据所述搜索关键词,获得至少一个页面;
摘要单元,用于根据所述至少一个页面中每个页面,以及所述至少一个页面中除了该页面之外的其他页面,获得所述每个页面的摘要;
输出单元,用于输出包含所述每个页面的摘要的搜索结果。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述摘要单元,具体用于
根据所述搜索关键词中的内容单元、所述每个页面中的内容单元和所述其他页面中的内容单元,获得所述搜索关键词中的内容单元与所述每个页面中的内容单元之间的第一相关度,以及所述每个页面中的内容单元与所述其他页面中的内容单元之间的第二相关度;
根据所述第一相关度和第二相关度,获得所述每个页面中的内容单元的重要性特征;
根据所述每个页面中的内容单元的重要性特征,获得至少一个内容单元;以及
根据所述至少一个内容单元,获得所述每个页面的摘要。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述摘要单元,具体用于
根据所述搜索关键词中的内容单元、所述每个页面中的内容单元和所述其他页面中的内容单元,采用至少一种相关度算法,获得所述搜索关键词中的内容单元与所述每个页面中的内容单元之间的第一相关度,以及所述每个页面中的内容单元与所述其他页面中的内容单元之间的第二相关度。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述摘要单元,还用于
根据所述每个页面,获得所述每个页面中的内容单元的文档特征;
所述摘要单元,具体用于
根据所述每个页面中的内容单元的重要性特征和所述每个页面中的内容单元的文档特征,获得所述至少一个内容单元。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述内容单元包括字、词和句子中的至少一项。
由上述技术方案可知,本发明实施例通过根据所获取的搜索关键词,获得至少一个页面,进而根据所述至少一个页面中每个页面,以及所述至少一个页面中除了该页面之外的其他页面,获得所述每个页面的摘要,使得能够输出包含所述每个页面的摘要的搜索结果,由于不再完全依赖于单个页面,而是结合与搜索关键词所匹配的其他相关页面来生成摘要,充分利用了大数据的特点,从而提高了摘要的质量。
另外,采用本发明所提供的技术方案,由于可以采用完整的句子作为生成摘要的内容单元,能够避免现有技术中由于采用搜索关键词周围的内容即片段生成摘要而导致的可读性差的问题,因此,能够有效提高摘要的可读性。
另外,采用本发明所提供的技术方案,能够有效地提高用户的体验。
【附图说明】
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的搜索结果摘要的生成方法的流程示意图;
图2为图1所对应的实施例中文档图的实例;
图3为本发明另一实施例提供的搜索结果摘要的生成装置的结构示意图。
【具体实施方式】
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本发明保护的范围。
需要说明的是,本发明实施例中所涉及的终端可以包括但不限于手机、个人数字助理(Personal Digital Assistant,PDA)、无线手持设备、平板电脑(Tablet Computer)、个人电脑(Personal Computer,PC)、MP3播放器、MP4播放器、可穿戴设备(例如,智能眼镜、智能手表、智能手环等)等。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
图1为本发明一实施例提供的搜索结果摘要的生成方法的流程示意图,如图1所示。
101、获取搜索关键词。
102、根据所述搜索关键词,获得至少一个页面。
103、根据所述至少一个页面中每个页面,以及所述至少一个页面中除了该页面之外的其他页面,获得所述每个页面的摘要。
104、输出包含所述每个页面的摘要的搜索结果。
需要说明的是,101~104的执行主体的部分或全部可以为位于本地终端的应用,或者还可以为设置在位于本地终端的应用中的插件或软件开发工具包(SoftwareDevelopment Kit,SDK)等功能单元,或者还可以为位于网络侧服务器中的搜索引擎,或者还可以为位于网络侧的分布式系统,本实施例对此不进行特别限定。
可以理解的是,所述应用可以是安装在终端上的本地程序(nativeApp),或者还可以是终端上的浏览器的一个网页程序(webApp),本实施例对此不进行特别限定。
这样,通过根据所获取的搜索关键词,获得至少一个页面,进而根据所述至少一个页面中每个页面,以及所述至少一个页面中除了该页面之外的其他页面,获得所述每个页面的摘要,使得能够输出包含所述每个页面的摘要的搜索结果,由于不再完全依赖于单个页面,而是结合与搜索关键词所匹配的其他相关页面来生成摘要,充分利用了大数据的特点,从而提高了摘要的质量。
可选地,在本实施例的一个可能的实现方式中,在101中,具体可以采集用户所提供的所述搜索关键词。具体来说,具体可以通过用户所触发的搜索命令实现。具体可以采用但不限于下述几种方式触发搜索命令:
方式一:
用户可以在当前应用所展现的页面上所输入所述搜索关键词,然后,通过点击该页面上的搜索按钮例如,百度一下,以触发搜索命令,该搜索命令中包含所述搜索关键词。其中,用户输入所述搜索关键词的顺序可以为任意顺序。这样,在接收到该搜索命令之后,则可以解析出其中所包含的所述搜索关键词。
方式二:
采用异步加载技术例如,Ajax异步加载或Jsonp异步加载等,实时获取用户在当前应用所展现的页面上所输入的输入内容,为了与搜索关键词进行区分,此时的输入内容可以称为是输入关键词。其中,用户输入所述搜索关键词的顺序可以为任意顺序。具体地,具体可以提供Ajax接口或Jsonp接口等接口,这些接口可以使用Java、超级文本预处理(Hypertext Preprocessor,PHP)语言等语言进行编写,其具体的调用可以使用Jquery,或者原生的JavaScript等语言进行编写。
方式三:用户可以通过长按当前应用所展现的页面上的语音搜索按钮,说出想要输入的语音内容,然后,松开语音搜索按钮,以触发搜索命令,该搜索命令中包含根据所说出的语音内容转换的文本形式的搜索关键词。这样,在接收到该搜索命令之后,则可以解析出其中所包含的所述搜索关键词。
方式四:用户可以通过点击当前应用所展现的页面上的语音搜索按钮,说出想要输入的语音内容,待结束说出语音内容一段时间例如,2秒钟之后,则触发搜索命令,该搜索命令中包含根据所说出的语音内容转换的文本形式的搜索关键词。这样,在接收到该搜索命令之后,则可以解析出其中所包含的所述搜索关键词。
在获取到所述输入关键词之后,则可以执行后续操作即102~104。
可选地,在本实施例的一个可能的实现方式中,在102中,具体可以采用现有的搜索方法,获得与所述搜索关键词,对应的若干个页面。详细描述可以参见现有技术中的相关内容,此处不在赘述。
可选地,在本实施例的一个可能的实现方式中,在103中,具体可以根据所述搜索关键词中的内容单元、所述每个页面中的内容单元和所述其他页面中的内容单元,获得所述搜索关键词中的内容单元与所述每个页面中的内容单元之间的第一相关度,以及所述每个页面中的内容单元与所述其他页面中的内容单元之间的第二相关度。进而,则可以根据所述第一相关度和第二相关度,获得所述每个页面中的内容单元的重要性特征。然后,可以根据所述每个页面中的内容单元的重要性特征,获得至少一个内容单元,并根据所述至少一个内容单元,获得所述每个页面的摘要。
其中,所述内容单元可以包括但不限于字、词和句子中的至少一项,本实施例对此不进行特别限定。
以句子作为内容单元为例,详细说明该实现方式。在获取搜索关键词、与搜索关键词所匹配的若干个页面中每个页面的句子序列之后,通过句子之间的相关度计算,将这些句子构造成为相互连接的文档图,进而,支持在文档图上进行句子的重要性特征即图特征的计算。图2是一个文档图的实例,文档图的节点表示页面的句子,文档图的边具有对应的权重,表示两个节点之间的相关度。在文档图中,Q表示搜索关键词;S1、S2和S3表示主文档(即待提取摘要的页面)的句子;d1S1、d2S1、d2S2、d2S3、d3S1、d3S2、d4S1和d4S2表示相关文档(即搜索关键词所匹配的页面中除了待提取摘要的页面之外的其他页面)的句子;边表示句子之间的相关度。显然,与越多的句子相关的句子,其重要性越高,概括能力越强,更适合作为摘要。边的权重对于计算句子之间的相关度,有关键作用,边的权重越高,说明两个句子之间的相关度越高。具体地,具体可以采用如下相关度算法中的至少一种相关度算法,进行上述相关度即第一相关度和第二相关度的计算。
A、TF-IDF相关度算法
将句子表示为单词向量,每个单词的权重用TF*IDF表示,TF为单词在句子中频次,IDF为单词在语料中的逆向文档频率。在获得两个句子的单词向量表示之后,通过向量距离余弦(Cosin)公式,即可计算两个句子之间的相关度。此方法主要计算句子之间的单词共现。
B、语义(Embedding)相关度算法
基于深度学习技术,将句子转化为固定维度(如128维)的连续向量表示,然后通过向量距离余弦(Cosin)公式,即可计算两个句子之间的相关度。此方法主要在语义空间计算句子之间的相关度。
C、0/1相关度算法
在TF-IDF相关度算法的基础之上,设置一个阈值,例如0.8等。将句子之间的相关度超过该阈值的置为1,其余置为0。此相关度仅考虑高度相似句子之间的相关度,能够避免一个句子因为与大量不太相关的句子有关联,而变成重要。
如果分别采用上述三种相关度算法,则可以获得三个文档图,两个句子之间则会对应三个相关度,利用这三个相关度分别参与后续的计算,即每个句子具有三个重要性特征,这样,则可以提高相关度的可靠性。
对每个文档图通过网页排名(PageRank)算法,计算获得每个句子的重要性特征,具体可以采用如下公式:
r a n k ( s ) = d · w ( q , s ) Z q + ( 1 - d ) Σ v ∈ a d j [ s ] w ( s , v ) Z v r a n k ( v )
其中,rank(s)表示句子的重要性特征;q表示搜索关键词;s表示句子,v表示s的相邻节点,d表示搜索关键词的相关度的权重,w(-,-)表示两个节点之间的相关程度;Zq,Zv为对应的归一化值。
在一个具体的实现过程中,还可以进一步根据所述每个页面,获得所述每个页面中的内容单元的文档特征;那么,相应地,则可以根据所述每个页面中的内容单元的重要性特征和所述每个页面中的内容单元的文档特征,获得所述至少一个内容单元。
其中,所述内容单元的文档特征,可以包括但不限于如下特征中的至少一项:
位置特征;
词汇特征;以及
内容单元的类型。
所谓的位置特征,用于表示内容单元在页面中的位置;
所谓的词汇特征,用于表示内容单元中所包含的实体词、名词等的数量。
所谓的内容单元的类型,用于表示内容单元的类型,例如,疑问句型、观点句型等句子的类型。
在获得每个页面中的内容单元的重要性特征,以及每个页面中的内容单元的文档特征之后,则可以基于这些特征,通过学习排序(Learning to Rank)模型,为每个内容单元计算排序分数。这个分数,就作为内容单元的最终分数,此分数越高,说明内容单元的重要性越高,作为摘要的可能性就越大。
例如,可以根据内容单元的排序分数,从高到低选择内容单元,顺序组成摘要。当选择出的内容单元总数超过预先设置的阈值时,摘要即生成完毕。为了避免摘要中,存在过多的冗余信息。在选择内容单元时,可以根据如下公式进行贪心选择:
R=w*Rank(s)-(1-w)*redundancy(s,summary)
R表示内容单元最终的排序分数,Rank(s)表示内容单元本身的排序分数,redundancy(s,summary)为内容单元与已选择出内容单元的冗余度,w为权重。
那么,则可以根据内容单元最终的排序分数,从高到低选择内容单元,顺序组成摘要。当选择出的内容单元总数超过预先设置的阈值时,摘要即生成完毕。也就是说,内容单元最终的排序分数越高,冗余度越低,该内容单元越被选择出来的概率则越大。
本发明中,在搜索引擎的摘要场景下,首先提出了使用多页面信息改进单页面信息的摘要提取。同时,在摘要提取的过程中,引入了多个文档图,用以计算多个文档图的图特征即内容单元的重要性特征。进一步,还引入了多种文档特征。最后,再基于LTR模型,将多个图特征和文档特征进行融合,以提取出恰当的内容单元,组成页面的摘要。其所提出的技术方案,具有如下优势:
1、利用大量的相关网页,辅助单网页的摘要提取,能够有效提高摘要的质量。
2、能够提供数据统计,让用户了解有多少相关网页支持此摘要,便于用户进行决策。
3、摘要可以由语义完整的句子组成,语言的流畅性好,能够有效提高摘要的可读性。
本实施例中,通过根据所获取的搜索关键词,获得至少一个页面,进而根据所述至少一个页面中每个页面,以及所述至少一个页面中除了该页面之外的其他页面,获得所述每个页面的摘要,使得能够输出包含所述每个页面的摘要的搜索结果,由于不再完全依赖于单个页面,而是结合与搜索关键词所匹配的其他相关页面来生成摘要,充分利用了大数据的特点,从而提高了摘要的质量。
另外,采用本发明所提供的技术方案,由于可以采用完整的句子作为生成摘要的内容单元,能够避免现有技术中由于采用搜索关键词周围的内容即片段生成摘要而导致的可读性差的问题,因此,能够有效提高摘要的可读性。
另外,采用本发明所提供的技术方案,能够有效地提高用户的体验。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
图3为本发明另一实施例提供的搜索结果摘要的生成装置的结构示意图,如图3所示。本实施例的搜索结果摘要的生成装置可以包括获取单元31、匹配单元32、摘要单元33和输出单元34。其中,获取单元31,用于获取搜索关键词;匹配单元32,用于根据所述搜索关键词,获得至少一个页面;摘要单元33,用于根据所述至少一个页面中每个页面,以及所述至少一个页面中除了该页面之外的其他页面,获得所述每个页面的摘要;输出单元34,用于输出包含所述每个页面的摘要的搜索结果。
需要说明的是,本实施例所提供的搜索结果摘要的生成装置的部分或全部可以为位于本地终端的应用,或者还可以为设置在位于本地终端的应用中的插件或软件开发工具包(Software Development Kit,SDK)等功能单元,或者还可以为位于网络侧服务器中的搜索引擎,或者还可以为位于网络侧的分布式系统,本实施例对此不进行特别限定。
可以理解的是,所述应用可以是安装在终端上的本地程序(nativeApp),或者还可以是终端上的浏览器的一个网页程序(webApp),本实施例对此不进行特别限定。
可选地,在本实施例的一个可能的实现方式中,所述摘要单元33,具体可以用于根据所述搜索关键词中的内容单元、所述每个页面中的内容单元和所述其他页面中的内容单元,获得所述搜索关键词中的内容单元与所述每个页面中的内容单元之间的第一相关度,以及所述每个页面中的内容单元与所述其他页面中的内容单元之间的第二相关度;根据所述第一相关度和第二相关度,获得所述每个页面中的内容单元的重要性特征;根据所述每个页面中的内容单元的重要性特征,获得至少一个内容单元;以及根据所述至少一个内容单元,获得所述每个页面的摘要。
其中,所述内容单元可以包括但不限于字、词和句子中的至少一项,本实施例对此不进行特别限定。
在一个具体的实现过程中,所述摘要单元33,具体可以用于根据所述搜索关键词中的内容单元、所述每个页面中的内容单元和所述其他页面中的内容单元,采用至少一种相关度算法,获得所述搜索关键词中的内容单元与所述每个页面中的内容单元之间的第一相关度,以及所述每个页面中的内容单元与所述其他页面中的内容单元之间的第二相关度。
在另一个具体的实现过程中,所述摘要单元33,还可以进一步用于根据所述每个页面,获得所述每个页面中的内容单元的文档特征;那么,相应地,所述摘要单元33,具体可以用于根据所述每个页面中的内容单元的重要性特征和所述每个页面中的内容单元的文档特征,获得所述至少一个内容单元。
需要说明的是,图1对应的实施例中方法,可以由本实施例提供的搜索结果摘要的生成装置实现。详细描述可以参见图1对应的实施例中的相关内容,此处不再赘述。
本实施例中,通过匹配单元根据获取单元所获取的搜索关键词,获得至少一个页面,进而由摘要单元根据所述至少一个页面中每个页面,以及所述至少一个页面中除了该页面之外的其他页面,获得所述每个页面的摘要,使得输出单元能够输出包含所述每个页面的摘要的搜索结果,由于不再完全依赖于单个页面,而是结合与搜索关键词所匹配的其他相关页面来生成摘要,充分利用了大数据的特点,从而提高了摘要的质量。
另外,采用本发明所提供的技术方案,由于可以采用完整的句子作为生成摘要的内容单元,能够避免现有技术中由于采用搜索关键词周围的内容即片段生成摘要而导致的可读性差的问题,因此,能够有效提高摘要的可读性。
另外,采用本发明所提供的技术方案,能够有效地提高用户的体验。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种搜索结果摘要的生成方法,其特征在于,包括:
获取搜索关键词;
根据所述搜索关键词,获得至少一个页面;
根据所述至少一个页面中每个页面,以及所述至少一个页面中除了该页面之外的其他页面,获得所述每个页面的摘要;
输出包含所述每个页面的摘要的搜索结果。
2.根据权利要求1所述的方法,其特征在于,所述根据所述至少一个页面中每个页面,以及所述至少一个页面中除了该页面之外的其他页面,获得所述每个页面的摘要,包括:
根据所述搜索关键词中的内容单元、所述每个页面中的内容单元和所述其他页面中的内容单元,获得所述搜索关键词中的内容单元与所述每个页面中的内容单元之间的第一相关度,以及所述每个页面中的内容单元与所述其他页面中的内容单元之间的第二相关度;
根据所述第一相关度和第二相关度,获得所述每个页面中的内容单元的重要性特征;
根据所述每个页面中的内容单元的重要性特征,获得至少一个内容单元;
根据所述至少一个内容单元,获得所述每个页面的摘要。
3.根据权利要求2所述的方法,其特征在于,所述根据所述搜索关键词中的内容单元、所述每个页面中的内容单元和所述其他页面中的内容单元,获得所述搜索关键词中的内容单元与所述每个页面中的内容单元之间的第一相关度,以及所述每个页面中的内容单元与所述其他页面中的内容单元之间的第二相关度,包括:
根据所述搜索关键词中的内容单元、所述每个页面中的内容单元和所述其他页面中的内容单元,
采用至少一种相关度算法,获得所述搜索关键词中的内容单元与所述每个页面中的内容单元之间的第一相关度,以及所述每个页面中的内容单元与所述其他页面中的内容单元之间的第二相关度。
4.根据权利要求2所述的方法,其特征在于,所述根据所述至少一个页面中每个页面,以及所述至少一个页面中除了该页面之外的其他页面,获得所述每个页面的摘要,还包括:
根据所述每个页面,获得所述每个页面中的内容单元的文档特征;
所述根据所述每个页面中的内容单元的重要性特征,获得至少一个内容单元,包括:
根据所述每个页面中的内容单元的重要性特征和所述每个页面中的内容单元的文档特征,获得所述至少一个内容单元。
5.根据权利要求1~4任一权利要求所述的方法,其特征在于,所述内容单元包括字、词和句子中的至少一项。
6.一种搜索结果摘要的生成装置,其特征在于,包括:
获取单元,用于获取搜索关键词;
匹配单元,用于根据所述搜索关键词,获得至少一个页面;
摘要单元,用于根据所述至少一个页面中每个页面,以及所述至少一个页面中除了该页面之外的其他页面,获得所述每个页面的摘要;
输出单元,用于输出包含所述每个页面的摘要的搜索结果。
7.根据权利要求6所述的装置,其特征在于,所述摘要单元,具体用于
根据所述搜索关键词中的内容单元、所述每个页面中的内容单元和所述其他页面中的内容单元,获得所述搜索关键词中的内容单元与所述每个页面中的内容单元之间的第一相关度,以及所述每个页面中的内容单元与所述其他页面中的内容单元之间的第二相关度;
根据所述第一相关度和第二相关度,获得所述每个页面中的内容单元的重要性特征;
根据所述每个页面中的内容单元的重要性特征,获得至少一个内容单元;以及
根据所述至少一个内容单元,获得所述每个页面的摘要。
8.根据权利要求7所述的装置,其特征在于,所述摘要单元,具体用于
根据所述搜索关键词中的内容单元、所述每个页面中的内容单元和所述其他页面中的内容单元,采用至少一种相关度算法,获得所述搜索关键词中的内容单元与所述每个页面中的内容单元之间的第一相关度,以及所述每个页面中的内容单元与所述其他页面中的内容单元之间的第二相关度。
9.根据权利要求7所述的装置,其特征在于,所述摘要单元,还用于
根据所述每个页面,获得所述每个页面中的内容单元的文档特征;
所述摘要单元,具体用于
根据所述每个页面中的内容单元的重要性特征和所述每个页面中的内容单元的文档特征,获得所述至少一个内容单元。
10.根据权利要求6~9任一权利要求所述的装置,其特征在于,所述内容单元包括字、词和句子中的至少一项。
CN201610430974.2A 2016-06-16 2016-06-16 搜索结果摘要的生成方法及装置 Pending CN106126561A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610430974.2A CN106126561A (zh) 2016-06-16 2016-06-16 搜索结果摘要的生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610430974.2A CN106126561A (zh) 2016-06-16 2016-06-16 搜索结果摘要的生成方法及装置

Publications (1)

Publication Number Publication Date
CN106126561A true CN106126561A (zh) 2016-11-16

Family

ID=57470696

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610430974.2A Pending CN106126561A (zh) 2016-06-16 2016-06-16 搜索结果摘要的生成方法及装置

Country Status (1)

Country Link
CN (1) CN106126561A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107402960A (zh) * 2017-06-15 2017-11-28 成都优易数据有限公司 一种基于语义语气加权的倒排索引优化算法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102163229A (zh) * 2011-04-13 2011-08-24 北京百度网讯科技有限公司 一种用于生成搜索结果的摘要的方法与设备
CN102169501A (zh) * 2011-04-26 2011-08-31 北京百度网讯科技有限公司 基于搜索结果对应文档的类型信息生成摘要的方法与设备
CN103034633A (zh) * 2011-09-30 2013-04-10 国际商业机器公司 生成扩展的搜索结果页面摘要的方法及装置
CN103514269A (zh) * 2013-09-12 2014-01-15 百度在线网络技术(北京)有限公司 基于自然搜索结果确定与第一查询词相关联的第二查询词

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102163229A (zh) * 2011-04-13 2011-08-24 北京百度网讯科技有限公司 一种用于生成搜索结果的摘要的方法与设备
CN102169501A (zh) * 2011-04-26 2011-08-31 北京百度网讯科技有限公司 基于搜索结果对应文档的类型信息生成摘要的方法与设备
CN103034633A (zh) * 2011-09-30 2013-04-10 国际商业机器公司 生成扩展的搜索结果页面摘要的方法及装置
CN103514269A (zh) * 2013-09-12 2014-01-15 百度在线网络技术(北京)有限公司 基于自然搜索结果确定与第一查询词相关联的第二查询词

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
张文静: "搜索引擎返回结果的自动摘要研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
李大高: "信息检索中的查询扩展算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
苏新宁等: "《信息检索理论与技术》", 30 September 2004 *
黄名选等: "基于查询行为和关联规则的相关反馈查询扩展", 《计算机工程》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107402960A (zh) * 2017-06-15 2017-11-28 成都优易数据有限公司 一种基于语义语气加权的倒排索引优化算法
CN107402960B (zh) * 2017-06-15 2020-11-10 成都优易数据有限公司 一种基于语义语气加权的倒排索引优化算法

Similar Documents

Publication Publication Date Title
KR102725045B1 (ko) 문답 처리, 언어 모델 훈련 방법, 장치, 기기 및 저장 매체
US11775760B2 (en) Man-machine conversation method, electronic device, and computer-readable medium
CN113822067A (zh) 关键信息提取方法、装置、计算机设备及存储介质
CN104750789B (zh) 标签的推荐方法及装置
CN111813905B (zh) 语料生成方法、装置、计算机设备及存储介质
CN109344240B (zh) 一种数据处理方法、服务器及电子设备
CN103150382B (zh) 基于开放知识库的短文本语义概念自动化扩展方法及系统
KR102128659B1 (ko) 키워드 추출 및 요약문 생성 시스템 및 방법
CN104899322A (zh) 搜索引擎及其实现方法
US20170060826A1 (en) Automatic Sentence And Clause Level Topic Extraction And Text Summarization
US20200218746A1 (en) Method and apparatus for presenting information
Mahata et al. Theme-weighted ranking of keywords from text documents using phrase embeddings
CN111767394A (zh) 一种基于人工智能专家系统的摘要提取方法及装置
CN110245349A (zh) 一种句法依存分析方法、装置及一种电子设备
JP2020135135A (ja) 対話コンテンツ作成支援方法およびシステム
CN105956181A (zh) 搜索方法及装置
JP5718405B2 (ja) 発話選択装置、方法、及びプログラム、対話装置及び方法
CN105159927B (zh) 目标文本主题词的选取方法、装置及终端
CN104391969A (zh) 确定用户查询语句句法结构的方法及装置
Jing et al. Stylized data-to-text generation: A case study in the e-commerce domain
CN104778232B (zh) 一种基于长查询的搜索结果的优化方法和装置
Rusu et al. Document visualization based on semantic graphs
CN113569118A (zh) 自媒体推送方法、装置、计算机设备及存储介质
CN106126561A (zh) 搜索结果摘要的生成方法及装置
CN107622125B (zh) 一种信息爬取方法和装置、电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20161116

RJ01 Rejection of invention patent application after publication