CN104636465A - 网页摘要生成方法、展示方法及相应装置 - Google Patents

网页摘要生成方法、展示方法及相应装置 Download PDF

Info

Publication number
CN104636465A
CN104636465A CN201510069801.8A CN201510069801A CN104636465A CN 104636465 A CN104636465 A CN 104636465A CN 201510069801 A CN201510069801 A CN 201510069801A CN 104636465 A CN104636465 A CN 104636465A
Authority
CN
China
Prior art keywords
webpage
web
target web
text
class data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510069801.8A
Other languages
English (en)
Other versions
CN104636465B (zh
Inventor
何伯磊
张伟萌
霍华荣
张希娟
马艳军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201510069801.8A priority Critical patent/CN104636465B/zh
Publication of CN104636465A publication Critical patent/CN104636465A/zh
Application granted granted Critical
Publication of CN104636465B publication Critical patent/CN104636465B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了网页摘要生成方法、展示方法及相应装置。其中,其中一种网页摘要生成方法包括:获取问题类型的历史查询语句对应的历史搜索结果中的网页;确定网页中包含的至少一组答案类数据;基于所确定的答案类数据,生成网页的摘要。另一种网页摘要生成方法包括:获取本次搜索请求中包含的问题类型的查询语句对应的搜索结果中的多个网页,并构建词表,将多个网页中的一个网页作为目标网页,根据词表计算目标网页的文本内容中的分句的重要度;基于重要度,从目标网页的文本内容中抽取数据,作为目标网页的摘要。本发明实施例可使得所生成的网页摘要可包含有有意义的重要信息,对用户输入的查询语句起到很好的提示作用,提升用户的搜索体验。

Description

网页摘要生成方法、展示方法及相应装置
技术领域
本发明实施例涉及互联网技术领域,尤其涉及网页摘要生成方法、展示方法及相应装置。
背景技术
目前,搜索引擎在接收到包含有查询语句的搜索请求之后,会基于该查询语句进行网页搜索工作,以得到与查询语句关联的多个网页,进而在对得到的多个网页进行打分及排序后,将经过排序后的多个网页的链接信息,作为搜索结果展示给终端用户。其中,所展示的任意一个网页的链接信息通常包括:用于描述该网页主要内容以及网站名称的标题;涵盖了该网页主要内容和关键词汇的摘要(通常在80个字以内);以及其他的一些信息,例如最后抓取网页的日期和时间。
图1A是现有技术提供的一种展示给终端用户的搜索结果中的一个网页的链接信息示意图。如图1A所示,该网页的链接信息中的标题101为“无线路由器怎么设置?美国网件设置美国网件路由器_商都社区”,摘要102为“无线路由器怎么设置?美国网件设置美国网件路由器,无线路由器怎么设置?NETGEIR美国美国网件重投中国市场,……”。
其中,对于网页的链接信息中的摘要的生成过程而言,现有技术通常采用如下方法得到:在接收到包含有查询语句的搜索请求,并基于该查询语句进行网页搜索,得到多个网页之后,针对所得到的各个网页,将该查询语句与得到的网页的文本数据进行相似度匹配,取出文本数据中和该查询语句相似度高的内容,作为网页的摘要。
但是,在研究的过程当中发明人发现上述现有技术存在如下缺陷:通过现有技术所生成的网页摘要,往往是用户输入的查询语句中的词汇或者近义词所在的句子片段,网页摘要是和查询语句相似的,因此对于查询语句是问题类型的查询语句而言,所得到的搜索结果中的网页摘要里面经常会出现没有太多含义的词汇,并不能达到向用户提示重要信息的作用;并且由于摘要的长度又是有限的,其他摘要内容相应的就很少了,所以很多其他有用的信息不能够被展示出来。例如,图1A是在查询语句为“无线路由器怎么办”下所搜索到的一个网页,显然该网页的摘要内容都是与“无线路由器怎么办”相似的句子,并没有给出关键信息。
发明内容
本发明实施例提供网页摘要生成方法、展示方法及相应装置,以使得所生成的网页摘要可以包含有有意义的重要信息,对用户输入的查询语句起到很好的提示作用,提升用户的搜索体验。
一方面,本发明实施例提供了一种网页摘要生成方法,该方法包括:
获取问题类型的历史查询语句对应的历史搜索结果中的网页;
确定所述网页中包含的至少一组答案类数据;
基于所确定的答案类数据,生成所述网页的摘要。
另一方面,本发明实施例提供了一种网页摘要展示方法,该方法包括:
获取本次搜索请求中包含的问题类型的查询语句对应的搜索结果中的网页;
获取预先存储的所述网页的摘要,添加至所述网页的链接信息中,其中所述摘要为根据上述所述的网页摘要生成方法得到的摘要;
对所述搜索结果中的网页的链接信息进行展示。
再一方面,本发明实施例还提供了一种网页摘要生成装置,该装置包括:
网页获取模块,用于获取问题类型的历史查询语句对应的历史搜索结果中的网页;
答案类数据确定模块,用于确定所述网页中包含的至少一组答案类数据;
网页摘要生成模块,用于基于所确定的答案类数据,生成所述网页的摘要。
再一方面,本发明实施例还提供了一种网页摘要展示装置,该装置包括:
网页获取模块,用于获取本次搜索请求中包含的问题类型的查询语句对应的搜索结果中的网页;
摘要获取模块,用于获取预先存储的所述网页的摘要,添加至所述网页的链接信息中,其中所述摘要为根据上述所述的网页摘要生成装置得到的摘要;
展示模块,用于对所述搜索结果中的网页的链接信息进行展示。
本发明实施例提供的技术方案,针对问题类型的历史查询语句的历史搜索结果中的网页,并非是将网页中与查询语句相似的内容作为网页的摘要,而是通过一定手段抽取网页中的答案类数据,进而基于该答案类数据来生成网页的摘要,因此可使得所生成的网页摘要可以包含有有意义的重要信息,对用户输入的查询语句起到很好的提示作用,提升用户的搜索体验。
另外,本发明实施例还提供一种网页摘要生成方法及装置,以使得所生成的网页摘要可以包含有有意义的重要信息,对用户输入的查询语句起到很好的提示作用,提升用户的搜索体验。
一方面,本发明实施例提供了一种网页摘要生成方法,该方法包括:
获取本次搜索请求中包含的问题类型的查询语句对应的搜索结果中的多个网页,并构建词表,其中所述词表由所述多个网页的文本内容中频次统计特征值满足设定条件的分词组成;
将所述多个网页中的一个网页作为目标网页,根据所述词表计算所述目标网页的文本内容中的分句的重要度;
基于所述重要度,从所述目标网页的文本内容中抽取数据,作为所述目标网页的摘要。
另一方面,本发明实施例还提供了一种网页摘要生成装置,该装置包括:
网页获取模块,用于获取本次搜索请求中包含的问题类型的查询语句对应的搜索结果中的多个网页,并构建词表,其中所述词表由所述多个网页的文本内容中频次统计特征值满足设定条件的分词组成;
分句重要度计算模块,用于将所述多个网页中的一个网页作为目标网页,根据所述词表计算所述目标网页的文本内容中的分句的重要度;
网页摘要生成模块,用于基于所述重要度,从所述目标网页的文本内容中抽取数据,作为所述目标网页的摘要。
在本发明实施例中,在获取到本次搜索请求中包含的问题类型的查询语句对应的搜索结果中的多个网页之后,生成所获取的单个网页的摘要时,并不是如现有技术那样,简单地将该网页中与查询语句具有很高相似度的相关内容,作为该网页的摘要,而是综合考虑所实时获取到的多个网页中的文本内容,基于这些网页中频次统计特征值满足设定条件的分词,来计算单个网页的文本内容中的分句的重要度,进而基于所述重要度从单个网页的文本内容中抽取数据,作为单个网页的摘要。针对问题类型的查询语句对应的搜索结果而言,由于所基于的多个网页中频次统计特征值满足设定条件的分词,例如出现频次高于设定阈值的分词,最可能是与查询语句所属问题对应的答案类的数据,因此根据这些分词生成的网页摘要可以包含有有意义的重要信息,对用户输入的查询语句起到很好的提示作用,提升用户的搜索体验。
附图说明
图1A是现有技术提供的一种展示给终端用户的搜索结果中的一个网页的链接信息示意图;
图1B是本发明实施例一提供的一种网页摘要生成方法的流程示意图;
图2是本发明实施例二提供的一种网页摘要生成方法的流程示意图;
图3A是本发明实施例三提供的一种网页摘要生成方法的流程示意图;
图3B是本发明实施例三提供的一种网页的部分内容的显示示意图;
图4A是本发明实施例四提供的一种网页摘要展示方法的流程示意图;
图4B-图4F是本发明实施例四提供的各种网页摘要的展示示意图;
图5是本发明实施例五提供的一种网页摘要生成装置的结构示意图;
图6是本发明实施例六提供的一种网页摘要展示装置的结构示意图;
图7是本发明实施例七提供的一种网页摘要生成方法的流程示意图;
图8是本发明实施例八提供的一种网页摘要生成方法的流程示意图;
图9A是本发明实施例九提供的一种网页摘要生成方法的流程示意图;
图9B是本发明实施例九提供的与问题类型为步骤类型的某条查询语句所关联的一个网页的摘要显示示意图;
图10是本发明实施例十提供的一种网页摘要生成方法的流程示意图;
图11是本发明实施例十一提供的一种网页摘要生成方法的流程示意图;
图12是本发明实施例十二提供的一种网页摘要生成装置的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1B是本发明实施例一提供的一种网页摘要生成方法的流程示意图,本实施例可适用于生成问题类型的历史查询语句对应的历史搜索结果中的网页的摘要的情况。该方法可以由网页摘要生成装置来执行,所述装置由软件实现,并可集成于搜索引擎中,或作为搜索引擎的子程序。参见图1B,本实施例提供的网页摘要生成方法具体包括如下操作:
操作110、获取问题类型的历史查询语句对应的历史搜索结果中的网页;
操作120、确定网页中包含的至少一组答案类数据;
操作130、基于所确定的答案类数据,生成网页的摘要。
在现有技术中,生成网页摘要的方法通常是在线实时生成的,也即在接收到包含有查询语句的搜索请求后,会基于该查询语句进行网页搜索工作,以得到与查询语句关联的多个网页,进而针对所得到的各个网页,将该查询语句与得到的网页的文本数据进行相似度匹配,取出文本数据中和该查询语句相似度高的内容,作为网页的摘要。显然,通过该方式所生成的网页摘要,仅仅是一些与查询语句相似的文本内容,这尤其对于查询语句为问题类型的查询语句而言,所得到的网页摘要里面经常会出现没有太多含义的词汇,并不能达到向用户提示重要信息的作用。
针对上述现有技术存在的弊端,本实施例提供一种线下生成网页摘要的解决方案,基于从网页中提取出的答案类数据,而非与实时接收的查询语句相似的内容,来得到网页摘要,这样可以保证所得到的网页摘要可以包含有有意义的重要信息,对用户输入的查询语句起到很好的提示作用,提升用户的搜索体验。
在本实施例中,每进行完一次网页搜索工作后,可将网页搜索所对应的查询语句,与基于该查询语句进行搜索得到的多个网页(也即搜索结果),建立关联关系,存储至搜索统计日志中。执行完毕多次网页搜索工作之后,搜索统计日志中会记录有多组关联关系,每组关联关系中的查询语句可视为历史查询语句,基于该历史查询语句进行搜索得到的搜索结果可视为历史搜索结果。
在触发了对网页生成摘要方法的执行操作后,可遍历搜索统计日志中的各组关联关系,查找其中所包含的所有问题类型的历史查询语句,进而分别针对查找到的各条历史查询语句,执行如下操作:
获取与当前历史查询语句对应的历史搜索结果中的各个网页;
确定各个网页中包含的至少一组答案类数据;
分别针对各个网页,基于所确定的当前网页中包含的至少一组答案类数据,生成当前网页的摘要。
具体的,对问题类型的历史查询语句的查找过程,可以是:基于已有的问题类型的查询语句识别算法,来判断当前遍历到的历史查询语句是否为问题类型的查询语句;当然,也可以是人工预先标注好搜索统计日志中的哪些历史查询语句为问题类型的查询语句,在遍历到一条历史查询语句时,可通过检测是否存在该人工标注结果,来判断该历史查询语句是否为问题类型的查询语句。所谓问题类型的查询语句,指的是询问问题的查询语句,例如,“无线路由器如何设置”、“六个月宝宝的食谱”、“姚明身高”、“饭后半个小时后是否可以健身”等。
在获取到问题类型的历史查询语句对应的历史搜索结果中的网页之后,可对该网页进行挖掘,确定网页中包含的至少一组答案类数据。示例性的,对于一些问答类的网页(如百度知道、搜搜问问提供的网页),通常是结构化类型的网页,可利用网页结构特征对网页的内容进行结构化划分,根据划分结果确定网页中所包含的问题以及与该问题对应的至少一组回答类数据,进而从回答类数据中抽取出答案类数据;对于非结构化类型的网页,可直接利用页面解析工具,对网页的正文内容进行解析,获取其中的正文部分,从正文的内容中抽取出相应的答案类数据。
在确定出网页中包含的至少一组答案类数据之后,可直接将这些答案类数据,作为网页的摘要的一部分;也可将网页中包含有较多答案类数据的段落,作为网页的摘要的一部分。
由于搜索统计日志中所记录的与同一网页(例如为网页A)具有关联关系的历史查询语句,可能会存在多条查询语句,在此情况下可首先分别针对所述多条查询语句中的各条查询语句,利用本实施例提供的网页摘要生成的方法,得到对应于网页A的一部分摘要,然后将所得到的各部分摘要组织在一起,得到网页A最终的摘要。
本实施例提供的技术方案,针对问题类型的历史查询语句的历史搜索结果中的网页,并非是将网页中与查询语句相似的内容作为网页的摘要,而是通过一定手段抽取网页中的答案类数据,进而基于该答案类数据来生成网页的摘要,因此可使得所生成的网页摘要可以包含有有意义的重要信息,对用户输入的查询语句起到很好的提示作用,提升用户的搜索体验。
实施例二
图2是本发明实施例二提供的一种网页摘要生成方法的流程示意图。本实施例在上述实施例一的基础上,对“确定所述网页中包含的至少一组答案类数据”的操作作进一步优化。参见图2,本实施例提供的网页摘要生成方法具体包括如下操作:
操作210、获取问题类型的历史查询语句对应的历史搜索结果中的网页;
操作220、对网页进行定向挖掘,以得到网页中包含的至少一组回答类数据;
操作230、抽取所得到的回答类数据中包含的答案类数据;
操作240、基于所抽取的答案类数据,生成网页的摘要。
在本实施例中,对网页进行定向挖掘,以得到网页中包含的至少一组回答类数据,包括:识别网页是否为问答类网页;若是,则对网页进行结构化划分,根据划分结果挖掘网页中包含的至少一组回答类数据;否则,对网页进行页面解析,以获取网页中包含的正文部分的数据,作为所述网页中包含的至少一组回答类数据。
其中,识别网页是否为问答类网页,可具体为:识别网页是否是问题和答案这一结构化类型的网页,如果是,则判断网页为问答类网页,否则不是问答类网页。示例性的,对网页进行结构化划分,根据划分结果挖掘网页中包含的至少一组回答类数据,包括:利用网页结构特征对网页的内容进行结构化划分;根据划分结果,确定网页中所包含的问题以及与该问题对应的至少一组回答类数据。例如,根据划分结果,确定出网页中所包含的问题为“六个月的宝宝吃什么好”,与该问题对应的回答类数据有三组,分别是“米糊、蒸红薯、蒸南瓜、粥”,“可以吃米粉了哦,还有蛋黄”,“蛋黄、米粉、果泥、菜泥、肉泥、面条都能吃了”。
示例性的,抽取所得到的回答类数据中包含的答案类数据,包括:
获取历史查询语句所属的问题类别,其中问题类别为实体类别、对象类别、方式类别、原因类别以及是非类别中的一种类别;
基于预先设定的与所获取的问题类别对应的答案抽取算法,抽取所得到的回答类数据中包含的答案类数据。
其中,实体类别:指的是有具体实体需求的类别,例如“冬季的水果有哪些”为实体类别的查询语句,其对应的答案都是具体的实体,可以用实体列举的方法给出,答案可以是唯一一个实体,也可以是多实体;
对象类别:该类别主要集中在对一些概念的询问,例如查询语句“萌萌哒是什么意思”,答案为释义解释;
方式类别:指的是对一些方法的询问的类别,例如查询语句“路由器怎么安装”,答案主要是方法步骤和注意事项;
原因类别:该类别主要是针对原由进行提问,例如查询语句“孕妇为什么不能吃荔枝”,答案主要是解释问题的原因;
是非类别:又称是非观点类别,主要是对一个问题的正反面进行询问,例如查询语句“孕妇可以吃香蕉吗?”,答案有正面、反面、以及不确定三个类别。
示例性的,可预先通过机器学习方法训练学习到用于对查询语句进行问题类别识别的分类模型,进而基于该分类模型识别历史查询语句所属的问题类别。具体的,可线下标注一批已经训练好的分类数据,然后利用机器学习模型自动的学习一个用于对查询语句进行问题类别识别的分类模型,最后将需要分类的历史查询语句输入到这个分类模型中,就能获取对应的历史查询语句所属的问题类别。
示例性的,如果所获取的历史查询语句所属的问题类别为实体类别,则可基于与实体类别对应的二次搜索法这一答案抽取算法,来抽取所得到的回答类数据中包含的答案类数据。具体的,可将所得到的回答类数据与历史查询语句合并在一起,得到一条新的查询语句,进而获取搜索引擎基于该条新的查询语句再次进行网页检索工作得到的新搜索结果,将所得到的回答类数据中在新搜索结果中出现频率高于设定阈值的数据,作为答案类数据。
示例性的,如果所获取的历史查询语句所属的问题类别为是非类别,则可通过设定方法定位答案在所得到的回答类数据中的关键位置,然后基于该关键位置判别出所得到的回答类数据中包含的答案类数据。
在本实施例的一种具体实施方式中,如果所获取的历史查询语句所属的问题类别为对象类别、方式类别或者原因类别,则基于预先设定的与所获取的问题类别对应的答案抽取算法,抽取所得到的回答类数据中包含的答案类数据,包括:
基于N元语法模型,分别对历史查询语句中以及所得到的回答类数据中的分句进行分词切分,其中N为大于1的整数;
建立对历史查询语句中的分句进行切分后得到的分词,与对回答类数据中的分句进行切分后得到的分词,二者之间的映射关系;
将具有映射关系的分词对,与预先获取的模板分词对进行匹配,如果匹配成功,则判断匹配时所对应的网页中的分词所在的分句为关键句;
根据关键句,确定所得到的回答类数据中包含的答案类数据。
其中,所述N元语法模型可以是二元语法模型、三元语法模型或者四元语法模型等,优选的,所述N为2。
例如,基于二元语法模型,对历史查询语句“A B C”中的分句进行分词切分,得到如下结果:“A B”和“B C”;对所得到的回答类数据中的分句“D E FG”进行分词切分,得到如下结果:“D E”、“E F”和“F G”;所建立的对历史查询语句中的分句进行切分后得到的分词,与对回答类数据中的分句进行切分后得到的分词,二者之间的映射关系,如下:
<A B—D E>、<A B—E F>、<A B—F G>
<B C—D E>、<B C—E F>、<B C—F G>
也即,“A B”分别与“D E”、“E F”和“F G”具有映射关系,“B C”分别与“D E”、“E F”和“F G”具有映射关系。
在本实施例中,预先获取的模板分词对,是由问题类型的模板查询语句中的分词,与对模板查询语句对应的回答类数据中的分词,所组成的分词对。该模板分词对可以通过人工配置得到,也可以是智能生成的,例如得到的一个模板分词对为<的意思——意思表示>,其中“的意思”为问题类型的模板查询语句中的分词,“意思表示”为与对模板查询语句对应的回答类数据中的分词。具体的,以智能的方式生成模板分词对的过程,可以是:
将搜索统计日志中记录的所有关联关系中包含的各条问题类型的历史查询语句,作为模板查询语句;
分别针对各模板查询语句:基于N元语法模型,分别对模板查询语句中以及所得到的与模板查询语句对应的回答类数据中的分句进行分词切分;建立对模板查询语句中的分句进行切分后得到的分词,同对与模板查询语句对应的回答类数据中的分句进行切分后得到的分词,二者之间的映射关系;将具有映射关系的两个分词作为一个模板分词对。
在本实施例的一种优选的实施方式中,为保证所得到的模板分词对能够尽可能的标识出问题和答案之间的对应关系,在根据上述方式得到多个模板分词对后,可对所得到的所有模板分词对组成的集合进行过滤操作,以滤除其中不能够很好的标识出问题和答案之间对应关系的模板分词对。例如,统计所得到的所有模板分词对中的各个分词的出现频次,如果模板分词对中的两个分词的出现频次均低于设定的频次阈值,则将该模板分词对过滤掉。
在本实施例的另一种具体实施方式中,如果所获取的历史查询语句所属的问题类别为对象类别、方式类别或者原因类别,则基于预先设定的与所获取的问题类别对应的答案抽取算法,抽取所得到的回答类数据中包含的答案类数据,包括:
对所得到的回答类数据中的分句进行特征提取,其中所述特征包括如下至少一种特征:分词的词性特征、分词特征、以及依存分析特征;
将特征提取结果作为预先通过机器学习算法生成的分类模型的输入,基于分类模型判断所述分句是否为关键句;
如果所述分句为关键句,则根据关键句确定所得到的回答类数据中包含的答案类数据。
在本实施例中,根据判断出的关键句,确定所得到的回答类数据中包含的答案类数据,可具体是:直接将该关键句,作为网页摘要的一部分,添加至网页摘要中,或者将网页中包含有较多关键句的长句或者段落,作为网页摘要的一部分。
实施例三
图3A是本发明实施例三提供的一种网页摘要生成方法的流程示意图。本实施例在上述实施例二的基础上,增加了“获取分别与所得到的各组回答类数据对应的各组问题类数据;分别计算各组问题类数据与所述历史查询语句的相关度”的操作,并相应的对“抽取所得到的回答类数据中包含的答案类数据”的操作作进一步优化。参见图3A,本实施例提供的网页摘要生成方法具体包括如下操作:
操作310、获取问题类型的历史查询语句对应的历史搜索结果中的网页;
操作320、对网页进行定向挖掘,以得到网页中包含的至少一组回答类数据;
操作330、获取分别与所得到的各组回答类数据对应的各组问题类数据;分别计算各组问题类数据与历史查询语句的相关度;
操作340、将与历史查询语句的相关度高于设定阈值的问题类数据,作为目标数据;
操作350、抽取目标数据对应的回答类数据中包含的答案类数据;
操作360、基于所抽取的答案类数据,生成网页的摘要。
在本实施例中,为保证所得到的回答类数据的有效性,可根据与回答类数据对应的问题类数据与历史查询语句之间的相关度,对回答类数据进行聚合。
如果所述网页是问答类网页,在对网页进行定向挖掘的过程中,除了得到网页中包含的至少一组回答类数据之外,还可得到网页中包含的与各组回答类数据对应的问题类数据。如图3B所示的网页,在该网页中所包含的问题类数据为“六个月宝宝的头围有指标吗”,对应的一组回答类数据为“男宝宝身高是64.0-73.2cm,体重是6.6-10.3kg,头围是41.5-46.7cm。女宝宝身高是62.4-71.6cm,体重是6.2-9.5kg,头围是40.4-45.6cm”。
如果所述网页是非问答类网页,则可直接将历史查询语句作为与所得到的各组回答类数据对应的一组问题类数据。
示例性的,计算各组问题类数据与历史查询语句的相关度,可以是:分别针对各组问题类数据,将其中所包含的各个分词与历史查询语句中的分词进行匹配,将匹配成功的分词的个数与历史查询语句中的分词的总个数之间的比值,作为当前组问题类数据与历史查询语句的相关度。
在上述技术方案的基础上,本发明实施例在基于所确定的答案类数据,生成网页的摘要之后,还包括:突出显示所生成的摘要中包含的答案类数据。优选的,基于所确定的答案类数据,生成网页的摘要之后,飘红所生成的摘要中包含的答案类数据。
本发明实施例将网页的摘要中最能够回答查询语句的答案类数据进行飘红,而不是对摘要中和查询语句相似的内容飘红,这样的好处在于:使得网页的摘要中被飘红的内容是和回答的答案相关的,用户能够根据后续所展示的被飘红的内容,很明确的知道其中的答案的是否是自己想要的,然后判断网页是否是符合自己需求的网页,从而提高了用户的搜索体验。
实施例四
图4A是本发明实施例四提供的一种网页摘要展示方法的流程示意图。本实施例以本发明实施例一至实施例三提供的网页摘要生成方法为基础,提供一种网页摘要展示方法。该网页摘要展示方法可由网页摘要展示装置执行,所述装置由软件实现,并可集成于搜索引擎中,或作为搜索引擎的子程序。参见图4A,本实施例提供的网页摘要展示方法具体包括如下操作:
操作410、获取本次搜索请求中包含的问题类型的查询语句对应的搜索结果中的网页;
操作420、获取预先存储的网页的摘要,添加至网页的链接信息中,其中所述摘要为根据本发明实施例一至实施三提供的网页摘要生成方法得到的摘要;
操作430、对搜索结果中的网页的链接信息进行展示。
本实施例提供的技术方案,在获取到本次搜索请求中包含的问题类型的查询语句对应的搜索结果中的网页之后,并没有实时的在线生成与查询语句相似的网页摘要,而是直接获取预先根据本发明任意实施例提供的网页摘要生成的方法得到的本次所获取的网页的摘要,这样不仅可以加快网页摘要被展示的速度,更重要的是可以使得所展示的网页摘要是和回答的答案相关的,可以包含有有意义的重要信息,对用户输入的查询语句起到很好的提示作用,提升用户的搜索体验。
图4B-图4F分别示出了各种网页摘要的展示示意图。
参见图4B,在该图所示的网页摘要中,并不是诸如“孕妇可以吃的水果”、“什么水果对孕妇好”等之类的与查询语句相似的内容,而是针对“孕妇多吃什么水果好”这一实体类别的问题给出的具体答案,网页摘要中的“香蕉”为被飘红的内容。
参见图4C,在该图所示的网页摘要中,并不是诸如“兹事体大”、“兹事体大的意思”、“兹事体大如何解释”等之类的与查询语句相似的内容,而是针对“兹事体大什么意思”这一对象类别的问题给出的具体答案,网页摘要中的“这件事性质重要,关系重大”为被飘红的内容。
参见图4D,在该图所示的网页摘要中,并不是诸如“无线路由器”、“无线路由器如何设置密码”、“更改路由器密码”等之类的与查询语句相似的内容,而是针对“无线路由器如何更改密码”这一方式类别的问题给出的具体答案,网页摘要中的“先设置电脑有线连接的IP为192.168.1.10,打开浏览器输入192.168.1.1”为被飘红的内容。
参见图4E,在该图所示的网页摘要中,并不是诸如“怀孕后可以化妆吗”、“孕妇不能化妆的原因是什么”等之类的与查询语句相似的内容,而是针对“为什么怀孕后不能化妆”这一原因类别的问题给出的具体答案,网页摘要中的“含有重金属之类的物质对宝宝不好”为被飘红的内容。
参见图4F,在该图所示的网页摘要中,并不是诸如“孕妇是否可以吃西瓜”、“西瓜对孕妇有影响吗”等之类的与查询语句相似的内容,而是针对“孕妇可以吃西瓜吗”这一是非类别的问题给出的具体答案,网页摘要中的“当然可以啊”为被飘红的内容。
实施例五
图5是本发明实施例五提供的一种网页摘要生成装置的结构示意图,本实施例可适用于生成问题类型的历史查询语句对应的历史搜索结果中的网页的摘要的情况。参见图5,该网页摘要生成装置的具体结构如下:
网页获取模块51,用于获取问题类型的历史查询语句对应的历史搜索结果中的网页;
答案类数据确定模块52,用于确定所述网页中包含的至少一组答案类数据;
网页摘要生成模块53,用于基于所确定的答案类数据,生成所述网页的摘要。
示例性的,所述答案类数据确定模块52,包括:
定向挖掘单元521,用于对所述网页进行定向挖掘,以得到所述网页中包含的至少一组回答类数据;
答案类数据抽取单元522,用于抽取所述定向挖掘单元521得到的回答类数据中包含的答案类数据。
示例性的,所述答案类数据确定模块52,还包括:
问题类数据获取单元523,用于获取分别与所述定向挖掘单元521得到的各组回答类数据对应的各组问题类数据;
相关度计算单元524,用于分别计算各组问题类数据与所述历史查询语句的相关度;
所述答案类数据抽取单元522,具体用于:
将与所述历史查询语句的相关度高于设定阈值的问题类数据,作为目标数据;抽取所述目标数据对应的回答类数据中包含的答案类数据。
示例性的,所述定向挖掘单元521,具体用于:
识别所述网页是否为问答类网页;
若是,则对所述网页进行结构化划分,根据划分结果挖掘所述网页中包含的至少一组回答类数据;
否则,对所述网页进行页面解析,以获取所述网页中包含的正文部分的数据,作为所述网页中包含的至少一组回答类数据。
示例性的,所述答案类数据抽取单元522,包括:
类别获取子单元5221,用于获取所述历史查询语句所属的问题类别,其中所述问题类别为实体类别、对象类别、方式类别、原因类别以及是非类别中的一种类别;
答案抽取子单元5222,用于基于预先设定的与所获取的问题类别对应的答案抽取算法,抽取所得到的回答类数据中包含的答案类数据。
在本实施例的一种具体实施方式中,获取到的问题类别为对象类别、方式类别或者原因类别;
所述答案抽取子单元5222,具体用于:
基于N元语法模型,分别对所述历史查询语句中以及所得到的回答类数据中的分句进行分词切分,其中N为大于1的整数;
建立对所述历史查询语句中的分句进行切分后得到的分词,与对所述回答类数据中的分句进行切分后得到的分词,二者之间的映射关系;
将具有映射关系的分词对,与预先获取的模板分词对进行匹配,如果匹配成功,则判断匹配时所对应的所述网页中的分词所在的分句为关键句;
根据所述关键句,确定所得到的回答类数据中包含的答案类数据。
在本实施例的另一种具体实施方式中,获取到的问题类别为对象类别、方式类别或者原因类别;
所述答案抽取子单元5222,具体用于:
对所得到的回答类数据中的分句进行特征提取,其中所述特征包括如下至少一种特征:分词的词性特征、分词特征、以及依存分析特征;
将特征提取结果作为预先通过机器学习算法生成的分类模型的输入,基于所述分类模型判断所述分句是否为关键句;
如果所述分句为关键句,则根据所述关键句确定所得到的回答类数据中包含的答案类数据。
在上述技术方案的基础上,本实施例提供的网页摘要生成装置还包括:
突出显示模块54,用于在所述网页摘要生成模块53基于所确定的答案类数据,生成所述网页的摘要之后,突出显示所生成的摘要中包含的答案类数据。
上述产品可执行本发明实施例一至三所提供的网页摘要生成方法,具备执行方法相应的功能模块和有益效果。
实施例六
图6是本发明实施例六提供的一种网页摘要展示装置的流程示意图。本实施例以本发明实施例五提供的网页摘要生成装置为基础,提供一种网页摘要展示装置。参见图6,该网页摘要展示装置的具体结构如下:
网页获取模块61,用于获取本次搜索请求中包含的问题类型的查询语句对应的搜索结果中的网页;
摘要获取模块62,用于获取预先存储的所述网页的摘要,添加至所述网页的链接信息中,其中所述摘要为根据本发明任意实施例提供的网页摘要生成装置得到的摘要;
展示模块63,用于对所述搜索结果中的网页的链接信息进行展示。
上述产品可执行本发明实施例四所提供的网页摘要展示方法,具备执行方法相应的功能模块和有益效果。
实施例七
图7是本发明实施例七提供的一种网页摘要生成方法的流程示意图,本实施例可适用于在线实时生成与问题类型的查询语句对应的搜索结果中的网页的摘要的情况。该方法可以由网页摘要生成装置来执行,所述装置由软件实现,并可集成于搜索引擎中,或作为搜索引擎的子程序。参见图7,本实施例提供的网页摘要生成方法具体包括如下操作:
操作710、获取本次搜索请求中包含的问题类型的查询语句对应的搜索结果中的多个网页,并构建词表,其中所述词表由所述多个网页的文本内容中频次统计特征值满足设定条件的分词组成。
操作720、将所获取的多个网页中的一个网页作为目标网页,根据词表计算目标网页的文本内容中的分句的重要度。
操作730、基于计算得到的重要度,从目标网页的文本内容中抽取数据,作为目标网页的摘要。
目前,搜索引擎在实时接收到包含有查询语句的搜索请求之后,会基于该查询语句进行网页搜索工作,以得到与查询语句关联的多个网页,作为搜索结果。本实施例可将搜索引擎所实时接收的搜索请求视为本次搜索请求,如果识别出该搜索请求中的查询语句为问题类型的查询语句,则可先获取搜索引擎得到的与查询语句关联的多个网页,然后根据网页中所包含的分句的重要度,得到所获取的各个网页的摘要。具体的,判断查询语句是否为问题类型的查询语句,可基于已有的对问题类型的查询语句的识别算法来实现,本实施例对此不作限定。
在本实施例中,对于所获取到的多个网页而言,可预先通过设定的文本内容识别算法,得到其中各个网页所包含的文本内容,进而基于设定的切分算法,依次对各个网页的文本内容进行长句、分句、分词的切分。长句由至少一个分句组织而成,分句由至少一个分词组织而成。优选的,可基于N元语法模型,对文本内容中的分句进行切词。其中,N为大于或等于1的整数。当N等于1时,为一元语法模型(unigram),例如,对于分句“西安交通大学”而言,基于一元语法模型,得到的切词结果为:西/安/交/通/大/学;当N等于2时,为二元语法模型(bigram),例如,对于分句“西安交通大学”而言,得到的切词结果为:西安/安交/交通/通大/大学。
其中,所获取到的各个网页的文本内容中的分词的频次统计特征值,为用于衡量该分词在所获取到的多个网页中的频次信息的统计特征值,例如可以是TF-IDF(Term Frequency-Inverse Document Frequency,词频—逆文档频率)值,或者分词在所获取到的多个网页中的出现次数,等。对应的,构成词表的分词的频次统计特征值需满足的设定条件,可被预先设置为:TF-IDF值大于设定的第一阈值的分词,或者出现次数大于设定的第二阈值的分词,等。
在得到词表之后,可根据该词表,来分别检测所获取的各个网页的文本内容中的各个分句的重要度。进而,可基于目标网页的文本内容中的各个分句的重要度,从目标网页的文本内容中抽取数据,生成目标网页的摘要。例如,可直接将重要度大于设定的第一阈值的分句,视为组成目标网页摘要的关键句,添加至其所对应的摘要中;或者,将所包含的关键句的个数大于设定的第二阈值的段落,作为目标网页的摘要,等。在本实施例的一种优选的实施方式中,基于计算得到的重要度,从目标网页的文本内容中抽取数据,作为目标网页的摘要,包括:根据目标网页的文本内容中的长句所包含的各个分句的重要度,得到长句的重要度;如果所述长句的重要度的满足设定的阈值条件,则将所述长句,作为目标网页的摘要的一部分。
示例性的,根据词表计算目标网页的文本内容中的分句的重要度,包括:统计目标网页的文本内容中的分句中,所包含的词表中的分词;根据统计结果,计算目标网页的文本内容中的分句的重要度。具体的,可根据设定公式,计算目标网页的文本内容中的分句的重要度,其中设定公式中的参变量可包括:该分句中所包含的词表中的分词的数量,和/或分词的频次统计特征值。所述设定公式应满足如下规则:网页中的文本内容中的一个分句所包含的词表中的分词的数量越多,且所包含的分词的频次统计特征值越大,该分句的重要度越大。
需要说明的是,在将所获取的多个网页中的一个网页作为目标网页,得到该目标网页的摘要之后,可将所获取的多个网页中的下一个网页作为新的目标网页,继续循环执行操作720和操作730,以得到所述下一个网页的摘要,直到得到所获取的各个网页的摘要,结束。
在本实施例中,在获取到本次搜索请求中包含的问题类型的查询语句对应的搜索结果中的多个网页之后,生成所获取的单个网页的摘要时,并不是如现有技术那样,简单地将该网页中与查询语句具有很高相似度的相关内容,作为该网页的摘要,而是综合考虑所实时获取到的多个网页中的文本内容,基于这些网页中出现频次高于设定阈值的分词,来计算单个网页的文本内容中的分句的重要度,进而基于所述重要度从单个网页的文本内容中抽取数据,作为单个网页的摘要。针对问题类型的查询语句对应的搜索结果而言,由于所基于的多个网页中出现频次高于设定阈值的分词,最可能是与查询语句所属问题对应的答案类的数据,因此根据这些分词生成的网页摘要可以包含有有意义的重要信息,对用户输入的查询语句起到很好的提示作用,提升用户的搜索体验。
在上述技术方案的基础上,在基于计算得到的重要度,从目标网页的文本内容中抽取数据,作为目标网页的摘要之后,还包括:在展示目标网页的摘要的同时,突出显示目标网页的摘要中所包含的预先创建的资源库中的答案类数据。
搜索引擎在实时接收到包含有查询语句的搜索请求之后,会得到与查询语句关联的多个网页,进而在对得到的多个网页进行打分及排序后,将经过排序后的多个网页的链接信息,作为搜索结果展示给终端用户。其中,链接信息中包含有网页的摘要。为了使得网页的摘要能够更好的对用户起到提示作用,本实施例还可将摘要中所包含的预先创建的资源库中的答案类数据加以突出显示,例如进行飘红。其中,资源库中的答案类数据可以是人工预先配置得到的,也可以是基于设定算法智能得到的。
实施例八
本实施例在上述实施例七的基础上,为保证所计算出的分句的重要度更加合理,使得后续根据该重要度得到的摘要含有更多对查询语句有提示意义的回答类数据,本实施例除了根据对文本内容中的分句所包含的词表中的分词的统计结果之外,还可结合其他因素,来计算该分句的重要度。
示例性的,在根据统计结果,计算目标网页的文本内容中的分句的重要度之前,还包括:识别分句中所包含的预设的答案类关键词;和/或,确定分句与查询语句之间的重合度。
在本实施例中,可预先构建一个答案类关键词列表,该表中记录有多个答案类关键词,例如诸如一些“首先、然后、其次”、“第一步、第二步、第三步……”等之类的步骤类型的关键词,或者诸如一些“原因是”、“理由为”、“理由在于”等之类的陈述原因类型的关键词,等。在识别分句中所包含的预设的答案类关键词时,可将该分句中的分词与答案类关键词列表中的关键词进行匹配,匹配成功的分词即为一个答案类关键词。
为确定分句与查询语句之间的重合度(也即相似度),本实施例还可预先对分句进行预处理操作,以对分句中的分词进行词性标注、语法语义分析(例如依存分析树、语义角色标注结果)等,进而可基于预处理结果,来度量分句与查询语句之间的重合度。当然,也可直接检测分句与查询语句之间所包含的相同的分词的个数,进而可根据检测结果,以及查询语句中分词的个数,来得到分句与查询语句之间的重合度,例如可将检测到的个数与查询语句中分词的个数的比值,作为分句与查询语句之间的重合度。
相应的,根据统计结果,计算目标网页的文本内容中的分句的重要度,包括:根据统计结果,以及识别结果和/或确定结果,计算目标网页的文本内容中的分句的重要度。在本实施例的一种具体实施方式中,根据统计结果,以及识别结果和/或确定结果,计算目标网页的文本内容中的分句的重要度,包括:
根据统计结果,得到分句的第一重要度打分;
根据识别结果,得到分句的第二重要度打分;和/或,根据确定结果,得到分句的第三重要度打分;
将第一重要度打分,以及第二重要度打分和/或第三重要度打分,进行设定运算,得到分句最终的重要度打分。
示例性的,打分的确定可按照如下原则进行设定:分句中所包含的词表中的分词的数量越高,频次统计特征值越大,第一重要度打分越高;分句中所包含的预设的答案类关键词的个数越多,第二重要度打分越高;分句与历史查询语句的重合度越高,第三重要度打分越高。
图8是本发明实施例八提供的一种网页摘要生成方法的流程示意图。本实施例在上述实施例七的基础上,进一步对“根据词表计算目标网页的文本内容中的分句的重要度”的操作进行优化。参见图8,本实施例提供的网页摘要生成方法具体包括如下操作:
操作810、获取本次搜索请求中包含的问题类型的查询语句对应的搜索结果中的多个网页,并构建词表,其中所述词表由所述多个网页的文本内容中频次统计特征值满足设定条件的分词组成。
操作820、将所获取的多个网页中的一个网页作为目标网页,统计目标网页的文本内容中的分句中,所包含的所述词表中的分词。
操作830、识别分句中所包含的预设的答案类关键词。
操作840、确定分句与查询语句之间的重合度。
操作850、根据统计结果、识别结果以及确定结果,计算分句的重要度。
操作860、基于计算得到的重要度,从目标网页的文本内容中抽取数据,作为目标网页的摘要。
本实施例提供的网页摘要生成方法,根据分句的如下三个维度特征,来计算分句的重要度:N元语法特征(也即分句所包含的词表中的分词的数量与频次统计特征值)、答案类关键词特征(也即分句中所包含的预设的答案类关键词的个数)、与查询语句的相关性特征(也即分句与查询句之间的重合度),这样可以使得所计算出的分句的重要度更加合理,后续根据该重要度得到的摘要也会含有更多对查询语句有提示意义的回答类数据。
实施例九
图9A是本发明实施例九提供的一种网页摘要生成方法的流程示意图。本实施例在上述实施例七的基础上,针对查询语句所属的问题类型为步骤类型这一特定的应用场景,增加了“遍历目标网页的文本内容中的各个分句,查找包含有预先创建的用于描述步骤序号的关键词的目标分句”的操作。参见图9A,本实施例提供的网页摘要生成方法具体包括如下操作:
操作910、获取本次搜索请求中包含的问题类型的查询语句对应的搜索结果中的多个网页,并构建词表,其中所述词表由所述多个网页的文本内容中频次统计特征值满足设定条件的分词组成。
操作920、将所获取的多个网页中的一个网页作为目标网页,如果查询语句所属的问题类型为步骤类型,则遍历目标网页的文本内容中的各个分句,查找包含有预先创建的用于描述步骤序号的关键词的目标分句。
在本实施例中,可预先根据设定的分类算法,对查询语句进行问题分类,以判断查询语句所属的问题类型是否为步骤类型,例如,检测查询语句中是否包含有设定的步骤类型的关键词(例如“包括、步骤”、“哪几步”等),如果是,则判断查询语句所属的问题类型为步骤类型,否则为非步骤类型。用于描述步骤序号的关键词,可以是诸如“步骤一、步骤二……”、“第一步、第二步、……”等之类的关键词。
操作930、判断是否查找成功。如果是,则执行操作940,否则,则表明未查找到任何包含有预先创建的用于描述步骤序号的关键词的目标分句,执行操作950—操作960。
操作940、将目标网页的文本内容中位于目标分句之后的下一个分句,作为目标网页的摘要的一部分。
在得到各部分摘要之后,可按照关键词对应的步骤序号从小到大的顺序,将查找到的各个目标分句的下一份分句进行排序,得到目标网页最终的摘要。当然也可将目标分句以及位于该目标分句之后的下一个分句,共同作为目标网页摘要的一部分。图9B是本发明实施例九提供的与问题类型为步骤类型的某条查询语句所关联的一个网页的摘要显示示意图。
操作950、根据词表计算目标网页的文本内容中的分句的重要度。
操作960、基于计算得到的重要度,从目标网页的文本内容中抽取数据,作为目标网页的摘要。
当然,本领域的普通技术人员应理解,还可将通过执行操作940得到的摘要,作为第一候选摘要,将通过执行操作960得到的摘要作为第二候选摘要,然后结合第一候选摘要与第二候选摘要,组织出一个最终的目标网页的摘要。例如,将第一候选摘要与第二候选摘要中相同的部分内容,作为最终的摘要进行输出,或者合并第一候选摘要与第二候选摘要,其中相同的部分内容,仅保留一份。
本实施例提供的技术方案,考虑到问题类型为步骤类型的查询语句具有一定的特殊性,其所对应的答案类数据较为明显,容易被获取到,故给出了一种较为简单且有效地网页摘要生成方法,只有在使用该方法失败时,才启动根据分句的重要度从网页中抽取数据作为摘要的操作,这样在保证网页摘要能够很好的给用户于提示作用的前提下,可以大大提高网页摘要生成的速度。
实施例十
图10是本发明实施例十提供的一种网页摘要生成方法的流程示意图。本实施例在上述实施例七的基础上,增加了“识别目标网页的文本内容中的答案提示分句的位置”的操作,并相应的优化“基于计算得到的重要度,从目标网页的文本内容中抽取数据,作为目标网页的摘要”的操作。参见图10,本实施例提供的网页摘要生成方法具体包括如下操作:
操作1010、获取本次搜索请求中包含的问题类型的查询语句对应的搜索结果中的多个网页,并构建词表,其中所述词表由所述多个网页的文本内容中频次统计特征值满足设定条件的分词组成。
操作1020、将所获取的多个网页中的一个网页作为目标网页,根据词表计算目标网页的文本内容中的分句的重要度。
操作1030、根据设定规则,识别目标网页的文本内容中的答案提示分句的位置。
示例性的,根据设定规则,识别目标网页的文本内容中的答案提示分句的位置,包括:
遍历目标网页的文本内容,以查找其中是否包含满足如下设定规则的分句:与查询语句之间的重合度大于设定的重合度阈值;在目标网页的文本内容中的位置位于设定位置(例如为文本内容的中间位置)之前;句式为疑问句式;
如果查找成功,则查找到的分句的位置即为目标网页的文本内容中的答案提示分句的位置。
操作1040、基于计算得到的重要度和对所述位置的识别结果,从目标网页的文本内容中抽取数据,作为目标网页的摘要。
在本实施例的一种具体实施方式中,基于计算得到的重要度和对位置的识别结果,从所述目标网页的文本内容中抽取数据,作为所述目标网页的摘要,包括:
将目标网页的文本内容中,位于所述位置之后、长度大于设定的长度阈值、且重要度大于设定的重要度阈值的段落,作为目标网页的摘要的一部分,其中所述段落的重要度根据所述段落中的各个分句的重要度得到。
当然,本领域的普通技术人员应理解,本实施例提供的网页摘要生成方法还可其他具体实现方式。例如,在遍历目标网页的文本内容,以查找其中是否包含满足如下设定规则的分句之后:
如果查找成功,则将目标网页的文本内容中,位于所述位置之后且长度大于设定的长度阈值的段落,作为目标网页的摘要的一部分;或者
如果查找失败,则基于计算得到的重要度,从目标网页的文本内容中抽取数据,作为目标网页的摘要。
本实施例提供的技术方案,同时根据答案提示分句的位置以及分句的重要度这两个影响因素,来得到网页摘要,这样使得所生成的网页摘要可以包含更多有有意义的重要信息,对用户输入的查询语句起到更好的提示作用。
实施例十一
图11是本发明实施例十一提供的一种网页摘要生成方法的流程示意图。本实施例以上述实施例七至实施例十为基础,提供一种优选实施例。参见图11,本实施例提供的网页摘要生成方法具体包括如下操作:
操作1110、获取本次搜索请求中包含的问题类型的查询语句对应的搜索结果中的多个网页。
操作1120、对获取到的各个网页进行预处理。其中,预处理包括:文本内容识别,对长句、分句和分词的切分,词性标注,依存分析,分词的TF-IDF值统计。具体的,基于N元语法模型,对文本内容中的分句进行切词。
操作1130、构建词表,其中所述词表由所获取到的多个网页的文本内容中频次统计特征值满足设定条件的分词组成。其中,频次统计特征值为TF-IDF值。
操作1140、将所获取的多个网页中的一个网页作为目标网页,根据词表计算目标网页的文本内容中的分句的重要度。
具体的,根据词表计算目标网页的文本内容中的分句的重要度,包括:
统计目标网页的文本内容中的分句中,所包含的词表中的分词,并根据统计结果,得到分句的第一重要度打分;
识别分句中所包含的预设的答案类关键词,并根据识别结果,得到分句的第二重要度打分;
根据预处理结果中的分词切分、词性标注及依存分析结果,确定分句与查询语句之间的重合度,并根据确定结果,得到分句的第三重要度打分;
将第一重要度打分、第二重要度打分和第三重要度打分进行加权求和,得到分句最终的重要度打分。
如果查询语句所属的问题类型为步骤类型,执行操作1150:基于数字序列的摘要生成方法,生成目标网页的摘要,否则执行操作1160。
具体的,操作1150,包括:遍历目标网页的文本内容中的各个分句,查找包含有预先创建的用于描述步骤序号的关键词的目标分句;判断是否查找成功;如果是,则将目标网页的文本内容中位于目标分句之后的下一个分句,作为目标网页的摘要的一部分;否则,则表明未查找到任何包含有预先创建的用于描述步骤序号的关键词的目标分句,执行操作1160。
操作1160、基于文本段落的摘要生成方法,生成目标网页的摘要。如果生成失败,执行操作1170。
具体的,操作1160包括:根据设定规则,识别目标网页的文本内容中的答案提示分句的位置;基于计算得到的重要度和对所述位置的识别结果,从目标网页的文本内容中抽取数据,作为目标网页的摘要。
操作1170、基于分句重要度的摘要生成方法,生成目标网页的摘要。
具体的,操作1170,包括:基于计算得到的重要度,从目标网页的文本内容中抽取数据,作为目标网页的摘要。例如,根据目标网页的文本内容中的长句所包含的各个分句的重要度,得到长句的重要度;如果所述长句的重要度的满足设定的阈值条件,则将所述长句,作为目标网页的摘要的一部分。其中,长句的重要度为长句所包含的各个分句的重要度的平均值。
操作1180、输出生成的目标网页的摘要。
实施例十二
图12是本发明实施例十二提供的一种网页摘要生成装置的结构示意图。参见图12,该网页摘要生成装置的具体结构如下:
网页获取模块121,用于获取本次搜索请求中包含的问题类型的查询语句对应的搜索结果中的多个网页,并构建词表,其中所述词表由所述多个网页的文本内容中频次统计特征值满足设定条件的分词组成;
分句重要度计算模块122,用于将所述多个网页中的一个网页作为目标网页,根据所述词表计算所述目标网页的文本内容中的分句的重要度;
网页摘要生成模块123,用于基于所述重要度,从所述目标网页的文本内容中抽取数据,作为所述目标网页的摘要。
示例性的,所述分句重要度计算模块122,包括:
分词统计单元1221,用于统计所述目标网页的文本内容中的分句中,所包含的所述词表中的分词;
重要度计算单元1222,用于根据所述分词统计单元1221得到的统计结果,计算所述目标网页的文本内容中的分句的重要度。
示例性的,所述分句重要度计算模块122,还包括:
关键词识别单元1223,用于识别所述分句中所包含的预设的答案类关键词;和/或
重合度确定单元1224,用于确定所述分句与所述查询语句之间的重合度;
所述重要度计算单元1222,包括:
计算子单元(未示出),用于根据所述分词统计单元1221得到的统计结果,以及所述关键词识别单元1223得到的识别结果和/或所述重合度确定单元1224得到的确定结果,计算所述目标网页的文本内容中的分句的重要度。
示例性的,所述计算子单元,具体用于:
根据统计结果,得到所述分句的第一重要度打分;
根据所述识别结果,得到所述分句的第二重要度打分;和/或根据所述确定结果,得到所述分句的第三重要度打分;
将所述第一重要度打分,以及所述第二重要度打分和/或第三重要度打分,进行设定运算,得到所述分句最终的重要度打分。
示例性的,所述网页摘要生成模块123,包括:
长句重要度得到单元1231,用于根据所述目标网页的文本内容中的长句所包含的各个分句的重要度,得到所述长句的重要度;
部分摘要生成单元1232,用于如果所述长句的重要度的满足设定的阈值条件,则将所述长句作为所述目标网页的摘要的一部分。
示例性的,本实施例提供的网页摘要生成装置还包括:
分句查找模块124,用于在所述分句重要度计算模块122将所述多个网页中的一个网页作为目标网页之后,根据所述词表计算所述目标网页的文本内容中的分句的重要度之前,如果所述查询语句所属的问题类型为步骤类型,则遍历所述目标网页的文本内容中的各个分句,查找包含有预先创建的用于描述步骤序号的关键词的目标分句;
触发模块125,用于如果所述分句查找模块124未查找到任何包含有预先创建的用于描述步骤序号的关键词的目标分句,则触发所述分句重要度计算模块122执行根据所述词表计算所述目标网页的文本内容中的分句的重要度的操作。
示例性的,本实施例提供的网页摘要生成装置还包括:
网页摘要补充模块126,用于如果所述分句查找模块124查找到包含有预先创建的用于描述步骤序号的关键词的目标分句,则将所述目标网页的文本内容中位于所述目标分句之后的下一个分句,作为所述目标网页的摘要的一部分。
示例性的,本实施例提供的网页摘要生成装置还包括:
分句位置识别模块127,用于根据设定规则,识别所述目标网页的文本内容中的答案提示分句的位置;
所述网页摘要生成模块123,包括:
摘要抽取单元1233,用于基于所述分句重要度计算模块122得到的重要度和所述分句位置识别模块127对所述位置的识别结果,从所述目标网页的文本内容中抽取数据,作为所述目标网页的摘要。
示例性的,所述摘要抽取单元1233,具体用于:
将所述目标网页的文本内容中,位于所述位置之后、长度大于设定的长度阈值、且重要度大于设定的重要度阈值的段落,作为所述目标网页的摘要的一部分,其中所述段落的重要度根据所述段落中的各个分句的重要度得到。
在上述技术方案的基础上,本实施例提供的网页摘要生成装置还包括:
突出显示模块128,用于在所述网页摘要生成模块123基于所述重要度,从所述目标网页的文本内容中抽取数据,作为所述目标网页的摘要之后,在展示所述目标网页的摘要的同时,突出显示所述目标网页的摘要中所包含的预先创建的资源库中的答案类数据。
上述产品可执行本发明实施例七至实施例十一所提供的方法,具备执行方法相应的功能模块和有益效果。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (25)

1.一种网页摘要生成方法,其特征在于,包括:
获取问题类型的历史查询语句对应的历史搜索结果中的网页;
确定所述网页中包含的至少一组答案类数据;
基于所确定的答案类数据,生成所述网页的摘要。
2.根据权利要求1所述的方法,其特征在于,确定所述网页中包含的至少一组答案类数据,包括:
对所述网页进行定向挖掘,以得到所述网页中包含的至少一组回答类数据;
抽取所得到的回答类数据中包含的答案类数据。
3.根据权利要求2所述的方法,其特征在于,在抽取所得到的回答类数据中包含的答案类数据之前,还包括:
获取分别与所得到的各组回答类数据对应的各组问题类数据;分别计算各组问题类数据与所述历史查询语句的相关度;
抽取所得到的回答类数据中包含的答案类数据,包括:
将与所述历史查询语句的相关度高于设定阈值的问题类数据,作为目标数据;抽取所述目标数据对应的回答类数据中包含的答案类数据。
4.根据权利要求2所述的方法,其特征在于,对所述网页进行定向挖掘,以得到所述网页中包含的至少一组回答类数据,包括:
识别所述网页是否为问答类网页;
若是,则对所述网页进行结构化划分,根据划分结果挖掘所述网页中包含的至少一组回答类数据;
否则,对所述网页进行页面解析,以获取所述网页中包含的正文部分的数据,作为所述网页中包含的至少一组回答类数据。
5.根据权利要求2所述的方法,其特征在于,抽取所得到的回答类数据中包含的答案类数据,包括:
获取所述历史查询语句所属的问题类别,其中所述问题类别为实体类别、对象类别、方式类别、原因类别以及是非类别中的一种类别;
基于预先设定的与所获取的问题类别对应的答案抽取算法,抽取所得到的回答类数据中包含的答案类数据。
6.根据权利要求1-5中任一项所述的方法,其特征在于,在基于所确定的答案类数据,生成所述网页的摘要之后,还包括:突出显示所生成的摘要中包含的答案类数据。
7.一种网页摘要展示方法,其特征在于,包括:
获取本次搜索请求中包含的问题类型的查询语句对应的搜索结果中的网页;
获取预先存储的所述网页的摘要,添加至所述网页的链接信息中,其中所述摘要为根据如权利要求1-6中任一项所述的网页摘要生成方法得到的摘要;
对所述搜索结果中的网页的链接信息进行展示。
8.一种网页摘要生成装置,其特征在于,包括:
网页获取模块,用于获取问题类型的历史查询语句对应的历史搜索结果中的网页;
答案类数据确定模块,用于确定所述网页中包含的至少一组答案类数据;
网页摘要生成模块,用于基于所确定的答案类数据,生成所述网页的摘要。
9.根据权利要求8所述的装置,其特征在于,所述答案类数据确定模块,包括:
定向挖掘单元,用于对所述网页进行定向挖掘,以得到所述网页中包含的至少一组回答类数据;
答案类数据抽取单元,用于抽取所述定向挖掘单元得到的回答类数据中包含的答案类数据。
10.根据权利要求9所述的装置,其特征在于,所述答案类数据确定模块,还包括:
问题类数据获取单元,用于获取分别与所述定向挖掘单元得到的各组回答类数据对应的各组问题类数据;
相关度计算单元,用于分别计算各组问题类数据与所述历史查询语句的相关度;
所述答案类数据抽取单元,具体用于:
将与所述历史查询语句的相关度高于设定阈值的问题类数据,作为目标数据;抽取所述目标数据对应的回答类数据中包含的答案类数据。
11.根据权利要求9所述的装置,其特征在于,所述答案类数据抽取单元,包括:
类别获取子单元,用于获取所述历史查询语句所属的问题类别,其中所述问题类别为实体类别、对象类别、方式类别、原因类别以及是非类别中的一种类别;
答案抽取子单元,用于基于预先设定的与所获取的问题类别对应的答案抽取算法,抽取所得到的回答类数据中包含的答案类数据。
12.根据权利要求8-11中任一项所述的装置,其特征在于,还包括:
突出显示模块,用于在所述网页摘要生成模块基于所确定的答案类数据,生成所述网页的摘要之后,突出显示所生成的摘要中包含的答案类数据。
13.一种网页摘要展示装置,其特征在于,包括:
网页获取模块,用于获取本次搜索请求中包含的问题类型的查询语句对应的搜索结果中的网页;
摘要获取模块,用于获取预先存储的所述网页的摘要,添加至所述网页的链接信息中,其中所述摘要为根据如权利要求8-12中任一项所述的网页摘要生成装置得到的摘要;
展示模块,用于对所述搜索结果中的网页的链接信息进行展示。
14.一种网页摘要生成方法,其特征在于,包括:
获取本次搜索请求中包含的问题类型的查询语句对应的搜索结果中的多个网页,并构建词表,其中所述词表由所述多个网页的文本内容中频次统计特征值满足设定条件的分词组成;
将所述多个网页中的一个网页作为目标网页,根据所述词表计算所述目标网页的文本内容中的分句的重要度;
基于所述重要度,从所述目标网页的文本内容中抽取数据,作为所述目标网页的摘要。
15.根据权利要求14所述的方法,其特征在于,根据所述词表计算所述目标网页的文本内容中的分句的重要度,包括:
统计所述目标网页的文本内容中的分句中,所包含的所述词表中的分词;
根据统计结果,计算所述目标网页的文本内容中的分句的重要度。
16.根据权利要求15所述的方法,其特征在于,在根据统计结果,计算所述目标网页的文本内容中的分句的重要度之前,还包括:
识别所述分句中所包含的预设的答案类关键词;和/或
确定所述分句与所述查询语句之间的重合度;
所述根据统计结果,计算所述目标网页的文本内容中的分句的重要度,包括:
根据统计结果,以及所述识别结果和/或确定结果,计算所述目标网页的文本内容中的分句的重要度。
17.根据权利要求14所述的方法,其特征在于,基于所述重要度,从所述目标网页的文本内容中抽取数据,作为所述目标网页的摘要,包括:
根据所述目标网页的文本内容中的长句所包含的各个分句的重要度,得到所述长句的重要度;
如果所述长句的重要度的满足设定的阈值条件,则将所述长句,作为所述目标网页的摘要的一部分。
18.根据权利要求14所述的方法,其特征在于,在将所述多个网页中的一个网页作为目标网页之后,根据所述词表计算所述目标网页的文本内容中的分句的重要度之前,还包括:
如果所述查询语句所属的问题类型为步骤类型,则遍历所述目标网页的文本内容中的各个分句,查找包含有预先创建的用于描述步骤序号的关键词的目标分句;
如果未查找到任何包含有预先创建的用于描述步骤序号的关键词的目标分句,则触发执行根据所述词表计算所述目标网页的文本内容中的分句的重要度的操作。
19.根据权利要求14所述的方法,其特征在于,在基于所述重要度,从所述目标网页的文本内容中抽取数据,作为所述目标网页的摘要之前,还包括:根据设定规则,识别所述目标网页的文本内容中的答案提示分句的位置;
基于所述重要度,从所述目标网页的文本内容中抽取数据,作为所述目标网页的摘要,包括:
基于所述重要度和对所述位置的识别结果,从所述目标网页的文本内容中抽取数据,作为所述目标网页的摘要。
20.根据权利要求14-19中任一项所述的方法,其特征在于,在基于所述重要度,从所述目标网页的文本内容中抽取数据,作为所述目标网页的摘要之后,还包括:
在展示所述目标网页的摘要的同时,突出显示所述目标网页的摘要中所包含的预先创建的资源库中的答案类数据。
21.一种网页摘要生成装置,其特征在于,包括:
网页获取模块,用于获取本次搜索请求中包含的问题类型的查询语句对应的搜索结果中的多个网页,并构建词表,其中所述词表由所述多个网页的文本内容中频次统计特征值满足设定条件的分词组成;
分句重要度计算模块,用于将所述多个网页中的一个网页作为目标网页,根据所述词表计算所述目标网页的文本内容中的分句的重要度;
网页摘要生成模块,用于基于所述重要度,从所述目标网页的文本内容中抽取数据,作为所述目标网页的摘要。
22.根据权利要求21所述的装置,其特征在于,所述分句重要度计算模块,包括:
分词统计单元,用于统计所述目标网页的文本内容中的分句中,所包含的所述词表中的分词;
重要度计算单元,用于根据所述分词统计单元得到的统计结果,计算所述目标网页的文本内容中的分句的重要度。
23.根据权利要求21所述的装置,其特征在于,还包括:
分句查找模块,用于在所述分句重要度计算模块将所述多个网页中的一个网页作为目标网页之后,根据所述词表计算所述目标网页的文本内容中的分句的重要度之前,如果所述查询语句所属的问题类型为步骤类型,则遍历所述目标网页的文本内容中的各个分句,查找包含有预先创建的用于描述步骤序号的关键词的目标分句;
触发模块,用于如果所述分句查找模块未查找到任何包含有预先创建的用于描述步骤序号的关键词的目标分句,则触发所述分句重要度计算模块执行根据所述词表计算所述目标网页的文本内容中的分句的重要度的操作。
24.根据权利要求21所述的装置,其特征在于,还包括:
分句位置识别模块,用于根据设定规则,识别所述目标网页的文本内容中的答案提示分句的位置;
所述网页摘要生成模块,包括:
摘要抽取单元,用于基于所述分句重要度计算模块得到的重要度和所述分句位置识别模块对所述位置的识别结果,从所述目标网页的文本内容中抽取数据,作为所述目标网页的摘要。
25.根据权利要求21-24中任一项所述的装置,其特征在于,还包括:
突出显示模块,用于在所述网页摘要生成模块基于所述重要度,从所述目标网页的文本内容中抽取数据,作为所述目标网页的摘要之后,在展示所述目标网页的摘要的同时,突出显示所述目标网页的摘要中所包含的预先创建的资源库中的答案类数据。
CN201510069801.8A 2015-02-10 2015-02-10 网页摘要生成方法、展示方法及相应装置 Active CN104636465B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510069801.8A CN104636465B (zh) 2015-02-10 2015-02-10 网页摘要生成方法、展示方法及相应装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510069801.8A CN104636465B (zh) 2015-02-10 2015-02-10 网页摘要生成方法、展示方法及相应装置

Publications (2)

Publication Number Publication Date
CN104636465A true CN104636465A (zh) 2015-05-20
CN104636465B CN104636465B (zh) 2018-11-16

Family

ID=53215211

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510069801.8A Active CN104636465B (zh) 2015-02-10 2015-02-10 网页摘要生成方法、展示方法及相应装置

Country Status (1)

Country Link
CN (1) CN104636465B (zh)

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104866592A (zh) * 2015-05-29 2015-08-26 百度在线网络技术(北京)有限公司 搜索引擎中摘要的展现方法和装置
CN105159996A (zh) * 2015-09-07 2015-12-16 百度在线网络技术(北京)有限公司 基于人工智能的深度问答服务提供方法和装置
CN105447191A (zh) * 2015-12-21 2016-03-30 北京奇虎科技有限公司 提供图文引导步骤的智能摘要方法及相应装置
CN105740362A (zh) * 2016-01-26 2016-07-06 百度在线网络技术(北京)有限公司 信息显示方法及显示装置
CN106407178A (zh) * 2016-08-25 2017-02-15 中国科学院计算技术研究所 一种会话摘要生成方法及装置
WO2017028407A1 (zh) * 2015-08-20 2017-02-23 百度在线网络技术(北京)有限公司 一种用于提取文本摘要的方法与设备
CN106503056A (zh) * 2016-09-27 2017-03-15 北京百度网讯科技有限公司 基于人工智能的搜索结果摘要的生成方法及装置
CN106557554A (zh) * 2016-11-04 2017-04-05 北京百度网讯科技有限公司 基于人工智能的搜索结果的显示方法和装置
CN106649760A (zh) * 2016-12-27 2017-05-10 北京百度网讯科技有限公司 基于深度问答的提问型搜索词搜索方法及装置
CN106681596A (zh) * 2017-01-03 2017-05-17 北京百度网讯科技有限公司 信息显示方法和装置
CN107977420A (zh) * 2017-11-23 2018-05-01 广东工业大学 一种演进式文档的摘要提取方法、装置及可读存储介质
CN109684642A (zh) * 2018-12-26 2019-04-26 重庆誉存大数据科技有限公司 一种结合页面解析规则和nlp文本向量化的摘要提取方法
WO2019231635A1 (en) * 2018-05-30 2019-12-05 Microsoft Technology Licensing, Llc Method and apparatus for generating digest for broadcasting
CN110545355A (zh) * 2019-07-31 2019-12-06 努比亚技术有限公司 一种智能提醒方法、终端及计算机可读存储介质
CN111061860A (zh) * 2019-12-12 2020-04-24 北京百度网讯科技有限公司 摘要生成方法和装置
CN112148988A (zh) * 2020-10-16 2020-12-29 北京百度网讯科技有限公司 用于生成信息的方法、装置、设备以及存储介质
CN112307198A (zh) * 2020-11-24 2021-02-02 腾讯科技(深圳)有限公司 一种单文本的摘要确定方法和相关装置
CN112541109A (zh) * 2020-12-22 2021-03-23 北京百度网讯科技有限公司 答案摘要抽取方法及装置、电子设备、可读介质、产品
CN113051390A (zh) * 2019-12-26 2021-06-29 百度在线网络技术(北京)有限公司 知识库构建方法、装置、电子设备和介质
WO2021164231A1 (zh) * 2020-02-18 2021-08-26 平安科技(深圳)有限公司 公文摘要提取方法、装置、设备及计算机可读存储介质
US20220050884A1 (en) * 2020-08-11 2022-02-17 Accenture Global Services Limited Utilizing machine learning models to automatically generate a summary or visualization of data
CN114372160A (zh) * 2022-01-12 2022-04-19 北京字节跳动网络技术有限公司 一种搜索请求处理方法、装置、计算机设备及存储介质
CN114372215A (zh) * 2022-01-12 2022-04-19 北京字节跳动网络技术有限公司 一种搜索结果展示、搜索请求处理方法及装置
CN115130022A (zh) * 2022-07-04 2022-09-30 北京字跳网络技术有限公司 内容搜索方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101436206A (zh) * 2008-12-22 2009-05-20 昆明理工大学 基于本体推理的旅游问答系统答案抽取方法
CN102163229A (zh) * 2011-04-13 2011-08-24 北京百度网讯科技有限公司 一种用于生成搜索结果的摘要的方法与设备
CN103136359A (zh) * 2013-03-07 2013-06-05 宁波成电泰克电子信息技术发展有限公司 单文档摘要生成方法
CN104008126A (zh) * 2014-03-31 2014-08-27 北京奇虎科技有限公司 一种基于网页内容分类进行分词处理的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101436206A (zh) * 2008-12-22 2009-05-20 昆明理工大学 基于本体推理的旅游问答系统答案抽取方法
CN102163229A (zh) * 2011-04-13 2011-08-24 北京百度网讯科技有限公司 一种用于生成搜索结果的摘要的方法与设备
CN103136359A (zh) * 2013-03-07 2013-06-05 宁波成电泰克电子信息技术发展有限公司 单文档摘要生成方法
CN104008126A (zh) * 2014-03-31 2014-08-27 北京奇虎科技有限公司 一种基于网页内容分类进行分词处理的方法和装置

Cited By (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104866592A (zh) * 2015-05-29 2015-08-26 百度在线网络技术(北京)有限公司 搜索引擎中摘要的展现方法和装置
CN104866592B (zh) * 2015-05-29 2018-09-07 百度在线网络技术(北京)有限公司 搜索引擎中摘要的展现方法和装置
WO2017028407A1 (zh) * 2015-08-20 2017-02-23 百度在线网络技术(北京)有限公司 一种用于提取文本摘要的方法与设备
CN105159996B (zh) * 2015-09-07 2018-09-07 百度在线网络技术(北京)有限公司 基于人工智能的深度问答服务提供方法和装置
CN105159996A (zh) * 2015-09-07 2015-12-16 百度在线网络技术(北京)有限公司 基于人工智能的深度问答服务提供方法和装置
CN105447191A (zh) * 2015-12-21 2016-03-30 北京奇虎科技有限公司 提供图文引导步骤的智能摘要方法及相应装置
CN105447191B (zh) * 2015-12-21 2019-12-31 北京奇虎科技有限公司 提供图文引导步骤的智能摘要方法及相应装置
CN105740362A (zh) * 2016-01-26 2016-07-06 百度在线网络技术(北京)有限公司 信息显示方法及显示装置
CN106407178A (zh) * 2016-08-25 2017-02-15 中国科学院计算技术研究所 一种会话摘要生成方法及装置
CN106407178B (zh) * 2016-08-25 2019-08-13 中国科学院计算技术研究所 一种会话摘要生成方法、装置、服务器设备以及终端设备
CN106503056B (zh) * 2016-09-27 2019-08-27 北京百度网讯科技有限公司 基于人工智能的搜索结果摘要的生成方法及装置
CN106503056A (zh) * 2016-09-27 2017-03-15 北京百度网讯科技有限公司 基于人工智能的搜索结果摘要的生成方法及装置
CN106557554B (zh) * 2016-11-04 2019-11-08 北京百度网讯科技有限公司 基于人工智能的搜索结果的显示方法和装置
CN106557554A (zh) * 2016-11-04 2017-04-05 北京百度网讯科技有限公司 基于人工智能的搜索结果的显示方法和装置
CN106649760A (zh) * 2016-12-27 2017-05-10 北京百度网讯科技有限公司 基于深度问答的提问型搜索词搜索方法及装置
US10831769B2 (en) 2016-12-27 2020-11-10 Beijing Baidu Netcom Science And Technology Co., Ltd. Search method and device for asking type query based on deep question and answer
CN106681596A (zh) * 2017-01-03 2017-05-17 北京百度网讯科技有限公司 信息显示方法和装置
CN107977420A (zh) * 2017-11-23 2018-05-01 广东工业大学 一种演进式文档的摘要提取方法、装置及可读存储介质
WO2019231635A1 (en) * 2018-05-30 2019-12-05 Microsoft Technology Licensing, Llc Method and apparatus for generating digest for broadcasting
CN109684642A (zh) * 2018-12-26 2019-04-26 重庆誉存大数据科技有限公司 一种结合页面解析规则和nlp文本向量化的摘要提取方法
CN109684642B (zh) * 2018-12-26 2023-01-13 重庆电信系统集成有限公司 一种结合页面解析规则和nlp文本向量化的摘要提取方法
CN110545355B (zh) * 2019-07-31 2021-04-02 努比亚技术有限公司 一种智能提醒方法、终端及计算机可读存储介质
CN110545355A (zh) * 2019-07-31 2019-12-06 努比亚技术有限公司 一种智能提醒方法、终端及计算机可读存储介质
CN111061860A (zh) * 2019-12-12 2020-04-24 北京百度网讯科技有限公司 摘要生成方法和装置
US11687715B2 (en) 2019-12-12 2023-06-27 Beijing Baidu Netcom Science And Technology Co., Ltd. Summary generation method and apparatus
CN113051390B (zh) * 2019-12-26 2023-09-26 百度在线网络技术(北京)有限公司 知识库构建方法、装置、电子设备和介质
CN113051390A (zh) * 2019-12-26 2021-06-29 百度在线网络技术(北京)有限公司 知识库构建方法、装置、电子设备和介质
WO2021164231A1 (zh) * 2020-02-18 2021-08-26 平安科技(深圳)有限公司 公文摘要提取方法、装置、设备及计算机可读存储介质
US20220050884A1 (en) * 2020-08-11 2022-02-17 Accenture Global Services Limited Utilizing machine learning models to automatically generate a summary or visualization of data
CN112148988A (zh) * 2020-10-16 2020-12-29 北京百度网讯科技有限公司 用于生成信息的方法、装置、设备以及存储介质
CN112148988B (zh) * 2020-10-16 2023-07-28 北京百度网讯科技有限公司 用于生成信息的方法、装置、设备以及存储介质
CN112307198A (zh) * 2020-11-24 2021-02-02 腾讯科技(深圳)有限公司 一种单文本的摘要确定方法和相关装置
CN112307198B (zh) * 2020-11-24 2024-03-12 腾讯科技(深圳)有限公司 一种单文本的摘要确定方法和相关装置
CN112541109A (zh) * 2020-12-22 2021-03-23 北京百度网讯科技有限公司 答案摘要抽取方法及装置、电子设备、可读介质、产品
CN112541109B (zh) * 2020-12-22 2023-10-24 北京百度网讯科技有限公司 答案摘要抽取方法及装置、电子设备、可读介质、产品
CN114372160A (zh) * 2022-01-12 2022-04-19 北京字节跳动网络技术有限公司 一种搜索请求处理方法、装置、计算机设备及存储介质
CN114372215A (zh) * 2022-01-12 2022-04-19 北京字节跳动网络技术有限公司 一种搜索结果展示、搜索请求处理方法及装置
CN114372160B (zh) * 2022-01-12 2023-08-15 抖音视界有限公司 一种搜索请求处理方法、装置、计算机设备及存储介质
US12093256B2 (en) 2022-01-12 2024-09-17 Beijing Bytedance Network Technology Co., Ltd. Methods for search result presentation and for search request processing and computer device
CN115130022A (zh) * 2022-07-04 2022-09-30 北京字跳网络技术有限公司 内容搜索方法、装置、设备及介质
CN115130022B (zh) * 2022-07-04 2024-09-03 北京字跳网络技术有限公司 内容搜索方法、装置、设备及介质

Also Published As

Publication number Publication date
CN104636465B (zh) 2018-11-16

Similar Documents

Publication Publication Date Title
CN104636465A (zh) 网页摘要生成方法、展示方法及相应装置
CN103544255B (zh) 基于文本语义相关的网络舆情信息分析方法
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
US8751218B2 (en) Indexing content at semantic level
CN108763321B (zh) 一种基于大规模相关实体网络的相关实体推荐方法
CN112100343B (zh) 一种扩充知识图谱的方法、电子设备及存储介质
CN101751455B (zh) 采用人工智能技术自动产生标题的方法
CN105930452A (zh) 一种识别自然语言的智能应答方法
KR20160026892A (ko) 논팩토이드형 질의 응답 시스템 및 방법
CN107729468A (zh) 基于深度学习的答案抽取方法及系统
CN103399901A (zh) 一种关键词抽取方法
CN112749265B (zh) 一种基于多信息源的智能问答系统
EP3057003A1 (en) Device for collecting contradictory expression and computer program for same
CN110472203B (zh) 一种文章的查重检测方法、装置、设备及存储介质
CN106933800A (zh) 一种金融领域的事件句抽取方法
CN103473262A (zh) 一种基于关联规则的Web评论观点自动分类系统及分类方法
CN115599902B (zh) 一种基于知识图谱的油气百科问答方法及系统
CN102081601A (zh) 一种领域词识别方法和装置
CN109948154B (zh) 一种基于邮箱名的人物获取及关系推荐系统和方法
CN109325125B (zh) 一种基于cnn优化的社交网络谣言检测方法
CN112989208A (zh) 一种信息推荐方法、装置、电子设备及存储介质
Cao et al. Toward accurate link between code and software documentation
CN104391969A (zh) 确定用户查询语句句法结构的方法及装置
CN104794209B (zh) 基于马尔科夫逻辑网络的中文微博情绪分类方法及系统
CN103020286A (zh) 基于排名网站的互联网排行榜抓取系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant