CN101452470B - 摘要式网络搜索引擎系统及其搜索方法与应用 - Google Patents

摘要式网络搜索引擎系统及其搜索方法与应用 Download PDF

Info

Publication number
CN101452470B
CN101452470B CN2008101708553A CN200810170855A CN101452470B CN 101452470 B CN101452470 B CN 101452470B CN 2008101708553 A CN2008101708553 A CN 2008101708553A CN 200810170855 A CN200810170855 A CN 200810170855A CN 101452470 B CN101452470 B CN 101452470B
Authority
CN
China
Prior art keywords
statement
module
search results
index
paragraph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2008101708553A
Other languages
English (en)
Other versions
CN101452470A (zh
Inventor
石忠民
徐亚波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canadian claims Limited by Share Ltd.
GUANGZHOU SUMMBA INFORMATION TECHNOLOGY CO LTD
Original Assignee
GUANGZHOU SUMMBA INFORMATION TECHNOLOGY CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GUANGZHOU SUMMBA INFORMATION TECHNOLOGY CO LTD filed Critical GUANGZHOU SUMMBA INFORMATION TECHNOLOGY CO LTD
Publication of CN101452470A publication Critical patent/CN101452470A/zh
Application granted granted Critical
Publication of CN101452470B publication Critical patent/CN101452470B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

本发明提供一种摘要式网络搜索引擎系统及其搜索方法与应用,其系统主要包括用户界面、网页抓取模块、语句索引模块、摘要式搜索模块等;其搜索方法主要包括以下步骤:(1)抓取网络上的网页,并生成语句索引;(2)生成摘要式搜索结果。本系统可应用为通用搜索引擎系统或专业搜索引擎系统,亦可配置成为特定用户或用户群提供摘要式搜索服务的桌面系统或远程服务系统或配置成适用于手机等移动通讯设备的信息搜索平台等。相对于现有技术,本发明可给用户更简洁、更翔实、更相关、更人性化的搜索结果。

Description

摘要式网络搜索引擎系统及其搜索方法与应用
技术领域
本发明属于计算机信息处理领域,特别涉及一种摘要式网络搜索引擎系统及其搜索方法与应用。
背景技术
近年来互联网技术的飞速发展深刻的影响了人类的信息获取和决策模式。为了帮助用户在互联网上数以百亿计的网页中精确而迅速地获得他们所需的信息,传统的搜索引擎公司,如百度、雅虎和谷歌等开发出有效的搜索引擎并且赢得了可观的商业利润。然而,传统的搜索引擎存在以下缺陷:
·搜索结果为目录式,即返回成千上万个网页标题和链接,而不是用户所需的答案。
·搜索结果通常包含大量重复的网页内容,用户需要自己去分析、判断并排除这些重复的信息。
·所需的答案往往分散在不同的网页上,用户需要自己将这些分散的信息收集和总结。
对许多的热门话题,除了使用搜索引擎以外,人们还可以从网上百科全书,如百度百科、维基百科等,获得准确翔实的信息。然而,这些百科全书的内容都为手工编辑,而且对大多数的话题很难做到实时更新。
新的搜索引擎技术也层出不穷。各种优化排序的方法,比如申请号为US5864845和US5864846的美国专利申请最早提出了Meta Search的想法,将多个搜索引擎的搜索结果以一定的方式整合起来,提供“最优”的排序方案。典型的Meta Search类搜索引擎包括DogPile.com,A9.com,searchmash.com等。这些优化排序的方法更专注于在目录式的基础上如何提高搜索结果的相关性,而不是如何解决上述缺陷。
在本发明之前,确有研究涉及到使用某些“摘要”形式来捕捉单个网页的信息。比如,申请号为US6581057的美国专利申请提出,在生成索引的同时为每个网页产生一个主题描述,并在网页被回溯时显示出来。更进一步地,申请号为US20020078019的美国专利申请对每个网页产生两级描述:一个主题描述和一个更详细的描述。图形信息也被考虑跟每个相关网页关联起来,比如Michael Wynblatt和Dan Benson的文章“Web PageCaricatures:Multimedia Summaries for WWW Documents”(ICMCS,1998年)中提到用网页图标,Allison Woodruff等的文章“Using Thumbnails toSearch the Web”(CHFCS,2001年)中提到用图像小样,以及申请号为US6643641的美国专利申请提出的使用图像快照。上述这些“摘要”形式都只应用于单个网页。
还有一些技术使用一个信息集合来代表多个相关网页的内容。特别是申请号为US20060155728的美国专利申请,提出可以把多个网址整理成一个单一的特殊网址,当用户点击这个特殊网址时,它所代表的那些网页将被传入浏览模块中。然而,该技术并不涉及任何摘要形式。另有一类技术,如申请号为US6862586的美国专利申请,使用聚类和主题词来代表所有相关网页。在这种基于网页聚类的搜索引擎,例如Clusty.com,的搜索结果中网页还是被排序并单独呈现。本发明也使用了聚类技术,但主要是用于生成子话题的摘要,而不是为生成网页的聚类。
专利申请号为US6591261的美国专利申请提出根据网页间的超链接来确定相关网页。用户因此可以从一个网页链接到它的相关网页。但是,这些相关网页往往含有大量重复信息,并且没有帮助用户从大量的搜索结果中解放出来。
总的来讲,现有这些搜索引擎技术仍存在下面主要缺陷:(1)传统的搜索引擎,也称作“基于关键字的搜索引擎”,是依靠关键字来匹配相关内容。这种技术的瓶颈在于,单纯依靠关键字匹配并不能真正理解内容的含义。这也是为什么传统搜索引擎的结果常常含有大量似是而非的无关网页。(2)传统搜索引擎的另一大弊端是其索引方式:页面索引。用户搜索的目的是要相关内容或答案;而页面索引只能提供大量网页,用户往往需要阅读多个网页,并在搜索结果和页面之间不停地切换,来自己判断、整理和总结相关内容。所以,现存的这些缺陷有待克服和解决。
发明内容
本发明的首要目的在于针对现有搜索引擎存在的的缺陷,致力于提供给用户更简洁、更翔实、更相关、更人性化的搜索结果的摘要式网络搜索引擎系统。
本发明的另一目的在于提供由上述系统实现的摘要式网络搜索方法。
本发明的再一目的在于提供由上述系统实现的摘要式网络搜索方法的应用。
本发明的目的通过下述技术方案实现:一种摘要式网络搜索引擎系统,包括如下组成部分:
(1)接收用户查询请求和显示摘要式搜索结果的用户界面;
(2)负责抓取网页的网页抓取模块;
其特征在于还包括如下组成部分:
(3)对抓取的网页进行深层次的语法和语义分析,并基于语法和语义的分析结果建立语句索引的语句索引模块;
(4)从语句索引模块中提取与用户查询请求相关的内容,将相关的内容中进行聚类处理,对聚类处理的结果再进行摘要处理并产生摘要式搜索结果的摘要式搜索模块。
组成部分(3)中,所述的语句索引模块,包括:
(3.1)从网络抓取模块抓取下来的网页中提取有效网页内容,即句法正确的文字段落、图像、视频以及音频信息的网页内容过滤模块;
(3.2)对有效网页内容中的文字段落进行语句划分,并对每个语句进行语法和语义分析及注释的语法语义注释模块;
同时,语句索引模块的特征还可包括:
(3.3)根据有效网页内容的语法和语义分析结果,来识别语句的语义是否重复的重复语句识别模块;
(3.4)根据有效网页内容的语法和语义分析结果,来删除语句非重要成分的语句压缩模块;
(3.5)建立基于语句(而不是网页)的语句索引生成模块;
(3.6)以及将每个图像、视频和音频信息同语句关联起来的多媒体关联模块。
(3.2)中,所述的语法语义注释模块包括:语句划分模块、分词模块、词性分析模块、语义成分分析模块、实体抽取模块、实体关系分析模块和情感分析模块。
组成部分(4)中,所述的摘要式搜索模块包括语句检索模块、语句聚类模块和摘要生成模块;其特征包括:
语句检索模块从语句索引模块中提取与用户查询请求相关的语句,简称相关语句;
语句聚类模块根据这些相关语句所描述的主题将相关语句进行分类,每个类包含一个主题及描述该主题的所有相关语句;
摘要生成模块对每个类所包含的相关语句进行摘要处理,生成摘要式搜索结果;所述摘要式搜索结果,是指以下述一种或多种形式来概括和总结相关内容:段落、条目、表格和图形。
所述段落或条目,由部分相关语句的部分语法和语义成分、以及与这些相关语句关联的图像、视频和音频信息组成,这些图像、视频以及音频信息由所述的多媒体关联模块提供。
所述表格,由段落或条目中所包含的实体组成,这些实体由所述的实体抽取模块和实体关系分析模块提供。
所述图形,由段落或条目中所包含的数量型实体组成,这些数量型实体由所述的实体抽取模块和实体关系分析模块提供。
组成部分(4)中,所述“与用户查询请求相关的内容”,简称相关内容,是指在段落索引模块中索引的语法和语义的分析结果,并与用户查询请求相关。这个相关内容包含文字、图像、视频以及音频信息。
一种由上述系统实现的摘要式网络搜索方法,其特征在于包括以下步骤:
(1)抓取网络上的网页,并生成语句索引;
(2)生成摘要式搜索结果;
步骤(1)中,所述生成语句索引,包括以下具体步骤:
(1.1)从抓取的网页中提取有效网页内容,即句法正确的文字段落、图像、视频以及音频信息;
(1.2)对有效网页内容的文字段落进行深层次的语法和语义分析,包括语句划分、分词、词性分析、语义成分分析、实体抽取、实体关系分析和情感分析;
所述生成语句索引,其特征体现在以下步骤:
(1.3)识别重复语句,即把含有相同或相近语义成分的语句列为重复语句;
(1.4)压缩语句,即删除语句中非重要的语法和语义成分;
(1.5)建立语句索引(而不是网页索引);
(1.6)将步骤(1)中提到的网页中的每个图像、视频和音频信息同该网页中的语句关联起来;这种关联性取决于下述方法之一或全部:
(1.6.1)图像、视频和音频信息所附属的文字性信息,即标题、文件名、标签等,同语句的相似性;
(1.6.2)图像和视频内的物体及物体的行为,同语句所描述的事物的相似性。
步骤(2)中,所述的生成摘要式搜索结果,其特征体现在以下步骤:
(2.1)语句检索,即从语句索引中提取相关语句;
(2.2)语句聚类分析,即根据这些相关语句所描述的主题将相关语句进行分类,每个类包含一个主题及描述该主题的所有相关语句;
(2.3)对每个类所包含的相关语句进行摘要处理,生成摘要式搜索结果。
步骤(2.3)中,所述的摘要处理,其特征体现在以下步骤:
(2.3.1)生成摘要式搜索结果段落或条目,包含以下步骤:
(2.3.1.1)在每个类所包含的相关语句中,按照所描述内容的时间、空间、逻辑关系、语言表述习惯、语句的连贯性和可读性,依次挑选出一组语句;
(2.3.1.2)删除这组语句中重复的语句。重复语句识别方法如步骤(1.3)所述;
(2.3.1.3)根据语句间主题的相关性将这组语句划分段落或条目;
(2.3.1.4)多媒体信息关联,即提取与这组语句中每个语句所关联的图像、视频和音频信息,并将这些信息插入到所关联的语句的位置。语句与图像、视频和音频信息的关联方法如步骤(1.6)所述。
(2.3.2)生成摘要式搜索结果表格,即将步骤(2.3.1)所述的摘要式搜索结果段落或条目所包含的实体,放在一个或多个表格中,同一类实体为同一行或同一列。
(2.3.3)生成摘要式搜索结果图形,即将步骤(2.3.1)所述的摘要式搜索结果段落或条目所包含的数量型实体,以一个或多个统计性图形(包括并且不限于:柱状图、饼状图、折线图、曲线图和趋势线图)表示。
上述系统实现的摘要式网络搜索方法的应用,其特征在于:
系统将被配置成通用搜索引擎系统,为不依赖于特定领域的用户查询请求提供摘要式搜索结果。
系统将被配置成专业搜索引擎系统,即为不同专业领域用户的查询请求提供不同形式和内容的摘要式搜索结果。
系统将被配置成为特定用户或用户群提供摘要式搜索服务的桌面系统或远程服务系统。上述的用户或用户群将以付费的方式获得上述服务。
由于摘要式搜索结果简明扼要的特征,系统将被配置成适用于手机等移动通讯设备的信息搜索平台。
本发明相对于现有技术具有如下的优点及有益效果:不同于传统的搜索引擎,在收到用户的查询请求之后,摘要式网络搜索引擎在对网络上的相关信息进行实时的综合分析,剔除大量冗余的信息,并提炼归纳出一个更易于用户使用和理解的摘要文章。这种的摘要式的搜索结果会包含自动产生的文字段落、条目、表格和图形,并且会自动更新,而不依赖于人工产生。与传统的搜索引擎相比,本发明具有以下优点:
·返回的摘要式结果可读性更好,更易于理解,包含更少不相关的信息。
·自动将分散在不同页面上的信息收集、分类和总结,并生成概括性的摘要文章。
·用户能够用更少的点击找到他们想要的页面。一方面用户能够在摘要中找到他们想要的结果,另一方面摘要里各语句的上下文信息能够帮助用户更加自信准确地决策。
·我们产生的摘要具有层次结构,包括一个针对用户查询的主摘要和一系列针对相关话题的子摘要。它们能够帮助用户快速去除问题中的歧义,缩小查询范围或重新组织查询。
·在摘要中自然地嵌入了多媒体信息,视频,音频和图像等等。它比单纯的文本搜索界面更友好,包含的信息量也更大。
·摘要式搜索更适合手机搜索,因为它可以把成千上万相关网页的内容以摘要的形式简洁地呈现给用户,而且摘要的长短可由用户指定。
·在用户查询阶段,摘要式搜索引擎和传统的搜索引擎没有区别:用户可以输入任何关键字。也就是说,当用户从传统搜索引擎转换到摘要式搜索时,没有任何使用习惯上的改变,所以适用性较好。
附图说明
图1是本发明方框流程图。
图2是网页内容过滤模块的流程图。
图3是语法语义注释模块的流程图。
图4是摘要生成模块的流程图。
图5是一个摘要式搜索结果的例子。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
象其它搜索引擎一样,本发明摘要式网络搜索引擎系统也由三个部分组成:网页抓取、索引和搜索,如图1所示。
网页抓取程序在网络上获取网页。网页抓取模块10从开放目录,比如Open Directory Project(http://dmoz.org)中的网络链接,以及其它预先准备的网络链接入手下载网页11。
索引部分由语句索引模块来实现。语句索引模块分析网页11,并将分析结果加入到语句索引19中,以供搜索部分来查询。语句索引模块包含以下部分:
1、网页内容过滤模块12将网页上的文字段落13及其它多媒体信息17,如图像、音频和视频等,通过下述步骤提取出来:网页内容分离模块34将JavaScript、Applet、CSS、字符和颜色设置等从网页原代码中分离出去;段落和多媒体目标识别模块36将剩余代码中的文字段落13和多媒体信息17提取出来;格式不符的段落,如太短或者没有标点符号等,将被段落过滤模块38删除。
2、文字段落13通过语法语义注释模块14进行语法和语义的分析并声称分析结果15。不同于传统的搜索引擎的索引系统,我们搜索引擎的语法语义注释模块14分析页面中语句的语法和语义结构。首先,语句识别模块40将段落分割成语句。格式不符的语句,例如太短、没有合适的标点符号或首字母没有大写(针对某些语言)等,将会被语句过滤模块42删除。其次,每个语句中的词性和词组分别由词类标注模块44和词组识别模块46分析识别出来。词类和词组识别是自然语言处理中常见的任务,通常可以通过一系列的语言规则实现。最后,每个语句的语言成分结构由语义规则标识模块48识别。语义规则标识模块通常包括一系列的语言规则来识别主语、谓语、宾语、定语、状语、补语等语言成分。语法语义注释模块14最终产生上述的分析结果15。
3、分析结果15中的语义重复语句由重复语句识别模块16识别出来。重复语句识别模块16可以识别含有相同主谓宾结构的语句。对于一组冗余的语句,我们只将信息量最大的一个语句保留在索引19中,例如最长或词组最多的语句;另一种方法是保留所有的语句,由搜索子系统在生成摘要是来决定选择哪个语句。
4、语句压缩模块18将分析结果15中的语句的不必要成分及符号删除,例如在某些情况下的时间状语、连词、括号中的部分。
5、多媒体关联模块22将分析结果15中的每个语句与同一页面中最相关的多媒体目标(如果存在的话)联系起来。相关性的衡量标准:1)语句和多媒体目标之间的距离;2)语句和多媒体目标的文字信息,例如标题、名称、标签等,的相关性。
6、语句索引生成模块20将分析结果15中的语句及其压缩结果加入到索引19中。不同于传统的索引方式,语句索引生成模块20将对网页中的语句做索引,以便在搜索子系统中实现进一步的自然语言分析。
系统的搜索部分由摘要式搜索模块实现。摘要式搜索模块通过用户截面24接受用户的查询请求25后,语句检索模块26在数据库中提取相关语句27,然后由摘要生成模块30分析相关语句27和相关多媒体信息17,并生成摘要。
由于用户的查询通常概念模糊或不够确切,相关语句27很可能包含诸多话题。因此,我们通过语句聚类模块28分析相关语句27中的常见词组,并根据这些词组将相关语句27分类。每个词组为一个类,类中的语句29包含该词组。用户的查询请求24也包含在常见词组中,同时也是最终生成的摘要的主话题。
摘要生成模块30为每个类(即主话题或子话题)生成一个摘要。摘要的生成步骤如下:
1、第一句选择模块50选择摘要的第一句话。选择的优先权如下所示(顺序从高到低):
·没有介词
·有状态系动词
·在原始网页中是文章的第一句话
·在原始网页中是段落的第一句话
·包含的信息量大(例如词组多)
·选定的语句要从保留的语句中删除。
2、下一句话从保留下来的语句中依次重复地选择。语句连贯性检测模块52计算已选的n个语句和保留下来的语句中的每一句话的连贯性,例如相似的名词词组数目。语句所描述内容的时间、空间、逻辑关系、语言表述习惯、介词指代也将是重要的连贯性计算依据。下一句选择模块54挑选连贯性最强的语句为下一句话。同时,与被选择语句重复的语句将从保留下来的语句中删除。当一定量或所有的语句被选取后,这个重复过程将停止。
3、段落连贯性检测模块56根据语句间的连贯性将这些排好序的语句55分成段落或条目,即摘要式搜索结果的文字部分31。
4、提取与摘要式搜索结果的文字部分31中的每个语句相关联的图像、视频和音频信息,并将这些信息插入到摘要式搜索结果的文字部分31中所关联的语句的位置。
5、生成摘要式搜索结果中的表格,即将摘要式搜索结果的文字部分31所包含的实体,放在一个或多个表格中,同一类实体为同一行或同一列。
10.3生成摘要式搜索结果的图形,即将摘要式搜索结果的文字部分31所包含的数量型实体,以一个或多个统计性图形(包括并且不限于:柱状图、饼状图、折线图、曲线图和趋势线图)表示。
最后,摘要页面生成模块32为摘要式搜索结果生成页面。摘要式搜索结果中的每个语句包含原始网页的链接。与每个语句相关的多媒体信息(如果存在)也将显示在该句话附近合适的位置。
图5显示了“全球定位系统”在摘要式搜索引擎中的搜索结果。图中右栏为主话题“全球定位系统”的摘要;左栏上部为子话题列表,每个子话题链接到该子话题的摘要页。另一种搜索结果的表现形式为将所有话题的摘要显示在一个页面上。
以上介绍的是摘要式搜索引擎的优选方案,显然这些概念也可以有很多不同的表现形式。
特别值得一提的是本专利实现的另一种形式是索答移动搜索平台。在这种情况下,摘要生成模块30和摘要页面生成模块32允许用户选择摘要式搜索结果的长度以适应移动设备上的小屏幕的限制。与传统的返回多链接的搜索引擎相比,以简明扼要为特点的摘要搜索技术在移动搜索有着天然的优势。
本发明除了能用于通用搜索之外,它的其他实现形式也包括索答技术在各个特定领域的应用。在这种情况下,网页抓取模块10将只下载某个特定领域的网页。另外,语句聚类模块28也将应用跟特定领域相关的本体或词典来识别跟此领域相关的名词短语,并给出相应的处理。除此以外,取决于特定领域的要求,生成的摘要式搜索结果也可能会以跟通用搜索完全不一样的形式呈现出来。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (5)

1.一种摘要式网络搜索引擎系统,包括如下组成部分:
(1)接收用户查询请求和显示摘要式搜索结果的用户界面;
(2)负责抓取网页的网页抓取模块;
其特征在于:还包括如下组成部分:
(3)对抓取的网页进行深层次的语法和语义分析,并基于语法和语义的分析结果建立语句索引的语句索引模块;
(4)从语句索引模块中提取与用户查询请求相关的内容,将相关的内容中进行聚类处理,对聚类处理的结果中的每一个类所包含的相关语句进行摘要处理,并产生摘要式搜索结果的摘要式搜索模块;
组成部分(3)中,所述的语句索引模块,包括:
(3.1)从网络抓取模块抓取下来的网页中提取有效网页内容,即句法正确的文字段落、图像、视频以及音频信息的网页内容过滤模块;
(3.2)对有效网页内容中的文字段落进行语句划分,并对每个语句进行语法和语义分析及注释的语法语义注释模块;
(3.3)根据有效网页内容的语法和语义分析结果,来识别语句的语义是否重复的重复语句识别模块;
(3.4)根据有效网页内容的语法和语义分析结果,来删除语句非重要成分的语句压缩模块;
(3.5)建立基于语句的语句索引生成模块;
(3.6)以及将每个图像、视频和音频信息同语句关联起来的多媒体关联模块。
2.根据权利要求1所述的摘要式网络搜索引擎系统,其特征在于:
(3.2)中,所述的语法语义注释模块包括:语句划分模块、分词模块、词性分析模块、语义成分分析模块、实体抽取模块、实体关系分析模块和情感分析模块。
3.根据权利要求1所述的摘要式网络搜索引擎系统,其特征在于:组成部分(4)中,所述的摘要式搜索模块包括语句检索模块、语句聚类模块和摘要生成模块;
语句检索模块从语句索引模块中提取与用户查询请求相关的语句,简称相关语句;
语句聚类模块根据这些相关语句所描述的主题将相关语句进行分类,每个类包含一个主题及描述该主题的所有相关语句;
摘要生成模块对每个类所包含的相关语句进行摘要处理,生成摘要式搜索结果;所述摘要式搜索结果,是指以下述一种或多种形式来概括和总结相关内容:段落、条目、表格和图形;
所述“与用户查询请求相关的内容”,是指在语句索引模块中索引的语法和语义的分析结果,并与用户查询请求相关;这个相关内容包含文字、图像、视频以及音频信息。
4.根据权利要求3所述的摘要式网络搜索引擎系统,其特征在于:所述段落或条目,由部分相关语句的部分语法和语义成分、以及与这些相关语句关联的图像、视频和音频信息组成,这些图像、视频以及音频信息由所述的多媒体关联模块提供;
所述表格,由段落或条目中所包含的实体组成,这些实体由所述的实体抽取模块和实体关系分析模块提供;
所述图形,由段落或条目中所包含的数量型实体组成,这些数量型实体由所述的实体抽取模块和实体关系分析模块提供。
5.一种摘要式网络搜索方法,其特征在于包括以下步骤:
(1)抓取网络上的网页,并生成语句索引;
(2)生成摘要式搜索结果;
步骤(1)中,所述生成语句索引,包括以下具体步骤:
(1.1)从抓取的网页中提取有效网页内容,即句法正确的文字段落、图像、视频以及音频信息;
(1.2)对有效网页内容的文字段落进行深层次的语法和语义分析,包括语句划分、分词、词性分析、语义成分分析、实体抽取、实体关系分析和情感分析;
(1.3)识别重复语句,即把含有相同或相近语义成分的语句列为重复语句;
(1.4)压缩语句,即删除语句中非重要的语法和语义成分;
(1.5)建立语句索引;
(1.6)将步骤(1)中提到的网页中的每个图像、视频和音频信息同该网页中的语句关联起来;这种关联性取决于下述方法之一或全部:
(1.6.1)图像、视频和音频信息所附属的文字性信息,即标题、文件名、标签,同语句的相似性;
(1.6.2)图像和视频内的物体及物体的行为,同语句所描述的事物的相似性;
步骤(2)中,所述的生成摘要式搜索结果,其特征体现在以下步骤:
(2.1)语句检索,即从语句索引中提取相关语句;
(2.2)语句聚类分析,即根据这些相关语句所描述的主题将相关语句进行分类,每个类包含一个主题及描述该主题的所有相关语句;
(2.3)对每个类所包含的相关语句进行摘要处理,生成摘要式搜索结果;
步骤(2.3)中,所述的摘要处理包括以下步骤:
(2.3.1)生成摘要式搜索结果段落或条目,具体包含以下步骤:
(2.3.1.1)在每个类所包含的相关语句中,按照所描述内容的时间、空间、逻辑关系、语言表述习惯、语句的连贯性和可读性,依次挑选出一组语句;
(2.3.1.2)删除这组语句中重复的语句;
(2.3.1.3)根据语句间主题的相关性将这组语句划分段落或条目;
(2.3.1.4)多媒体信息关联,即提取与这组语句中每个语句所关联的图像、视频和音频信息,并将这些信息插入到所关联的语句的位置;
(2.3.2)生成摘要式搜索结果表格,即将步骤(2.3.1)所述的摘要式搜索结果段落或条目所包含的实体,放在一个或多个表格中,同一类实体为同一行或同一列;
(2.3.3)生成摘要式搜索结果图形,即将步骤(2.3.1)所述的摘要式搜索结果段落或条目所包含的数量型实体,以一个或多个统计性图形,包括:柱状图、饼状图、折线图、曲线图和趋势线图表示。
CN2008101708553A 2007-10-18 2008-10-17 摘要式网络搜索引擎系统及其搜索方法与应用 Active CN101452470B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US99938907P 2007-10-18 2007-10-18
US60/999,389 2007-10-18

Publications (2)

Publication Number Publication Date
CN101452470A CN101452470A (zh) 2009-06-10
CN101452470B true CN101452470B (zh) 2012-06-06

Family

ID=40564482

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008101708553A Active CN101452470B (zh) 2007-10-18 2008-10-17 摘要式网络搜索引擎系统及其搜索方法与应用

Country Status (2)

Country Link
US (1) US20090106203A1 (zh)
CN (1) CN101452470B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015113306A1 (en) * 2014-01-30 2015-08-06 Microsoft Corporation Entity page generation and entity related searching

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100228776A1 (en) * 2009-03-09 2010-09-09 Melkote Ramaswamy N System, mechanisms, methods and services for the creation, interaction and consumption of searchable, context relevant, multimedia collages composited from heterogeneous sources
US8229960B2 (en) * 2009-09-30 2012-07-24 Microsoft Corporation Web-scale entity summarization
US8457948B2 (en) * 2010-05-13 2013-06-04 Expedia, Inc. Systems and methods for automated content generation
CN101894170B (zh) * 2010-08-13 2011-12-28 武汉大学 基于语义关联网络的跨模信息检索方法
US20130185658A1 (en) * 2010-09-30 2013-07-18 Beijing Lenovo Software Ltd. Portable Electronic Device, Content Publishing Method, And Prompting Method
US9110977B1 (en) * 2011-02-03 2015-08-18 Linguastat, Inc. Autonomous real time publishing
CN102955781B (zh) * 2011-08-19 2016-04-20 腾讯科技(深圳)有限公司 一种人物搜索方法及装置
CN103207860B (zh) * 2012-01-11 2017-08-25 北大方正集团有限公司 舆情事件的实体关系抽取方法和装置
WO2013162264A1 (ko) * 2012-04-23 2013-10-31 줌인터넷 주식회사 패킷미러링을 이용한 객체 수집 방법 및 시스템
CN102693304B (zh) * 2012-05-22 2014-10-22 北京邮电大学 一种搜索引擎的反馈信息处理方法及搜索引擎
WO2014078449A2 (en) * 2012-11-13 2014-05-22 Chen Steve Xi Intelligent information summarization and display
CN103136352B (zh) * 2013-02-27 2016-02-03 华中师范大学 基于双层语义分析的全文检索系统
CN103207920A (zh) * 2013-04-28 2013-07-17 北京航空航天大学 一种元数据并行采集系统
CN103927342A (zh) * 2014-03-28 2014-07-16 苏州中炎工贸有限公司 基于大数据的垂直搜索引擎系统
CN103955632B (zh) * 2014-05-07 2018-03-06 百度在线网络技术(北京)有限公司 网页文字的加密显示方法和装置
CN104077388A (zh) * 2014-06-27 2014-10-01 北京奇虎科技有限公司 基于搜索引擎的摘要信息提取方法、装置以及搜索引擎
CN104484379B (zh) * 2014-12-09 2018-06-12 百度在线网络技术(北京)有限公司 确定音乐实体关系的方法和装置及查询处理方法和装置
CN105786837A (zh) * 2014-12-22 2016-07-20 北京奇虎科技有限公司 一种小说网页智能摘要的生成方法与系统
US10534810B1 (en) 2015-05-21 2020-01-14 Google Llc Computerized systems and methods for enriching a knowledge base for search queries
CN106570004B (zh) * 2015-10-08 2021-03-30 北京国双科技有限公司 一种数据管理方法及装置
US11157920B2 (en) 2015-11-10 2021-10-26 International Business Machines Corporation Techniques for instance-specific feature-based cross-document sentiment aggregation
US10176264B2 (en) 2015-12-01 2019-01-08 Microsoft Technology Licensing, Llc Generating topic pages based on data sources
US11704551B2 (en) 2016-10-12 2023-07-18 Microsoft Technology Licensing, Llc Iterative query-based analysis of text
CN106550268B (zh) * 2016-12-26 2020-08-07 Tcl科技集团股份有限公司 视频处理方法和视频处理装置
CN106649760A (zh) * 2016-12-27 2017-05-10 北京百度网讯科技有限公司 基于深度问答的提问型搜索词搜索方法及装置
CN109327357B (zh) * 2018-11-29 2020-10-09 杭州迪普科技股份有限公司 应用软件的特征提取方法、装置及电子设备
CN110321471A (zh) * 2019-04-19 2019-10-11 四川政资汇智能科技有限公司 一种基于政策性资源汇聚的互联网科技金融智能匹配方法
CN111158924B (zh) * 2019-12-02 2023-09-22 百度在线网络技术(北京)有限公司 内容分享方法、装置、电子设备及可读存储介质
CN111241242B (zh) * 2020-01-09 2023-05-30 北京百度网讯科技有限公司 目标内容的确定方法、装置、设备及计算机可读存储介质
CN112559809A (zh) * 2020-12-21 2021-03-26 恩亿科(北京)数据科技有限公司 消费者多渠道数据整合方法、系统、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6526399B1 (en) * 1999-06-15 2003-02-25 Microsoft Corporation Method and system for grouping and displaying a database
CN1758245A (zh) * 2004-04-30 2006-04-12 微软公司 利用摘要来分类显示页的方法和系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6601026B2 (en) * 1999-09-17 2003-07-29 Discern Communications, Inc. Information retrieval by natural language querying
AU2003283172A1 (en) * 2003-12-09 2005-06-29 Swiss Reinsurance Company System and method for aggregation and analysis of decentralised stored multimedia data
US8005835B2 (en) * 2004-03-15 2011-08-23 Yahoo! Inc. Search systems and methods with integration of aggregate user annotations
WO2005089334A2 (en) * 2004-03-15 2005-09-29 Yahoo! Inc. Inverse search systems and methods
ATE467193T1 (de) * 2005-05-10 2010-05-15 Netbreeze Gmbh System und verfahren zur aggregation und überwachung von dezentralisiert gespeicherten multimediadaten
KR100698324B1 (ko) * 2005-12-07 2007-03-26 엘지전자 주식회사 Wap 컨텐츠를 mms 메시지를 통해 전송하는 장치 및방법
US9342588B2 (en) * 2007-06-18 2016-05-17 International Business Machines Corporation Reclassification of training data to improve classifier accuracy

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6526399B1 (en) * 1999-06-15 2003-02-25 Microsoft Corporation Method and system for grouping and displaying a database
CN1758245A (zh) * 2004-04-30 2006-04-12 微软公司 利用摘要来分类显示页的方法和系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015113306A1 (en) * 2014-01-30 2015-08-06 Microsoft Corporation Entity page generation and entity related searching

Also Published As

Publication number Publication date
US20090106203A1 (en) 2009-04-23
CN101452470A (zh) 2009-06-10

Similar Documents

Publication Publication Date Title
CN101452470B (zh) 摘要式网络搜索引擎系统及其搜索方法与应用
US6381593B1 (en) Document information management system
JP4436909B2 (ja) 名前をハイパーリンクするためのシステム、方法、及びソフトウェア
US7308464B2 (en) Method and system for rule based indexing of multiple data structures
US9146999B2 (en) Search keyword improvement apparatus, server and method
CN101399818B (zh) 基于导航路径信息的主题相关网页过滤方法和系统
US20080201314A1 (en) Method and apparatus for using multiple channels of disseminated data content in responding to information requests
US10423649B2 (en) Natural question generation from query data using natural language processing system
US9218414B2 (en) System, method, and user interface for a search engine based on multi-document summarization
CA2774278C (en) Methods and systems for extracting keyphrases from natural text for search engine indexing
KR101393839B1 (ko) 링크된 용어들을 포함하는 활성 요약들을 제공하는 검색시스템
JPWO2003046764A1 (ja) 情報解析方法及び装置
EP2307951A1 (en) Method and apparatus for relating datasets by using semantic vectors and keyword analyses
CN106777080B (zh) 短摘要生成方法、数据库建立方法及人机对话方法
JP2005063432A (ja) マルチメディアオブジェクト検索装置およびマルチメディアオブジェクト検索方法
Al-Khalifa et al. Folksonomies versus automatic keyword extraction: An empirical study
KR20040017824A (ko) 웹 문서와 리스트정보의 패턴을 이용한 패턴예상분석에따른 정보검색시스템
JP7395377B2 (ja) コンテンツ検索方法、装置、機器、および記憶媒体
CN108733687A (zh) 一种基于文字识别的信息检索方法和系统
JP2006529044A (ja) 定義付けシステムおよび方法
CN112507105A (zh) 一种基于微信公众号的多模智能问答系统及方法
JP3939477B2 (ja) データベース検索システムおよび方法、記録媒体
KR20090049433A (ko) 색상 키워드를 이용한 검색 방법 및 시스템
Lee et al. ScalableWeb News Adaptation To Mobile Devices Using Visual Block Segmentation for Ubiquitous Media Services
Wenyin et al. A media agent for automatically building a personalized semantic index of Web media objects

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Free format text: FORMER OWNER: XU YABO

Owner name: CANADA SODA CO., LTD.

Free format text: FORMER OWNER: SHI ZHONGMIN

Effective date: 20100819

Owner name: GUANGZHOU SUODA INFORMATION TECHNOLGY CO., LTD.

Free format text: FORMER OWNER: CANADA SODA CO., LTD.

Effective date: 20100819

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: VANCOUVER, CANADA TO: V6J5L2 ROOM 704, NO. 1768, WEST 8TH STREET, VANCOUVER CITY, BRITISH COLUMBIA PROVINCE, CANADA

Free format text: CORRECT: ADDRESS; FROM: V6J5L2 ROOM 704, NO. 1768, WEST 8TH STREET, VANCOUVER CITY, BRITISH COLUMBIA PROVINCE, CANADA TO: 510663 UNIT 1101, 11/F, DISTRICT C1, CHUANGXIN BUILDING, NO. 182, KEXUE STREET, SCIENCE CITY, NEW+HIGH TECHNOLOGY INDUSTRY DEVELOPMENT ZONE, GUANGZHOU CITY, GUANGDONG PROVINCE

TA01 Transfer of patent application right

Effective date of registration: 20100819

Address after: 510663, Guangdong hi tech Industrial Development Zone, Science Town, science Avenue 182, innovation building, C1 District, eleventh, 1101, Guangzhou

Applicant after: GUANGZHOU SUMMBA INFORMATION TECHNOLOGY Co.,Ltd.

Address before: V6J5L2 Room 704, 1768 West 8th Street, Vancouver, British Columbia, Canada

Applicant before: Canadian claims Limited by Share Ltd.

Effective date of registration: 20100819

Address after: V6J5L2 Room 704, 1768 West 8th Street, Vancouver, British Columbia, Canada

Applicant after: Canadian claims Limited by Share Ltd.

Address before: Vancouver, Canada

Applicant before: Shi Zhongmin

Co-applicant before: Xu Yabo

C14 Grant of patent or utility model
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20090610

Assignee: Jiaxing Xiaoda Intelligent Technology Co.,Ltd.

Assignor: GUANGZHOU SUMMBA INFORMATION TECHNOLOGY Co.,Ltd.

Contract record no.: X2023980033806

Denomination of invention: Abstract web search engine system and its search methods and applications

Granted publication date: 20120606

License type: Common License

Record date: 20230321

EE01 Entry into force of recordation of patent licensing contract