CN102929882A - 一种网页标题的抽取方法与装置 - Google Patents

一种网页标题的抽取方法与装置 Download PDF

Info

Publication number
CN102929882A
CN102929882A CN2011102276417A CN201110227641A CN102929882A CN 102929882 A CN102929882 A CN 102929882A CN 2011102276417 A CN2011102276417 A CN 2011102276417A CN 201110227641 A CN201110227641 A CN 201110227641A CN 102929882 A CN102929882 A CN 102929882A
Authority
CN
China
Prior art keywords
title
length
literal
web page
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011102276417A
Other languages
English (en)
Inventor
陈宏杰
张小洵
薛贵荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN2011102276417A priority Critical patent/CN102929882A/zh
Publication of CN102929882A publication Critical patent/CN102929882A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种网页标题抽取方法。该方法包括:确定检索词在网页标题中的位置;判断网页标题的首字符到所述检索词的末字符的长度是否小于等于预设标题呈现长度,如果否,则查找断句符,当网页标题中的一段文字的文字长度小于等于预设标题呈现长度且包含完整检索词和查找到的断句符时,将相应文字作为结果返回。本发明还提供了一种网页标题抽取装置。本发明呈现出来的网页标题,既具有较强的可读性和保留了较多的核心信息,又带有“标红”记号便于检索者快速获得检索内容。

Description

一种网页标题的抽取方法与装置
技术领域
本发明涉及检索技术领域,尤其涉及一种网页标题的抽取方法与装置。
背景技术
随着互联网技术的发展,网络信息呈爆炸性增长。在信息海洋中,人们为获得特定信息往往依赖信息检索技术。通过输入待了解信息的检索词,搜索引擎即可将包含该检索词内容呈现在检索者面前,呈现形式通常是以网页标题形式显示每个检索结果项,网页标题下附有一段包含检索词的简短文字,人们点击该标题便可方便地链接到包含检索词的详细页面。为加速查找与方便阅览,网页标题通常还将检索词进行“标红”处理。然而,网页标题作为获取特定信息的重要窗口,呈现在人们面前的网页标题不一定是真实标题的全部内容,标题中也可能不含检索词,从而也没有“标红”记号。这种情形在一些超长的网页标题中经常出现:由于搜索引擎无法将超长的网页标题全部显示出来,搜索引擎在搜出相关网页后,将按照预设的网页标题呈现长度对网页标题进行截断处理,即是从网页标题的起始位置算起,将预设呈现标题长度内的文字作为网页标题,丢弃后面的标题内容。尽管截断后的剩余标题从网页标题是从标题起始位置开始的一段文字,保持了较好的可读性,且大多数情况下也能保留下网页标题的核心信息。但是,当检索词出现在网页标题截断处之后时,网页标题中就没有“标红”信息,这些没有“标红”处理的网页标题将排序到整个搜索结果的靠后位置,妨碍了检索者快捷地获取欲检索的信息内容,大大降低了用户体验。
发明内容
有鉴于此,本发明的发明目的在于提供一种网页标题的抽取方法与装置,通过以检索词为中心查找检索词前后的断句符,将在断句符之间的包含检索词的文字作为结果返回,以确保呈现出来的网页标题既具有较强的可读性和尽可能保留核心信息,又能带有“标红”记号便于快速获得检索内容。
本发明提供的一种网页标题的抽取方法包括:
确定检索词在网页标题中的位置;
判断网页标题的首字符到所述检索词的末字符的长度是否小于等于预设标题呈现长度,如果是,则自网页标题起始位置度量预设标题呈现长度,将该对应位置前的文字作为结果返回;如果否,则查找断句符,当网页标题中的一段文字的文字长度小于等于预设标题呈现长度且包含完整检索词和查找到的断句符时,将相应文字作为结果返回。
优选地,所述查找到的断句符包括位于检索词之前的前断句符时,则:将网页标题中的文字长度小于等于预设标题呈现长度且包含完整检索词和前断句符的一段文字作为结果返回。
优选地,所述查找到的断句符包括位于检索词之后的后断句符时,则:将网页标题中的文字长度小于等于预设标题呈现长度且包含完整检索词和后断句符的一段文字作为结果返回。
优选地,所述查找到的断句符包括位于检索词之前的前断句符和位于检索词之后的后断句符时,则:将网页标题中的文字长度小于等于预设标题呈现长度且包含完整检索词、前断句符和后断句符的一段文字作为结果返回。
优选地,在将网页标题中的文字长度小于等于预设标题呈现长度且包含完整检索词和查找到的断句符的一段文字作为结果返回时,所述方法还包括:
从该段文字的首字符向前寻找第一位置,将第一位置到该段文字的首字符之间的文字同该段文字一起作为结果返回,所述第一位置到该段文字的末字符间的文字长度小于等于预设标题呈现长度;或,
从该段文字的末字符向后寻找第二位置,将该段文字的末字符到第二位置之间的文字同该段文字一起作为结果返回,所述第二位置到该段文字的首字符间的文字长度小于等于预设标题呈现长度;或,
从该段文字的首字符向前寻找第三位置,从该段文字的末字符向后寻找第四位置,将第三位置到该段文字的首字符之间的文字和该段文字的末字符到第四位置之间的文字同该段文字一起作为结果返回,所述第三位置到第四位置间的文字长度小于等于预设标题呈现长度。
优选地,所述方法还包括:当网页标题中不存在文字长度小于等于预设标题呈现长度且包含完整检索词和查找到的断句符的一段文字时,则:自网页标题起始位置度量预设标题呈现长度,将该对应位置前的文字作为结果返回。
本发明还提供了一种网页标题的抽取装置,该装置包括:
检索词位置确定单元、判断单元、断句符查找单元、第一匹配单元和结果返回单元,其中:
所述检索词位置确定单元,用于确定检索词在网页标题中的位置;
所述判断单元,用于判断网页标题的首字符到所述检索词的末字符间的文字长度是否小于等于预设标题呈现长度,如果是,则触发结果返回单元;如果否,则触发断句符查找单元;
所述断句符查找单元,用于查找断句符;
所述第一匹配单元,用于当网页标题中的一段文字的文字长度小于等于预设标题呈现长度且包含完整检索词和查找到的断句符时,触发结果返回单元。
所述结果返回单元,用于在受到判断单元触发时,自网页标题起始位置度量预设标题呈现长度,将该对应位置前的文字作为结果返回;在受到第一匹配单元触发时,将相应的文字作为结果返回。
优选地,所述断句符查找单元查找到的断句符包括位于检索词之前的前断句符和位于检索词之后的后断句符时,则:所述结果返回单元用于将网页标题中的文字长度小于等于预设标题呈现长度且包含完整检索词、前断句符和后断句符的一段文字作为结果返回。
优选地,所述结果返回单元在受到触发将网页标题中的文字长度小于等于预设标题呈现长度且包含完整检索词和查找到的断句符的一段文字作为结果返回时,该单元还用于:
从该段文字的首字符向前寻找第一位置,将第一位置到该段文字的首字符之间的文字同该段文字一起作为结果返回,所述第一位置到该段文字的末字符间的文字长度小于等于预设标题呈现长度时;或,
从该段文字的末字符向后寻找第二位置,将该段文字的末字符到第二位置之间的文字同该段文字一起作为结果返回,所述第二位置到该段文字的首字符到间的文字长度小于等于预设标题呈现长度时;或,
从该段文字的首字符向前寻找第三位置,从该段文字的末字符向后寻找第四位置,将第三位置到该段文字的首字符之间的文字和该段文字的末字符到第四位置之间的文字同该段文字一起作为结果返回,第三位置到第四位置间的文字长度小于等于预设标题呈现长度时。
优选地,所述装置还包括第二匹配单元,用于当网页标题中不存在文字长度小于等于预设标题呈现长度且包含完整检索词和查找到的断句符的一段文字时,触发结果返回单元,则:所述结果返回单元还用于在受到第二匹配单元触发时,自网页标题起始位置度量预设标题呈现长度,将该对应位置前的文字作为结果返回。
本发明的技术方案在确定检索词的位置后,首先判定网页标题的首字符到检索词的末字符间的文字长度是否小于等于预设标题呈现长度,如果否,则查找断句符,然后确定网页标题中是否存在文字长度小于等于预设标题呈现长度且包含完整检索词和查找到的断句符的一段文字,当满足该条件的文字块存在时,将其作为结果返回。与现有技术相比,本发明抛弃了无论检索词所处何位置均从网页标题起始位置计算预设标题呈现长度后截断标题的做法,而是以包含检索词、断句符且满足匹配条件的方式去呈现结果,这样既能保证呈现出来的网页标题具有较强的可读性和保留较多的核心信息,又能使网页标题带有“标红”记号,从而方便了检索者快速地获得欲检索内容,提高和改善了用户体验,解决了现有技术的技术问题。
附图说明
图1为本发明的方法的一个实施例的流程图;
图2为图1所示的实施例的一个网页标题抽取实例图;
图3为本发明的方法的又一个实施例的流程图;
图4为本发明的方法的再一个实施例的流程图;
图5为本发明的装置的实施例的组成框图。
具体实施方式
本发明的主要思想是:在确定检索词位置后,首先判定网页标题的首字符到检索词的末字符间的文字长度是否小于等于预设标题呈现长度,如果否,则查找断句符,然后确定网页标题中是否存在文字长度小于等于预设标题呈现长度且包含完整检索词和查找到的断句符的一段文字,当满足该条件的文字块存在时,将其作为结果返回。
为使本领域技术人员进一步了解本发明的特征及技术内容,下面结合附图和实施例,对本发明的技术方案进行详细描述。
检索者根据欲获取的信息选择好检索词后,将检索词输入检索框,搜索引擎通常很短的时间内即可在海量网页中找到关于该检索词的相关内容,这些内容将并不直接反馈给检索者,搜索引擎需要做一些处理操作,比如,提取检索网页的网页标题,对超长的网页标题进行截断,将网页标题中的检索词“标红”,对所有检索结果项进行排序等等。这些操作中需要关注的是:对超长网页标题进行截断的操作,网页标题截断后可能引起三种后果:(1)可读性变差:因为网页标题通常是完整的句子,表达某种完整含义,如果截断方法选择不当,被截断后的剩余标题内容将丢失某些信息,损害到原来语义的准确表达,从而影响可读性;(2)核心信息丢失:网页标题的核心信息通常反映在几个关键的词上,当网页标题很长时,有些文字可能是对另一些文字的注释、修饰,比如主标题与幅标题的关系,书名与书评的关系等,如果截断方法选择不当,很可能丢失掉网页标题的核心信息;(3)没有“标红”检索词:网页标题中有“标红”记号的是检索词,如果截断的位置选取不当,将含有检索词的部分给截掉,从而导致网页标题没有“标红”,这样不仅降低了用户体验,而且可能导致该项检索结果被排到所有检索结果的靠后位置。由此可见,在对网页标题进行截断处理时,需要同时兼顾到上述三方面的要求。现有技术的做法是从网页标题的起始位置算起,在预设标题呈现长度对应的文字处进行截断。这种做法通常能满足可读性要求,可读性是否好取决于文字是否流畅,人们的书写习惯从左至右、句子含义的呈现也是从左至右,因此,选取截断处前面的文字通常能表达出一个相对完整的意思。但是,该方法大多数情况下不能实现核心信息保留和“标红”的目的:按照语言表达习惯,写在前面的文字多是修饰限定性用语,核心内容往往在中间或靠后的位置出现,上述不考虑核心信息可能位置而均从起始位置开始算截断处,极有可能丢失核心信息;对于那些检索词靠后的网页标题,由于预设标题呈现长度的限制,检索词也可能给截断掉,导致没有“标红”。为解决上述技术问题,本发明的实施例提供了一种网页标题的抽取方法,该方法既能保证呈现出来的网页标题具有较强的可读性和保留较多的核心信息,又能使网页标题带有“标红”记号,从而方便检索者快速地获得欲检索内容,提高和改善用户体验。参见附图1,本发明的实施例给出的网页标题抽取方法包括:
步骤S101:确定检索词在网页标题中的位置;
检索词是用户输入的欲获取特定信息的关键词,搜索引擎通常会优先考虑将那些网页标题中包含检索词的网页给检索出来,因为这些网页描述该检索词相关内容的可能性极大;确定检索词在网页标题中的位置对于现在技术而言,实现起来并非难事,比如首先对网页标题进行分词,然后在进行逐一匹配,进而查找到检索词的位置;此处简要说明下“网页标题”的概念,网页标题并不仅仅指网页中文章的标题,而且包括在每个网页的标题栏处显示的“网页标题”,对于那些没有明显文章标题的网页,搜索引擎通常也能抓取到比较贴近该网页内容的语句,并将此作为网页标题,比如,对于网络上的论坛,大多数帖子可能并不包含文章标题,但此时,搜索引擎会将该帖子的主题作为网页标题显示在网页标题栏中,进而呈现在搜索结果列表上。
步骤S102:判断网页标题的首字符到所述检索词的末字符间的文字长度是否小于等于预设标题呈现长度,如果是,则执行步骤S102(a):自网页标题起始位置度量预设标题呈现长度,将该对应位置前的文字作为结果返回,结束流程;如果否,则执行步骤S102(b):查找断句符,进入步骤S103;
预设标题呈现长度是指在搜索结果列表中显示出来的网页标题,对于超长的网页标题,搜索引擎通常会进行预处理,仅呈现出合适长度的标题文字;该预设标题呈现长度尽管跟搜索引擎的技术水平有关,越好的搜索引擎显示的标题文字长度可能会越长,但均受限制,而网页标题的长度几乎没有限制,网民可以根据自己的喜欢编辑标题,因而,对于超长的标题通常均会涉及标题的截断问题;在确定了检索词在网页标题中的长度后,判断网页标题的首字符到检索词的末字符之间的长度,如果不大于预设标题呈现长度,即可从网页标题起始位置数到预设标题长度处进行截断,该截断下来的“剩余标题”包含有检索词,将出现“标红”,同时由于是从头到截断处,因此也能具有较好的可读性,预设标题长度的长度值也能较好地保证截断后的“剩余标题”保留核心信息;如果上述判断是否定的,仍采取上述的截断方法则不妥,这时本实施例选择查找该网页标题中的断句符,断句符起到断句的作用,包含断句符的文字通常能保留完整的文字含义,这里的“断句符”包括通常语言习惯中使用的各种标点符号,还包括一段文字开始的“段首控制符”和段尾的“段尾控制符”,如回车符,当在网页标题中未查找到别的“断句符”时,将以“段首控制符”或“段尾控制符”为断句符。
步骤S103:当网页标题中的一段文字的文字长度小于等于预设标题呈现长度且包含完整检索词和查找到的断句符时,将相应文字作为结果返回,结束流程。
由于断句符包含在网页标题之中,从关注整个网页标题到关注网页标题中包含检索词和断句符的小段文字块,关注的文字长度必然大为缩短,这样,包含检索词和断句符的文字块长度则存在极大的可能小于等于预设标题呈现长度;如果包含完整检索词和查找到的断句符的一段文字的文字长度小于等于预设标题呈现长度,则将该段文字作为结果返回,这样抽取得到的网页标题不仅可保持较好可读性、保留核心信息,而且具有“标红”的检索词。
本实施例的技术方案在确定检索词的位置后,首先判定网页标题的首字符到检索词的末字符间的文字长度是否小于等于预设标题呈现长度,如果否,则查找断句符,然后确定网页标题中是否存在文字长度小于等于预设标题呈现长度且包含完整检索词和查找到的断句符的一段文字,当满足该条件的文字块存在时,则将其作为结果返回。与现有技术相比,本发明抛弃了无论检索词所处何位置均从网页标题起始位置计算预设标题呈现长度后截断标题的做法,而是以判定包含检索词、断句符一段文字匹配相应条件的方式去呈现结果,这样既能保证呈现出来的网页标题具有较强的可读性和保留较多的核心信息,又能使网页标题带有“标红”记号,从而方便了检索者快速地获得欲检索内容,提高和改善了用户体验,解决了现有技术的技术问题。
为进一步阐释上述实施例,下面举例说明。参见附图2所示的实例图,假设检索者想了解有关专利法书籍的信息,设定检索词为“专利法”,海量网页信息中恰好存在这样的一篇评论文章:国家知识产权局尹新天的《中国专利法详解》市价越来越趋向合理。搜索引擎根据“专利法”这一检索词搜索出该文章后,将上述标题长度(29个字符)与预设标题呈现长度进行比较,通常而言,预设标题长度可达到几十甚至上百的长度,如果网页标题长度小于预设标题长度则将上述标题呈现出来,标题中的“专利法”三字被标红,并在该标题下面呈现相关文字,检索者点击标题即可获得该篇文章全文。为方便阐释本发明实施例起见,这里的预设标题呈现长度为14个字符。按照现有技术的做法,由于网页标题长29个字符,大于预设的标题长度,搜索引擎将从该文章标题的起始位置起算14个字符后截断,并将截断处前的文字作为网页标题呈现出来,即网页标题为:“国家知识产权局尹新天的《中国”。该呈现出来的标题文字顺序自左向右,我们能够容易的知道“剩余标题”的含义,也可以获知一定的核心信息,如“尹新天”、“中国”,但是,该呈现出来的网页标题截断了检索词,没有“标红”记号,降低了用户体验,且该网页将被搜索引擎排序到靠后的位置,然而该文章和检索者需要检索的主题有较大的相关性,顺序靠前将有利于检索者迅速发现该文章,提高用户检索体验。为解决上述问题,本实施例首先在网页标题中确定检索词“专利法”的位置,然后判断网页标题首字符到检索词的末字符的长度是否小于等于预设标题呈现长度,即判断“国”到“法”的长度是否小于等于14个字符,“国”到“法”共17个字符,显然大于预设标题长度,这时,则从检索词“专利法”向前向后查找断句符,向前查找到断句符“《”,向后查找到断句符“》”,然后再判断前断句符到后断句符间的长度是否小于等于预设标题呈现长度,即判断“《”到“》”之间的文字长度是否小于等于14个字符,“《”到“》”间共7个字符,显然小于预设标题长度,这时,则将前断句符“《”到后断句符“》”间的“中国专利法详解”作为结果返回,该返回的结果中包含了检索词“专利法”,且被“标红”,同时该结果具有较好的可读性,也保留下核心信息,如“中国”、“专利法”。
上述所举的具体事例中,为方便理解,我们将查找到的断句符设定为既包括位于检索词之前的前断句符,又包括位于检索词之后的后断句符,且在判定网页标题中是否存在一段文字的文字长度小于等于预设标题呈现长度时,所述的一段文字的起点是前断句符、终点是后断句符,并将两个断句符间的文字作为结果返回。这里需要说明的是:(1)对于查找断句符的方式问题,实际上,本发明并不限定必须像上述实例中向两个方向同时查找两个断句符,查找的方向可以仅是由检索词向前查找前断句符,也可以仅是由检索词向后查找后断句符,甚至还可以从网页标题的起始位置开始查找前后断句符,抑或从网页标题的结束位置开始查找亦无不可,无论采取哪种查找方式,其最终的目的在于找到断句符,以便于进行下一步的条件匹配操作;(2)对于返回的一段文字的起点、终点问题,实际上,本发明同样不限定必须像上述实例中以断句符为起始和终结位置,根据现实需要,完全可以将前断句符再靠前的一个或数个字符所在位置作为该一段文字的起点,或者将后断句符再靠后的一个或数个字符所在位置作为该一段文字的终点,只要该段文字包含检索词和至少一个断句符,且该段文字的文字长度满足小于等于预设标题呈现长度的条件,均不妨碍本发明的发明目的的实现,阅读本专利的人员可以这样形象地理解上述内容:以小于等于预设标题呈现长度的长度值做一个方框,只要这个方框框到的文字包含检索词和至少一个断句符,则可将相应的文字作为结果返回。
因此,在上述实施例的步骤S103中,不仅可以具体化为前断句符到后断句符间的文字长度与预设标题呈现长度之间的关系,实际上,如果将步骤S103具体化为前断句符到检索词末字符间的文字长度、检索词首字符到后断句符间的文字长度与预设标题呈现长度进行比较同样能实现本发明的发明目的,即当前断句符到检索词末字符间的文字长度小于等于预设标题呈现长度且包含检索词和前断句符,或,当检索词首字符到后断句符间的文字长度小于等于预设标题呈现长度且包含检索词和后断句符,将相应的文字作为结果返回。
尽管前述实施例通过比较符合匹配条件的一段文字的文字长度与预设标题呈现长度间大小的方式已能实现本发明的发明目的,较好地解决现有技术的问题。但是,我们能够发现:作为结果返回的一段文字可能比预设标题长度小很多,比如上例中预设标题长度为14个字符,而呈现出来的网页标题仅7个字符,对于剩余的7个字符的位置实际上被“废弃”,这样导致呈现预设标题的信息量较少,一个可靠的办法是在上述结果基础上进行文字追加,使得返回的结果尽可能接近甚至等于预设标题的长度,检索者由此仅仅通过标题便可获知更多关于检索词的信息。有鉴于此,本发明还构建出符合上述描述的又一个实施例。参见附图2和3所示,该实施例在上述实施例将符合匹配条件的一段文字作为结果返回时,从该段文字的首字符向前寻找第一位置,将第一位置到该段文字之间的文字同该段文字一起作为结果返回,所述第一位置为第一位置到该段文字的末字符间的文字长度小于等于预设长度时对应的位置。下面仍以前述实例进行说明:通过查找前后的“断句符”得到“中国专利法详解”后,将该结果返回时,由前断句符“《”向前继续查找第一位置,该第一位置到后断句符间的文字长度小于等于预设长度14个字符,查找到“产”字时满足上述要求,这时将“产”字到前断句符间的文字“产权局尹新天的”与先前的“中国专利法详解”一起作为结果返回,即呈现出来的网页标题为“产权局尹新天的中国专利法详解”,这样则在预设标题呈现长度范围内最大限度内呈现出专利法的相关信息,有利于检索者仅仅根据该网页标题就能获知更多需要内容。
同样的道理,除可以由作为结果返回的一段文字的首字符向前查找第一位置外(方式一),还可以由该段文字的末字符向后查找第二位置(方式二),也能充分利用预设标题呈现长度与前述实施例返回结果文字长度间的差值长度。该过程如下:在将网页标题中的文字长度小于等于预设标题呈现长度且包含完整检索词和查找到的断句符的一段文字作为结果返回时,从后该段文字的末字符向后寻找第二位置,将该段文字末字符到第二位置之间的文字同该段文字一起作为结果返回,所述第二位置为该段文字首字符到第二位置间的文字长度小于等于预设长度时对应的位置。
实际上,上述或向前或向后的两种查找差值长度的字符填补预设标题呈现长度的做法还可联合使用,即向前查找一定长度的字符,向后查找一定长度的字符,使得三段字符串的总和长度等于预设标题呈现长度,即第三位置到该段文字首字符的文字长度+该段文字的文字长度+该段文字的末字符到第四位置间的文字长度<=预设标题呈现长度,这里的第三位置和第四位置为第三位置到第四位置间的文字长度小于等于预设标题呈现长度时对应的位置。实际搜索引擎可以根据需要选择上述三种方式中的任何一种,均不妨碍本发明的发明目的的实现。
在前述的两个实施例中,主要关注了网页标题中包含检索词和断句符的一段文字的文字长度小于等于预设标题呈现长度的情况,这种情形在实际应用场合占据大部分,原因在于预设标题长度通常其本身较长,而网页标题内的断句符仅是网页标题中的一部分文字,因此包含检索词和断句符间的文字大多数时候能够满足小于预设标题长度的要求。然而,本发明对于文字长度大于预设标题呈现长度的情况同样进行了考虑,由此构成本发明的再一个实施例。当包含检索词和断句符的一段文字的文字长度小于等于预设标题呈现长度时,处理的方式与前述两个实施例相同,当含检索词和断句符的一段文字的文字长度大于预设标题呈现长度时,本实施例按照现有技术的方式处理,参见附图4,比如:自网页标题起始位置度量预设标题呈现长度,将该对应位置前的文字作为结果返回。
上述介绍的几个实施例均是本发明的方法的实施例,相应地,本发明还提供了一种网页标题提取装置的实施例。参见附图5,本发明提供的网页标题抽取装置的实施例500包括:检索词位置确定单元501、判断单元502、断句符查找单元503、第一匹配单元504和结果返回单元505,其中:
检索词位置确定单元501,用于确定检索词在网页标题中的位置;
判断单元502,用于判断网页标题的首字符到所述检索词的末字符间的长度是否小于等于预设标题呈现长度,如果是,则触发结果返回单元;如果否,则触发断句符查找单元;
断句符查找单元503,用于查找断句符;
第一匹配单元504,用于当网页标题中的一段文字的文字长度小于等于预设标题呈现长度且包含完整检索词和查找到的断句符时,触发结果返回单元。
结果返回单元505,用于在受到判断单元触发时,自网页标题起始位置度量预设标题呈现长度,将该对应位置前的文字作为结果返回;在受到第一匹配单元触发时,将相应的文字作为结果返回。
本装置实施例500的工作过程是:检索词位置确定单元501确定检索词在网页标题中的位置后,由判断单元502判断网页标题的首字符到所述检索词的末字符间的长度是否小于等于预设标题呈现长度,如果是,则触发结果返回单元505,由该单元自网页标题起始位置度量预设标题呈现长度,将该对应位置前的文字作为结果返回;如果否,则触发断句符查找单元503查找断句符,然后由第一匹配单元504在网页标题中的一段文字的文字长度小于等于预设标题呈现长度且包含完整检索词和查找到的断句符时触发结果返回单元505,由该单元将相应的文字作为结果返回。
本装置实施例500在确定检索词的位置后,首先判定网页标题的首字符到检索词的末字符间的文字长度是否小于等于预设标题呈现长度,如果否,则查找断句符,然后确定网页标题中是否存在文字长度小于等于预设标题呈现长度且包含完整检索词和查找到的断句符的一段文字,当满足该条件的文字块存在时,将其作为结果返回。与现有技术相比,本实施例抛弃了无论检索词所处何位置均从网页标题起始位置计算预设标题呈现长度后截断标题的做法,而是以检索词为中心、断句符为截断点的方式去呈现结果,这样既能保证呈现出来的网页标题具有较强的可读性和保留较多的核心信息,又能使网页标题带有“标红”记号,从而方便用户快速地获得欲检索内容,提高和改善了用户体验。
本装置实施例的断句符查找单元查找断句符可以仅是位于检索词之前的前断句符,也可以仅是位于检索词之后的后断句符,还可以既包括前断句符,又包括后断句符。当所述断句符查找单元503查找到的断句符包括位于检索词之前的前断句符和位于检索词之后的后断句符时,则:结果返回单元505用于将网页标题中的文字长度小于等于预设标题呈现长度且包含完整检索词、前断句符和后断句符的一段文字作为结果返回。
本装置实施例的结果返回单元505除具有上述的功能外,在受到触发将网页标题中的文字长度小于等于预设标题呈现长度且包含完整检索词和查找到的断句符的一段文字作为结果返回时,还可以用于:从该段文字的首字符向前寻找第一位置,将第一位置到该段文字的首字符之间的文字同该段文字一起作为结果返回,所述第一位置为第一位置到该段文字的末字符间的文字长度小于等于预设标题呈现长度时对应的位置;或,
从该段文字的末字符向后寻找第二位置,将该段文字的末字符到第二位置之间的文字同该段文字一起作为结果返回,所述第二位置为该段文字的首字符到第二位置间的文字长度小于等于预设标题呈现长度时对应的位置;或,
从该段文字的首字符向前寻找第三位置,从该段文字的末字符向后寻找第四位置,将第三位置到该段文字的首字符之间的文字和该段文字的末字符到第四位置之间的文字同该段文字一起作为结果返回,所述第三位置和第四位置为第三位置到第四位置间的文字长度小于等于预设标题呈现长度时对应的位置。上述新增加的功能使得本发明的装置实施例得以进一步优化,充分利用预设标题呈现长度与初始返回的一段文字的长度的差值长度,进而更多地呈现出与检索词相关的内容信息。
本装置实施例还可以包括第二匹配单元506,该单元用于当网页标题中不存在文字长度小于等于预设标题呈现长度且包含完整检索词和查找到的断句符的一段文字时,触发结果返回单元,此时的结果返回单元还用于在受第二匹配单元触发时,自网页标题起始位置度量预设标题呈现长度,将该对应位置前的文字作为结果返回。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在发明的保护范围之内。

Claims (10)

1.一种网页标题的抽取方法,其特征在于,该方法包括:
确定检索词在网页标题中的位置;
判断网页标题的首字符到所述检索词的末字符间的文字长度是否小于等于预设标题呈现长度,如果是,则自网页标题起始位置度量预设标题呈现长度,将该对应位置前的文字作为结果返回;如果否,则:
查找断句符,当网页标题中的一段文字的文字长度小于等于预设标题呈现长度且包含完整检索词和查找到的断句符时,将所述一段文字作为结果返回。
2.根据权利要求1所述的方法,其特征在于,当所述查找到的断句符包括位于检索词之前的前断句符时,则:将网页标题中的文字长度小于等于预设标题呈现长度且包含完整检索词和前断句符的一段文字作为结果返回。
3.根据权利要求1所述的方法,其特征在于,当所述查找到的断句符包括位于检索词之后的后断句符时,则:将网页标题中的文字长度小于等于预设标题呈现长度且包含完整检索词和后断句符的一段文字作为结果返回。
4.根据权利要求1所述的方法,其特征在于,当所述查找到的断句符包括位于检索词之前的前断句符和位于检索词之后的后断句符时,则:将网页标题中的文字长度小于等于预设标题呈现长度且包含完整检索词、前断句符和后断句符的一段文字作为结果返回。
5.根据权利要求1所述的方法,其特征在于,在将网页标题中的文字长度小于等于预设标题呈现长度且包含完整检索词和查找到的断句符的一段文字作为结果返回时,该方法还包括:
从该段文字的首字符向前寻找第一位置,将第一位置到该段文字的首字符之间的文字同该段文字一起作为结果返回,所述第一位置到该段文字的末字符间的文字长度小于等于预设标题呈现长度;或,
从该段文字的末字符向后寻找第二位置,将该段文字的末字符到第二位置之间的文字同该段文字一起作为结果返回,所述第二位置到该段文字的首字符间的文字长度小于等于预设标题呈现长度;或,
从该段文字的首字符向前寻找第三位置,从该段文字的末字符向后寻找第四位置,将第三位置到该段文字的首字符之间的文字和该段文字的末字符到第四位置之间的文字同该段文字一起作为结果返回,所述第三位置到第四位置间的文字长度小于等于预设标题呈现长度。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:当网页标题中不存在文字长度小于等于预设标题呈现长度且包含完整检索词和查找到的断句符的一段文字时,则:自网页标题起始位置度量预设标题呈现长度,将该对应位置前的文字作为结果返回。
7.一种网页标题的抽取装置,其特征在于,该装置包括:
检索词位置确定单元、判断单元、断句符查找单元、第一匹配单元和结果返回单元,其中:
所述检索词位置确定单元,用于确定检索词在网页标题中的位置;
所述判断单元,用于判断网页标题的首字符到所述检索词的末字符间的文字长度是否小于等于预设标题呈现长度,如果是,则触发结果返回单元;如果否,则触发断句符查找单元;
所述断句符查找单元,用于查找断句符;
所述第一匹配单元,用于当网页标题中的一段文字的文字长度小于等于预设标题呈现长度且包含完整检索词和查找到的断句符时,触发结果返回单元。
所述结果返回单元,用于在受到判断单元触发时,自网页标题起始位置度量预设标题呈现长度,将该对应位置前的文字作为结果返回;在受到第一匹配单元触发时,将相应文字作为结果返回。
8.根据权利要求7所述的装置,其特征在于,当所述断句符查找单元查找到的断句符包括位于检索词之前的前断句符和位于检索词之后的后断句符时,则:所述结果返回单元用于将网页标题中的文字长度小于等于预设标题呈现长度且包含完整检索词、前断句符和后断句符的一段文字作为结果返回。
9.根据权利要求7所述的装置,其特征在于,所述结果返回单元在受到触发将网页标题中的文字长度小于等于预设标题呈现长度且包含完整检索词和查找到的断句符的一段文字作为结果返回时,该单元还用于:
从该段文字的首字符向前寻找第一位置,将第一位置到该段文字的首字符之间的文字同该段文字一起作为结果返回,所述第一位置到该段文字的末字符间的文字长度小于等于预设标题呈现长度;或,
从该段文字的末字符向后寻找第二位置,将该段文字的末字符到第二位置之间的文字同该段文字一起作为结果返回,所述第二位置到该段文字的首字符间的文字长度小于等于预设标题呈现长度;或,
从该段文字的首字符向前寻找第三位置,从该段文字的末字符向后寻找第四位置,将第三位置到该段文字的首字符之间的文字和该段文字的末字符到第四位置之间的文字同该段文字一起作为结果返回,所述第三位置到第四位置间的文字长度小于等于预设标题呈现长度。
10.根据权利要求7所述的装置,其特征在于,所述装置还包括第二匹配单元,用于当网页标题中不存在文字长度小于等于预设标题呈现长度且包含完整检索词和查找到的断句符的一段文字时,触发结果返回单元,则:所述结果返回单元还用于在受到第二匹配单元触发时,自网页标题起始位置度量预设标题呈现长度,将该对应位置前的文字作为结果返回。
CN2011102276417A 2011-08-09 2011-08-09 一种网页标题的抽取方法与装置 Pending CN102929882A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011102276417A CN102929882A (zh) 2011-08-09 2011-08-09 一种网页标题的抽取方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011102276417A CN102929882A (zh) 2011-08-09 2011-08-09 一种网页标题的抽取方法与装置

Publications (1)

Publication Number Publication Date
CN102929882A true CN102929882A (zh) 2013-02-13

Family

ID=47644682

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011102276417A Pending CN102929882A (zh) 2011-08-09 2011-08-09 一种网页标题的抽取方法与装置

Country Status (1)

Country Link
CN (1) CN102929882A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103150368A (zh) * 2013-03-07 2013-06-12 青岛海信电器股份有限公司 信息搜索及显示方法和装置
CN104331472A (zh) * 2014-11-03 2015-02-04 百度在线网络技术(北京)有限公司 分词训练数据的构造方法和装置
CN106708813A (zh) * 2015-07-14 2017-05-24 阿里巴巴集团控股有限公司 一种标题处理方法及设备
CN107784119A (zh) * 2017-11-16 2018-03-09 郑州云海信息技术有限公司 一种解决sap系统中特征名称字数限制的方法
CN109241079A (zh) * 2018-08-31 2019-01-18 努比亚技术有限公司 问题精确检索的方法、移动终端及计算机存储介质
CN110489543A (zh) * 2019-08-14 2019-11-22 北京金堤科技有限公司 一种新闻摘要的提取方法及装置
CN111160003A (zh) * 2018-11-07 2020-05-15 北京猎户星空科技有限公司 一种断句方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070233465A1 (en) * 2006-03-20 2007-10-04 Nahoko Sato Information extracting apparatus, and information extracting method
CN101458718A (zh) * 2009-01-05 2009-06-17 北京大学 一种搜索引擎动态摘要提取方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070233465A1 (en) * 2006-03-20 2007-10-04 Nahoko Sato Information extracting apparatus, and information extracting method
CN101458718A (zh) * 2009-01-05 2009-06-17 北京大学 一种搜索引擎动态摘要提取方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103150368A (zh) * 2013-03-07 2013-06-12 青岛海信电器股份有限公司 信息搜索及显示方法和装置
CN104331472A (zh) * 2014-11-03 2015-02-04 百度在线网络技术(北京)有限公司 分词训练数据的构造方法和装置
CN104331472B (zh) * 2014-11-03 2018-01-30 百度在线网络技术(北京)有限公司 分词训练数据的构造方法和装置
CN106708813A (zh) * 2015-07-14 2017-05-24 阿里巴巴集团控股有限公司 一种标题处理方法及设备
CN107784119A (zh) * 2017-11-16 2018-03-09 郑州云海信息技术有限公司 一种解决sap系统中特征名称字数限制的方法
CN109241079A (zh) * 2018-08-31 2019-01-18 努比亚技术有限公司 问题精确检索的方法、移动终端及计算机存储介质
CN111160003A (zh) * 2018-11-07 2020-05-15 北京猎户星空科技有限公司 一种断句方法及装置
CN111160003B (zh) * 2018-11-07 2023-12-08 北京猎户星空科技有限公司 一种断句方法及装置
CN110489543A (zh) * 2019-08-14 2019-11-22 北京金堤科技有限公司 一种新闻摘要的提取方法及装置

Similar Documents

Publication Publication Date Title
CN102929882A (zh) 一种网页标题的抽取方法与装置
US6173251B1 (en) Keyword extraction apparatus, keyword extraction method, and computer readable recording medium storing keyword extraction program
CN109144954B (zh) 编辑文档的资源推荐方法、装置及电子设备
CN109726274B (zh) 问题生成方法、装置及存储介质
US9367605B2 (en) Abstract generating search method and system
JP4640591B2 (ja) 文書検索装置
CN102722498B (zh) 搜索引擎及其实现方法
US20150363495A1 (en) System and method for presenting search extract title
CN102591475A (zh) 一种在线编辑器的内容输入方法及系统
CN106156111B (zh) 专利文件检索方法、装置和系统
CN102385621A (zh) 一种基于输入法界面实现文档索引的方法及系统
CN105653571A (zh) 书签存储及书签操作指令的响应方法、浏览器
CN103778122A (zh) 搜索方法和系统
CN105989058A (zh) 一种汉语新闻摘要生成系统及方法
US20040158558A1 (en) Information processor and program for implementing information processor
CN105488113B (zh) 论文的搜索方法、装置及搜索引擎
CN106294875B (zh) 一种命名实体模糊检索方法与系统
KR101401250B1 (ko) 전자문서에 대한 키워드맵 제공 방법 및 이를 위한 키워드맵 제공 프로그램을 기록한 컴퓨터로 판독가능한 기록매체
US7043689B2 (en) Managing zero-width markers
US6620207B1 (en) Method and apparatus for processing chinese teletext
CN107203546B (zh) 一种文本展示方法和装置
CN114297143A (zh) 一种搜索文件的方法、显示文件的方法、装置及移动终端
JPH0934911A (ja) 情報検索装置
US20240411829A1 (en) Interaction method and apparatus, computer device, and storage medium
CN117436421A (zh) 一种标准文件编辑系统、方法及设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1176144

Country of ref document: HK

RJ01 Rejection of invention patent application after publication

Application publication date: 20130213

RJ01 Rejection of invention patent application after publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: WD

Ref document number: 1176144

Country of ref document: HK