CN100514323C - 用于自动提取副标题信息的系统和方法 - Google Patents

用于自动提取副标题信息的系统和方法 Download PDF

Info

Publication number
CN100514323C
CN100514323C CNB2006101357007A CN200610135700A CN100514323C CN 100514323 C CN100514323 C CN 100514323C CN B2006101357007 A CNB2006101357007 A CN B2006101357007A CN 200610135700 A CN200610135700 A CN 200610135700A CN 100514323 C CN100514323 C CN 100514323C
Authority
CN
China
Prior art keywords
title
document
potential
metatag
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2006101357007A
Other languages
English (en)
Other versions
CN1955952A (zh
Inventor
马德胡卡尔·R·考鲁波鲁
斯蒂芬·迪尔
安德鲁·S.·托姆金斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN1955952A publication Critical patent/CN1955952A/zh
Application granted granted Critical
Publication of CN100514323C publication Critical patent/CN100514323C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99932Access augmentation or optimizing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及用于自动提取副标题信息的系统和方法。具体公开了一种在被爬行的文档中自动提取副标题信息的、由处理器实现的方法,包括如下步骤:输入文档,其中所述文档包括题目元标签;从文档除去格式标签以产生文档的去标签版本;从文档的题目元标签的子字符串及子字符串的二元语法模型和n元语法模型中检测文档的潜在标题的集合;按照所述潜在标题的长度的顺序对潜在标题进行评估,以从所述潜在标题的集合中选择候选标题;以及利用选择的候选标题的位置,从文档的去标签版本中提取副标题信息。通过本发明系统不要求每个站点定制并且具有很高的准确性,并且,当副标题信息可用时,可以进行再调用。

Description

用于自动提取副标题信息的系统和方法
技术领域
本发明总体上涉及对电子文档的文本分析。更具体地说,本发明涉及对电子文档中的副标题(by-line)进行识别和指定,从而能够根据副标题信息来定位文章。
背景技术
作为例如在线新闻文章的信息的大型资料库,万维网正在不断发展。在线新闻文章是世界范围内的信息和事件的有用资源。在提供在线新闻文章的网站的数量方面以及在每个网站提供的文章的数量方面,可从web上获得的在线新闻文章的数量正在迅速增加。估计在线新闻资源如web上的杂志和报纸超过10000。在世界范围内,在线新闻资源包括本地新闻资源、地区新闻资源以及国家新闻资源。这些新闻资源迎合不同的话题,如国际新闻、国家新闻、本地新闻、经济新闻、科技新闻、及体育新闻等。
新闻资源包括也在线出现的印刷媒体。这些新闻资源每日、每月发表新闻文章,有时使较早的文章可用于存档访问。新闻资源也包括只通过web提供新闻文章的非印刷媒体站点。
在每天出现这样大量新闻文章的情况下,拥有能够从这些新闻文章中提取有意义的信息并且使提取的信息可以为用户所用的自动化的技术和系统正变得日益有用。这种被提取的信息可以简化导航和搜索任务。这些自动系统(例如搜索引擎)通常在web上定期爬行(crawl)、抽取网页、并且对网页的内容进行分析。
对于任何这样的系统而言,一种有用的任务是能够对每篇新闻文章提取副标题。副标题是出现在文章或报道的开始之处的行,通常包括作者、日期、来源、位置等。副标题信息对于在新闻文章中进行基本搜索和导航都是有用的。在对文章的内容进行趋向分析方面,副标题也是有用的。
以下形式的查询:
显示由作者X写的新闻文章,
显示由作者X写的关于关键字Y的新闻文章,
显示由作者X在日期D写的新闻文章,或者
显示在日期D的关于关键字Y的新闻文章
包括对大型新闻文章资料库进行搜索和导航的基本方法。对副标题信息的查询需要知道在被爬行的网页上的文章的日期和作者。另外,对一个话题的任何类型的时间趋向分析都需要知道关于该话题的每篇新闻文章的创作日期。
在常规的印刷的报纸中,或者当被人阅览时,在文章标题之下或之上出现的小行字中很容易看到副标题信息。这些小行字将文章的作者与日期并可能将来源或地点一起列出。但是,从网页的html源中自动发现副标题信息是困难的,这是由于不知道副标题的位置。副标题不被明确地提及或标出。另外,被爬行的网页具有围绕核心文章的其它项目和模板。在副标题之前和之后,可能有其它日期和人名。基于位置选择任何日期或名字通常不能为所考虑的文章提供期望的副标题信息。另外,不同网站使用不同的呈现副标题信息的模式,并且,这些模式会随时间变化。
一种传统的方法使用由某些网站在http标题中提供的、表示该页被最后修改的日期的“最后修改日期”。但是,网页经常包括动态内容,如广告或其它模板。因此,最后修改日期对应于广告或其它模板,而不是核心文章的原始日期。因此,对多数站点,“最后修改日期”不可靠。
另一种传统方法使用馈送(feed),例如丰富站点摘要(rich sitesummary,RSS)馈送或者资源描述框架(resource descriptionframework,RDF)馈送。馈送通常包括希望的副标题信息。但是,不是所有新闻站点都提供馈送;在馈送中提供的信息取决于内容提供者的意愿,并且,某些提供者不提供副标题信息。即使提供时,馈送也不是免费的,或者不能被网页分析系统进行商业上的使用。另外,馈送可能只能用于当前的文章而不能用于较早的、已经存档的文章。因此,在分析中,希望对网页的爬行包括较早的文章。
另一种传统方法寻找关键字模式,如“By:*”或者“Composedby:*”,以识别作者。关键字模式,如“Published On:*”或者“SubmittedOn:*”被用于识别日期。这种方法对某些站点很好用,但是该方法是受到限制的,因为每个站点的关键词模式是不同的。对许多站点来说,在作者/日期之前没有关键字。例如,副标题可能仅包括“Jhon Crameron Apr 4,2005”。
因此,需要一种用于自动提取副标题信息的系统、计算机程序产品以及相关方法。对这样的方案的需求至今还未被满足。
发明内容
本发明满足了这种需求,并且提出了用于自动提取副标题的系统、计算机程序产品和相关方法(以下集中起来称为“系统”或“本系统”)。
根据本发明的一方面,提供了一种在被爬行的文档中自动提取副标题信息的、由处理器实现的方法,包括如下步骤:输入文档,其中所述文档包括题目元标签;从文档除去格式标签以产生文档的去标签版本;从文档的题目元标签的子字符串及子字符串的二元语法模型和n元语法模型中检测文档的潜在标题的集合,所述检测文档的潜在标题的集合的步骤还包括根据题目元标签构成潜在标题的集合并按照所述题目元标签中的所有标点符号将所述题目元标签分开,产生所述题目元标签的子字符串的集合,将子字符串的多个二元语法模型和子字符串的多个n元语法模型中的任何一个加到潜在标题的集合;按照所述潜在标题的长度的顺序对潜在标题进行评估,以从所述潜在标题的集合中选择候选标题;以及利用选择的候选标题的位置,从文档的去标签版本中提取副标题信息。
根据本发明的另一方面,提供了一种在被爬行的文档中自动提取副标题信息的、由处理器实现的系统,包括:输入文档模块,其中所述文档包括题目元标签;去标签版本产生模块,从文档除去格式标签以产生文档的去标签版本;标题检测模块,用于从文档的题目元标签的子字符串及子字符串的二元语法模型和n元语法模型中检测文档的潜在标题的集合,所述标题检测模块还包括根据题目元标签构成所述潜在标题的集合并通过按照所述题目元标签中的所有标点符号将所述题目元标签分开,产生所述题目元标签的子字符串集合,来构成所述潜在标题的集合,所述标题检测模块还将所述子字符串的多个二元语法模型和所述子字符串的多个n元语法模型中的任何一个加到所述潜在标题的集合;标题评估模块,用于按照所述潜在标题的长度的顺序对潜在标题进行评估,以从所述潜在标题的集合中选择候选标题;以及副标题提取模块,用于利用选择的候选标题的位置,从文档的去标签版本中提取副标题信息。
根据本发明的又一方面,提供了一种在被爬行的文档中自动提取副标题信息的、由处理器实现的服务,包括如下步骤:接收文档;调用自主硬件配置实用程序,其中,通过以下步骤使文档可用于自主硬件配置实用程序以便在文档中自动提取副标题信息:输入文档,其中所述文档包括题目元标签;从文档除去格式标签以产生文档的去标签版本;从文档的题目元标签的子字符串及子字符串的二元语法模型和n元语法模型中检测文档的潜在标题的集合,所述检测文档的潜在标题的集合的步骤还包括根据题目元标签构成潜在标题的集合并按照所述题目元标签中的所有标点符号将所述题目元标签分开,产生所述题目元标签的子字符串的集合,将子字符串的多个二元语法模型和子字符串的多个n元语法模型中的任何一个加到潜在标题的集合;按照所述潜在标题的长度的顺序对潜在标题进行评估,以从所述潜在标题的集合中选择候选标题;以及利用选择的候选标题的位置,从文档的去标签版本中提取副标题信息。
在本发明中,所述评估包括在被爬行的文档的去标签(de-tagged)版本中,识别正在被评估的所选择的候选标题的位置。所述评估还包括检验所选择的候选标题在去标签内容中的被识别位置包括完整的行。所述评估还包括检验所选择的候选标题的长度超过去标题内容中的最小长度。所述评估还包括确保所选择的候选标题包括文档的去标签版本中的规则文本。
本系统通过利用被选择的候选标题的位置,提取位于距潜在标题的位置的最短距离内的、代表日期的字符串,从文档中提取副标题信息。本系统还通过提取位于距潜在标题的位置的最短距离内的、代表名字的字符串,从文档中提取副标题信息。本系统还通过提取位于距潜在标题的位置的最短距离内的、代表文档来源的字符串,从文档中提取副标题信息。
附图说明
以下将参照详细说明、权利要求和附图,对本发明的各种特性以及实现它们的方法进行详细描述,其中,在适当的地方,重复使用附图标记,以表示被引用的项目之间的对应性,其中:
图1为可以使用本发明的副标题提取系统的典型操作环境的示意图;
图2为图1的副标题提取系统的高层结构的框图;
图3为说明图1和2的副标题提取系统的操作方法的处理流程图;
图4代表说明图1和2的副标题提取系统的标题检测模块的操作方法的处理流程图;并且
图5包括图5A和5B,并且代表说明图1和2的副标题提取系统的标题评估模块的操作方法的处理流程图。
具体实施方式
以下的定义和解释提供了有关本发明的技术领域的背景信息,并且,其意图在于帮助理解本发明而不对其范围进行限制:
HTML(Hypertext Markup Language,超文本标示语言):一种标准语言,用于将表示和链接属性附加到文档中的信息性内容。在文档创作阶段,HTML“标签”被嵌入文档的信息性内容中。当web服务器向web浏览器发送web文档(或“HTML文档”)时,由浏览器对标签进行解释,并且,标签被用于分析和显示文档。除了规定web浏览器如何显示文档以外,HTML标签还可以用于建立与其它web文档的超级链接。
Internet:通过一套标准协议、借助路由器链接在一起的互连的公共和私用计算机网络的集合,以便形成全球的、分布式网络。
World Wide Web(WWW,也称Web):一种因特网客户机-服务器超文本分布式信息检索系统。
图1描绘了可以使用按照本发明的、用于自动提取副标题信息的系统、计算机程序产品以及相关方法(“副标题提取系统10”或“系统10”)的示例性总体环境。文本分析系统15包括系统10和搜索引擎20。例如,文本分析引擎15对从信源如WWW获得的文档进行分析,用于数据分析、趋势发现等。文本分析引擎包括由搜索引擎20提供的搜索功能。文本分析系统15被安装在计算机、如主机服务器25上。
系统10包括一般被嵌入或者被安装在主服务器25上的软件编程代码或计算机程序产品。或者,系统10被保存在合适的存储介质如软盘、CD、硬盘等装置上。数据库30(dB30)包括来自信源例如WWW的文档。尽管以下将结合WWW对系统10进行描述,但是,系统10可以与从WWW或其它信源得到的内容的独立的dB30一起使用。
用户,例如远程因特网用户,由各种计算机例如计算机35、40、45代表,并且可以通过网络50访问主机服务器25。计算机35、40、45中的每一个包括允许使用户与主机服务器25安全地进行接口的软件。主机服务器25通过通信链路55如电话、电缆或卫星链路连接到网络50。计算机35、40、45可以分别通过通信链路60、65、70连接到网络50。尽管按照网络50对系统10进行描述,但是,计算机35、40、45也可以在本地而不是远程访问系统10。计算机35、40、45可以人工或利用应用软件自动访问系统10。用户通过网络50和搜索引擎20在dB30上查询数据。
图2示出了系统10的高层结构。系统10包括标题检测模块205、标题评估模块210和副标题提取模块215。每个包括新闻文章的网页一般包括一个标题。系统10通过对文档中的标题进行识别并且定位靠近被识别的标题的副标题,对副标题信息进行定位和提取。
输入220包括从信源例如WWW获得的被爬行的文档。输入220还包括已经去除了html标签的、被爬行的文档(称为去标签文档)。利用标准的去标签方法将HTML标签去除。输出225包括被识别的副标题信息。
图3示出了系统10的操作方法300。对于一个选择的文档,标题检测模块205从该选择的文档的题目元标签(title meta-tag)中,选择潜在标题的集合。每个选择的文档包括一个题目元标签(图4的步骤400,方法400)。示例性的题目元标签包括:
<title>Guardian Unlimited|Special reports|No more near
misses,says new air traffic chief</title>
<title>CNN.com-jury’s still out on e-voting-Nov 5,2004</title>
<title>Nov.2 the biggest test yet for touch-screen voting|
csmonitor.com</title>
标题评估模块210通过在选择的文档的去标签版本中对选择的候选标题进行定位并且对候选标题进行评估,从潜在标题的集合H中选择候选标题(步骤500,图5的方法500)。
副标题提取模块210提取代表副标题信息的字符串(步骤305)。提取的字符串位于候选标题的预定最短距离以内。提取的字符串可以是名字、来源、日期、位置或者副标题信息的任何其它项目。预定最短距离包括约50个字符到约100个字符。预定最短距离是可配置的;预定距离的典型值为约100个字符。
图4示出了在对潜在标题的集合H进行检测过程中,标题检测模块205的方法400。标题检测模块205从输入220中选择文档(步骤405)。选择的文档包括被爬行的版本和去标签版本。标题检测模块205通过在被爬行的版本的<title>..</title>元标签中选择字符串,从选择的文档的被爬行版本中获得题目字符串T(步骤410)。标题检测模块205将题目字符串T加到潜在标题的集合H(步骤415)。
标题检测模块205在某些或所有标点符号处,将题目字符串T分开,生成子字符串(步骤420)。标题检测模块205将生成的子字符串加到潜在标题的集合H(步骤425)。标题检测模块205可选地将生成的子字符串的二元语法模型加到潜在标题的集合H(步骤430)。标题检测模块205可选地将生成的子字符串的n元语法模型加到潜在标题的集合H(步骤435)。
图5(图5A,5B)示出了在通过在选择的文档的去标签版本中对选择的候选标题进行定位并且对候选标题进行评估,从潜在标题的集合H中,为选择的文档选择候选标题的过程中,标题评估模块210采用的方法500。标题评估模块210在选择的文档中,选择潜在标题的集合H中的最长的潜在标题(步骤505)。按照标点符号将题目字符串分开之后的最长子字符串是标题的高概率候选者。其它组合可能概率较低。通常,最长的潜在标题是题目字符串T被按照标点符号分开时建立的题目字符串T中的最长子字符串。否则,最长的潜在候选者可能是整个题目字符串T。
标题评估模块210在选择的文档的去标签版本中定位选择的潜在标题(步骤510)。如果潜在标题不位于该文档中(判断步骤515),则被定位的标题不是可用标题选项。标题评估模块210在潜在标题的集合H中选择下一个最长的潜在标题(步骤520),并且进行到步骤555。
在判定步骤555,系统10询问是否已经考虑了所有潜在标题。如果还没有,则系统10进行到步骤510。但是,如果已经考虑了所有潜在标题,没有在选择的文档上发现可接受的标题,则系统10退出对选择的文档的处理(步骤540)。
如果潜在标题位于该文档中(判定步骤515),则标题评估模块210判断被定位的标题是否包括独立的行,被定位的标题包括独立行的全部内容(判定步骤525)。如果不是,则被定位的标题不是可用标题选项。如前面所述,标题评估模块210在潜在标题的集合H中选择下一个最长的潜在标题(步骤520),并且进行到判定框555。
否则,标题评估模块210对被定位的标题是否出现在html链接进行判断(判定步骤530),以确保被定位的标题只包括文本。如果是,则被定位的标题不是可用标题选项。如前面所述,标题评估模块210在潜在标题的集合H中选择下一个最长的潜在标题(步骤520),并且进行到判定框555。
否则,标题评估模块210对被定位的标题是否小于预定最小长度进行判断(判定步骤535)。如果是,则在选择的文档上没有发现可接受的标题,并且系统10退出对选择的文档的处理(步骤540)。
否则,标题评估模块210判断在被定位的标题附近是否发现可接受的日期(判定步骤545)。可接受的日期出现在被定位的标题附近,在日期与被定位的标题之间没有html链接或超文本引用。如果没有发现可接受的日期,则被定位的标题不是可用标题选项。标题评估模块210在潜在标题的集合H中选择下一个最长的潜在标题(步骤520),并且返回到步骤510。
如果发现了可接受的日期,则标题评估模块210将定位的标题输出为选择的标题(步骤550)。
系统10为文档识别潜在标题,在该文档的去标签版本中对潜在标题进行定位,并且根据围绕该位置的文本确认候选标题。即使题目字符串T不是准确的标题,但是,html信源中的题目字符串T通常含有关于文章标题的有价值线索。
系统10包括用于从被爬行的网页或者包括新闻文章的文档中发现副标题信息的一般自动化技术。系统10不要求每个站点定制并且具有很高的准确性,并且,当副标题信息可用时,可以进行再调用。
应该理解,已经描述的本发明的特定实施例只是对本发明的原理的某些应用进行了说明。在不脱离本发明的精神和范围的情况下,可以对这里描述的用于自动提取副标题信息的系统和方法进行许多修改。

Claims (13)

1.一种在被爬行的文档中自动提取副标题信息的、由处理器实现的方法,包括如下步骤:
输入文档,其中所述文档包括题目元标签;
从文档除去格式标签以产生文档的去标签版本;
从文档的题目元标签的子字符串及子字符串的二元语法模型和n元语法模型中检测文档的潜在标题的集合,
所述检测文档的潜在标题的集合的步骤还包括根据题目元标签构成潜在标题的集合并按照所述题目元标签中的所有标点符号将所述题目元标签分开,产生所述题目元标签的子字符串的集合,
将子字符串的多个二元语法模型和子字符串的多个n元语法模型中的任何一个加到潜在标题的集合;
按照所述潜在标题的长度的顺序对潜在标题进行评估,以从所述潜在标题的集合中选择候选标题;以及
利用选择的候选标题的位置,从文档的去标签版本中提取副标题信息。
2.如权利要求1所述的方法,其中,所述评估步骤包括如下步骤:
在文档的去标签版本中,识别正在被评估的选择的候选标题的位置;
检验选择的候选标题在去标签内容中的被识别的位置包括完整的行;
检验选择的候选标题的长度超过去标签内容中的最小长度;并且
确保选择的候选标题包括文档中的规则文本。
3.如权利要求1所述的方法,其中,所述提取步骤包括提取位于距所述潜在标题的位置的最短距离以内的、代表日期的字符串。
4.如权利要求1所述的方法,其中,所述提取步骤包括提取位于距所述潜在标题的位置的最短距离以内的、代表名字的字符串。
5.如权利要求1所述的方法,其中,所述提取步骤包括提取位于距所述潜在标题的位置的最短距离以内的、代表文档来源的字符串。
6.一种在被爬行的文档中自动提取副标题信息的、由处理器实现的系统,包括:
输入文档模块,其中所述文档包括题目元标签;
去标签版本产生模块,从文档除去格式标签以产生文档的去标签版本;
标题检测模块,用于从文档的题目元标签的子字符串及子字符串的二元语法模型和n元语法模型中检测文档的潜在标题的集合,
所述标题检测模块还包括根据题目元标签构成所述潜在标题的集合并通过按照所述题目元标签中的所有标点符号将所述题目元标签分开,产生所述题目元标签的子字符串集合,来构成所述潜在标题的集合,
所述标题检测模块还将所述子字符串的多个二元语法模型和所述子字符串的多个n元语法模型中的任何一个加到所述潜在标题的集合;
标题评估模块,用于按照所述潜在标题的长度的顺序对潜在标题进行评估,以从所述潜在标题的集合中选择候选标题;以及
副标题提取模块,用于利用选择的候选标题的位置,从文档的去标签版本中提取副标题信息。
7.如权利要求6所述的系统,其中,所述标题评估模块通过如下步骤进行评估:
在文档的去标签版本中,识别正在被评估的选择的候选标题的位置;
检验选择的候选标题在去标签内容中的被识别的位置包括完整的行;
检验选择的候选标题的长度超过去标签内容中的最小长度;并且
确保选择的候选标题包括文档中的规则文本。
8.如权利要求6所述的系统,其中,所述副标题提取模块提取位于距所述潜在标题的位置的最短距离以内的、代表日期的字符串。
9.如权利要求6所述的系统,其中,所述副标题提取模块提取位于距所述潜在标题的位置的最短距离以内的、代表名字的字符串。
10.如权利要求6所述的系统,其中,所述副标题提取模块提取位于距所述潜在标题的位置的最短距离以内的、代表文档来源的字符串。
11.一种在被爬行的文档中自动提取副标题信息的、由处理器实现的服务,包括如下步骤:
接收文档;
调用自主硬件配置实用程序,其中,通过以下步骤使文档可用于自主硬件配置实用程序以便在文档中自动提取副标题信息:
输入文档,其中所述文档包括题目元标签;
从文档除去格式标签以产生文档的去标签版本;
从文档的题目元标签的子字符串及子字符串的二元语法模型和n元语法模型中检测文档的潜在标题的集合,
所述检测文档的潜在标题的集合的步骤还包括根据题目元标签构成潜在标题的集合并按照所述题目元标签中的所有标点符号将所述题目元标签分开,产生所述题目元标签的子字符串的集合,
将子字符串的多个二元语法模型和子字符串的多个n元语法模型中的任何一个加到潜在标题的集合;
按照所述潜在标题的长度的顺序对潜在标题进行评估,以从所述潜在标题的集合中选择候选标题;以及
利用选择的候选标题的位置,从文档的去标签版本中提取副标题信息。
12.如权利要求11所述的服务,其中,所述评估步骤包括如下步骤:
在文档的去标签版本中识别正在被评估的选择的候选标题的位置;
检验选择的候选标题在去标签内容中的被识别的位置包括完整的行;
检验选择的候选标题的长度超过去标签内容中的最小长度;并且确保选择的候选标题包括文档中的规则文本。
13.如权利要求11所述的服务,其中,提取步骤包括提取位于距所述潜在标题的位置的最短距离以内的、代表日期的字符串。
CNB2006101357007A 2005-10-25 2006-10-24 用于自动提取副标题信息的系统和方法 Expired - Fee Related CN100514323C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/259,608 2005-10-25
US11/259,608 US7464078B2 (en) 2005-10-25 2005-10-25 Method for automatically extracting by-line information

Publications (2)

Publication Number Publication Date
CN1955952A CN1955952A (zh) 2007-05-02
CN100514323C true CN100514323C (zh) 2009-07-15

Family

ID=37986489

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2006101357007A Expired - Fee Related CN100514323C (zh) 2005-10-25 2006-10-24 用于自动提取副标题信息的系统和方法

Country Status (2)

Country Link
US (2) US7464078B2 (zh)
CN (1) CN100514323C (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006044549A2 (en) * 2004-10-13 2006-04-27 Bloomberg L.P. System and method for managing news headlines
US8429148B1 (en) 2005-11-01 2013-04-23 At&T Intellectual Property Ii, L.P. Method and apparatus for automatically generating headlines based on data retrieved from a network and for answering questions related to a headline
US8983970B1 (en) 2006-12-07 2015-03-17 Google Inc. Ranking content using content and content authors
US8577866B1 (en) 2006-12-07 2013-11-05 Googe Inc. Classifying content
US20080168049A1 (en) * 2007-01-08 2008-07-10 Microsoft Corporation Automatic acquisition of a parallel corpus from a network
WO2009070931A1 (en) * 2007-12-06 2009-06-11 Google Inc. Cjk name detection
US10692092B2 (en) * 2007-12-21 2020-06-23 Ebay Inc. System and method for providing on-line advertising with dynamic content
US8156130B2 (en) 2008-10-17 2012-04-10 Embarq Holdings Company Llc System and method for collapsing search results
US8874564B2 (en) * 2008-10-17 2014-10-28 Centurylink Intellectual Property Llc System and method for communicating search results to one or more other parties
US8326829B2 (en) * 2008-10-17 2012-12-04 Centurylink Intellectual Property Llc System and method for displaying publication dates for search results
US8924846B2 (en) * 2009-07-03 2014-12-30 Hewlett-Packard Development Company, L.P. Apparatus and method for text extraction
CN102375806B (zh) * 2010-08-23 2014-05-07 北大方正集团有限公司 一种文档标题提取方法和装置
US8805766B2 (en) 2010-10-19 2014-08-12 Hewlett-Packard Development Company, L.P. Methods and systems for modifying a knowledge base system
US8892584B1 (en) * 2011-03-28 2014-11-18 Symantec Corporation Systems and methods for identifying new words from a meta tag
CA2854886A1 (en) 2011-11-08 2013-05-16 Google Inc. Systems and methods for generating and displaying hierarchical search results
US20150254213A1 (en) * 2014-02-12 2015-09-10 Kevin D. McGushion System and Method for Distilling Articles and Associating Images
CN106503002A (zh) * 2015-09-07 2017-03-15 张晓晔 一种以若干标签替代标题显示商品主要信息的方法
CN105760546B (zh) * 2016-03-16 2019-07-30 广州索答信息科技有限公司 互联网新闻摘要的自动生成方法和装置
CN107203509B (zh) * 2017-04-20 2023-06-20 北京拓尔思信息技术股份有限公司 标题生成方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1325513A (zh) * 1998-09-09 2001-12-05 发明机器公司 具有知识生成能力的文档语义分析/选择
CN1539112A (zh) * 2001-08-13 2004-10-20 �Ҵ���˾ 汇总与聚合以将文件就概念分类

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6924828B1 (en) 1999-04-27 2005-08-02 Surfnotes Method and apparatus for improved information representation
US6836768B1 (en) 1999-04-27 2004-12-28 Surfnotes Method and apparatus for improved information representation
US7240067B2 (en) * 2000-02-08 2007-07-03 Sybase, Inc. System and methodology for extraction and aggregation of data from dynamic content
US6735586B2 (en) 2000-02-08 2004-05-11 Sybase, Inc. System and method for dynamic content retrieval
US6738767B1 (en) * 2000-03-20 2004-05-18 International Business Machines Corporation System and method for discovering schematic structure in hypertext documents
US7152058B2 (en) * 2000-07-13 2006-12-19 Biap Systems, Inc. Apparatus for and method of selectively retrieving information and enabling its subsequent display
US7925967B2 (en) * 2000-11-21 2011-04-12 Aol Inc. Metadata quality improvement
JP3768105B2 (ja) * 2001-01-29 2006-04-19 株式会社東芝 翻訳装置、翻訳方法並びに翻訳プログラム
GB0104052D0 (en) * 2001-02-19 2001-04-04 Calaba Ltd Da`a mining method and system
JP2003000673A (ja) 2001-06-19 2003-01-07 Tachibana Yoki Kk 足裏ツボ刺激健康器具
JP4198343B2 (ja) 2001-08-27 2008-12-17 セイコーエプソン株式会社 文書表示装置の制御方法および文書表示装置
US20040111400A1 (en) * 2002-12-10 2004-06-10 Xerox Corporation Method for automatic wrapper generation
JP3982454B2 (ja) * 2003-05-27 2007-09-26 ソニー株式会社 携帯型電子機器、ウェブページ処理方法およびプログラム
US7363294B2 (en) * 2003-12-19 2008-04-22 Fuji Xerox Co., Ltd. Indexing for contextual revisitation and digest generation
US20050165789A1 (en) * 2003-12-22 2005-07-28 Minton Steven N. Client-centric information extraction system for an information network
WO2006046523A1 (ja) * 2004-10-25 2006-05-04 Nec Corporation 文書解析システム、及び文書適応システム
US20060259462A1 (en) * 2005-05-12 2006-11-16 Sybase, Inc. System and Methodology for Real-time Content Aggregation and Syndication
US7660783B2 (en) * 2006-09-27 2010-02-09 Buzzmetrics, Inc. System and method of ad-hoc analysis of data

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1325513A (zh) * 1998-09-09 2001-12-05 发明机器公司 具有知识生成能力的文档语义分析/选择
CN1539112A (zh) * 2001-08-13 2004-10-20 �Ҵ���˾ 汇总与聚合以将文件就概念分类

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
http://www.holovaty.com/blog/archive/2002/10/25/1741. ,Page titles on newsarticlePages. 2002
http://www.holovaty.com/blog/archive/2002/10/25/1741. ,Page titles on newsarticlePages. 2002 *

Also Published As

Publication number Publication date
US8321396B2 (en) 2012-11-27
US20080306941A1 (en) 2008-12-11
US20070094232A1 (en) 2007-04-26
CN1955952A (zh) 2007-05-02
US7464078B2 (en) 2008-12-09

Similar Documents

Publication Publication Date Title
CN100514323C (zh) 用于自动提取副标题信息的系统和方法
CN102073726B (zh) 搜索引擎系统的结构化数据的引入方法和装置
CN102073725B (zh) 结构化数据的搜索方法和实现该搜索方法的搜索引擎系统
CN101918945B (zh) 用于执行自动扩展的语言搜索的方法和系统
US7055094B2 (en) Virtual tags and the process of virtual tagging utilizing user feedback in transformation rules
CN101452453B (zh) 一种输入法网址导航的方法和一种输入法系统
US8554800B2 (en) System, methods and applications for structured document indexing
CN113822067A (zh) 关键信息提取方法、装置、计算机设备及存储介质
US20090248707A1 (en) Site-specific information-type detection methods and systems
US20070198727A1 (en) Method, apparatus and system for extracting field-specific structured data from the web using sample
US20090019015A1 (en) Mathematical expression structured language object search system and search method
Zheng et al. Template-independent news extraction based on visual consistency
CN101809572A (zh) 在搜索结果页面上包括交互式元素的系统和方法
CN1954321A (zh) 具有实体检测的查询改写
CN101192234A (zh) 一种基于网页抽取的搜索系统及搜索方法
US20110246462A1 (en) Method and System for Prompting Changes of Electronic Document Content
Biagioli et al. The NIR project: Standards and tools for legislative drafting and legal document web publication
Mika Microsearch: An Interface for Semantic Search.
JPWO2003060764A1 (ja) 情報検索システム
CN109948015B (zh) 一种元搜索列表结果抽取方法及系统
CN115186240A (zh) 基于关联性信息的社交网络用户对齐方法、装置、介质
CN101310274B (zh) 知识相关性搜索引擎
Lingam et al. Supporting end-users in the creation of dependable web clips
CN105677827A (zh) 一种表单的获取方法及装置
CN105468688A (zh) 一种站点模板的处理方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090715

Termination date: 20181024