CN100514323C - 用于自动提取副标题信息的系统和方法 - Google Patents
用于自动提取副标题信息的系统和方法 Download PDFInfo
- Publication number
- CN100514323C CN100514323C CNB2006101357007A CN200610135700A CN100514323C CN 100514323 C CN100514323 C CN 100514323C CN B2006101357007 A CNB2006101357007 A CN B2006101357007A CN 200610135700 A CN200610135700 A CN 200610135700A CN 100514323 C CN100514323 C CN 100514323C
- Authority
- CN
- China
- Prior art keywords
- title
- document
- potential
- metatag
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 31
- 238000000605 extraction Methods 0.000 claims abstract description 25
- 239000000284 extract Substances 0.000 claims abstract description 19
- 238000001514 detection method Methods 0.000 claims description 21
- 238000011156 evaluation Methods 0.000 claims description 18
- 239000000126 substance Substances 0.000 claims description 7
- 230000002567 autonomic effect Effects 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000003203 everyday effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99932—Access augmentation or optimizing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及用于自动提取副标题信息的系统和方法。具体公开了一种在被爬行的文档中自动提取副标题信息的、由处理器实现的方法,包括如下步骤:输入文档,其中所述文档包括题目元标签;从文档除去格式标签以产生文档的去标签版本;从文档的题目元标签的子字符串及子字符串的二元语法模型和n元语法模型中检测文档的潜在标题的集合;按照所述潜在标题的长度的顺序对潜在标题进行评估,以从所述潜在标题的集合中选择候选标题;以及利用选择的候选标题的位置,从文档的去标签版本中提取副标题信息。通过本发明系统不要求每个站点定制并且具有很高的准确性,并且,当副标题信息可用时,可以进行再调用。
Description
技术领域
本发明总体上涉及对电子文档的文本分析。更具体地说,本发明涉及对电子文档中的副标题(by-line)进行识别和指定,从而能够根据副标题信息来定位文章。
背景技术
作为例如在线新闻文章的信息的大型资料库,万维网正在不断发展。在线新闻文章是世界范围内的信息和事件的有用资源。在提供在线新闻文章的网站的数量方面以及在每个网站提供的文章的数量方面,可从web上获得的在线新闻文章的数量正在迅速增加。估计在线新闻资源如web上的杂志和报纸超过10000。在世界范围内,在线新闻资源包括本地新闻资源、地区新闻资源以及国家新闻资源。这些新闻资源迎合不同的话题,如国际新闻、国家新闻、本地新闻、经济新闻、科技新闻、及体育新闻等。
新闻资源包括也在线出现的印刷媒体。这些新闻资源每日、每月发表新闻文章,有时使较早的文章可用于存档访问。新闻资源也包括只通过web提供新闻文章的非印刷媒体站点。
在每天出现这样大量新闻文章的情况下,拥有能够从这些新闻文章中提取有意义的信息并且使提取的信息可以为用户所用的自动化的技术和系统正变得日益有用。这种被提取的信息可以简化导航和搜索任务。这些自动系统(例如搜索引擎)通常在web上定期爬行(crawl)、抽取网页、并且对网页的内容进行分析。
对于任何这样的系统而言,一种有用的任务是能够对每篇新闻文章提取副标题。副标题是出现在文章或报道的开始之处的行,通常包括作者、日期、来源、位置等。副标题信息对于在新闻文章中进行基本搜索和导航都是有用的。在对文章的内容进行趋向分析方面,副标题也是有用的。
以下形式的查询:
显示由作者X写的新闻文章,
显示由作者X写的关于关键字Y的新闻文章,
显示由作者X在日期D写的新闻文章,或者
显示在日期D的关于关键字Y的新闻文章
包括对大型新闻文章资料库进行搜索和导航的基本方法。对副标题信息的查询需要知道在被爬行的网页上的文章的日期和作者。另外,对一个话题的任何类型的时间趋向分析都需要知道关于该话题的每篇新闻文章的创作日期。
在常规的印刷的报纸中,或者当被人阅览时,在文章标题之下或之上出现的小行字中很容易看到副标题信息。这些小行字将文章的作者与日期并可能将来源或地点一起列出。但是,从网页的html源中自动发现副标题信息是困难的,这是由于不知道副标题的位置。副标题不被明确地提及或标出。另外,被爬行的网页具有围绕核心文章的其它项目和模板。在副标题之前和之后,可能有其它日期和人名。基于位置选择任何日期或名字通常不能为所考虑的文章提供期望的副标题信息。另外,不同网站使用不同的呈现副标题信息的模式,并且,这些模式会随时间变化。
一种传统的方法使用由某些网站在http标题中提供的、表示该页被最后修改的日期的“最后修改日期”。但是,网页经常包括动态内容,如广告或其它模板。因此,最后修改日期对应于广告或其它模板,而不是核心文章的原始日期。因此,对多数站点,“最后修改日期”不可靠。
另一种传统方法使用馈送(feed),例如丰富站点摘要(rich sitesummary,RSS)馈送或者资源描述框架(resource descriptionframework,RDF)馈送。馈送通常包括希望的副标题信息。但是,不是所有新闻站点都提供馈送;在馈送中提供的信息取决于内容提供者的意愿,并且,某些提供者不提供副标题信息。即使提供时,馈送也不是免费的,或者不能被网页分析系统进行商业上的使用。另外,馈送可能只能用于当前的文章而不能用于较早的、已经存档的文章。因此,在分析中,希望对网页的爬行包括较早的文章。
另一种传统方法寻找关键字模式,如“By:*”或者“Composedby:*”,以识别作者。关键字模式,如“Published On:*”或者“SubmittedOn:*”被用于识别日期。这种方法对某些站点很好用,但是该方法是受到限制的,因为每个站点的关键词模式是不同的。对许多站点来说,在作者/日期之前没有关键字。例如,副标题可能仅包括“Jhon Crameron Apr 4,2005”。
因此,需要一种用于自动提取副标题信息的系统、计算机程序产品以及相关方法。对这样的方案的需求至今还未被满足。
发明内容
本发明满足了这种需求,并且提出了用于自动提取副标题的系统、计算机程序产品和相关方法(以下集中起来称为“系统”或“本系统”)。
根据本发明的一方面,提供了一种在被爬行的文档中自动提取副标题信息的、由处理器实现的方法,包括如下步骤:输入文档,其中所述文档包括题目元标签;从文档除去格式标签以产生文档的去标签版本;从文档的题目元标签的子字符串及子字符串的二元语法模型和n元语法模型中检测文档的潜在标题的集合,所述检测文档的潜在标题的集合的步骤还包括根据题目元标签构成潜在标题的集合并按照所述题目元标签中的所有标点符号将所述题目元标签分开,产生所述题目元标签的子字符串的集合,将子字符串的多个二元语法模型和子字符串的多个n元语法模型中的任何一个加到潜在标题的集合;按照所述潜在标题的长度的顺序对潜在标题进行评估,以从所述潜在标题的集合中选择候选标题;以及利用选择的候选标题的位置,从文档的去标签版本中提取副标题信息。
根据本发明的另一方面,提供了一种在被爬行的文档中自动提取副标题信息的、由处理器实现的系统,包括:输入文档模块,其中所述文档包括题目元标签;去标签版本产生模块,从文档除去格式标签以产生文档的去标签版本;标题检测模块,用于从文档的题目元标签的子字符串及子字符串的二元语法模型和n元语法模型中检测文档的潜在标题的集合,所述标题检测模块还包括根据题目元标签构成所述潜在标题的集合并通过按照所述题目元标签中的所有标点符号将所述题目元标签分开,产生所述题目元标签的子字符串集合,来构成所述潜在标题的集合,所述标题检测模块还将所述子字符串的多个二元语法模型和所述子字符串的多个n元语法模型中的任何一个加到所述潜在标题的集合;标题评估模块,用于按照所述潜在标题的长度的顺序对潜在标题进行评估,以从所述潜在标题的集合中选择候选标题;以及副标题提取模块,用于利用选择的候选标题的位置,从文档的去标签版本中提取副标题信息。
根据本发明的又一方面,提供了一种在被爬行的文档中自动提取副标题信息的、由处理器实现的服务,包括如下步骤:接收文档;调用自主硬件配置实用程序,其中,通过以下步骤使文档可用于自主硬件配置实用程序以便在文档中自动提取副标题信息:输入文档,其中所述文档包括题目元标签;从文档除去格式标签以产生文档的去标签版本;从文档的题目元标签的子字符串及子字符串的二元语法模型和n元语法模型中检测文档的潜在标题的集合,所述检测文档的潜在标题的集合的步骤还包括根据题目元标签构成潜在标题的集合并按照所述题目元标签中的所有标点符号将所述题目元标签分开,产生所述题目元标签的子字符串的集合,将子字符串的多个二元语法模型和子字符串的多个n元语法模型中的任何一个加到潜在标题的集合;按照所述潜在标题的长度的顺序对潜在标题进行评估,以从所述潜在标题的集合中选择候选标题;以及利用选择的候选标题的位置,从文档的去标签版本中提取副标题信息。
在本发明中,所述评估包括在被爬行的文档的去标签(de-tagged)版本中,识别正在被评估的所选择的候选标题的位置。所述评估还包括检验所选择的候选标题在去标签内容中的被识别位置包括完整的行。所述评估还包括检验所选择的候选标题的长度超过去标题内容中的最小长度。所述评估还包括确保所选择的候选标题包括文档的去标签版本中的规则文本。
本系统通过利用被选择的候选标题的位置,提取位于距潜在标题的位置的最短距离内的、代表日期的字符串,从文档中提取副标题信息。本系统还通过提取位于距潜在标题的位置的最短距离内的、代表名字的字符串,从文档中提取副标题信息。本系统还通过提取位于距潜在标题的位置的最短距离内的、代表文档来源的字符串,从文档中提取副标题信息。
附图说明
以下将参照详细说明、权利要求和附图,对本发明的各种特性以及实现它们的方法进行详细描述,其中,在适当的地方,重复使用附图标记,以表示被引用的项目之间的对应性,其中:
图1为可以使用本发明的副标题提取系统的典型操作环境的示意图;
图2为图1的副标题提取系统的高层结构的框图;
图3为说明图1和2的副标题提取系统的操作方法的处理流程图;
图4代表说明图1和2的副标题提取系统的标题检测模块的操作方法的处理流程图;并且
图5包括图5A和5B,并且代表说明图1和2的副标题提取系统的标题评估模块的操作方法的处理流程图。
具体实施方式
以下的定义和解释提供了有关本发明的技术领域的背景信息,并且,其意图在于帮助理解本发明而不对其范围进行限制:
HTML(Hypertext Markup Language,超文本标示语言):一种标准语言,用于将表示和链接属性附加到文档中的信息性内容。在文档创作阶段,HTML“标签”被嵌入文档的信息性内容中。当web服务器向web浏览器发送web文档(或“HTML文档”)时,由浏览器对标签进行解释,并且,标签被用于分析和显示文档。除了规定web浏览器如何显示文档以外,HTML标签还可以用于建立与其它web文档的超级链接。
Internet:通过一套标准协议、借助路由器链接在一起的互连的公共和私用计算机网络的集合,以便形成全球的、分布式网络。
World Wide Web(WWW,也称Web):一种因特网客户机-服务器超文本分布式信息检索系统。
图1描绘了可以使用按照本发明的、用于自动提取副标题信息的系统、计算机程序产品以及相关方法(“副标题提取系统10”或“系统10”)的示例性总体环境。文本分析系统15包括系统10和搜索引擎20。例如,文本分析引擎15对从信源如WWW获得的文档进行分析,用于数据分析、趋势发现等。文本分析引擎包括由搜索引擎20提供的搜索功能。文本分析系统15被安装在计算机、如主机服务器25上。
系统10包括一般被嵌入或者被安装在主服务器25上的软件编程代码或计算机程序产品。或者,系统10被保存在合适的存储介质如软盘、CD、硬盘等装置上。数据库30(dB30)包括来自信源例如WWW的文档。尽管以下将结合WWW对系统10进行描述,但是,系统10可以与从WWW或其它信源得到的内容的独立的dB30一起使用。
用户,例如远程因特网用户,由各种计算机例如计算机35、40、45代表,并且可以通过网络50访问主机服务器25。计算机35、40、45中的每一个包括允许使用户与主机服务器25安全地进行接口的软件。主机服务器25通过通信链路55如电话、电缆或卫星链路连接到网络50。计算机35、40、45可以分别通过通信链路60、65、70连接到网络50。尽管按照网络50对系统10进行描述,但是,计算机35、40、45也可以在本地而不是远程访问系统10。计算机35、40、45可以人工或利用应用软件自动访问系统10。用户通过网络50和搜索引擎20在dB30上查询数据。
图2示出了系统10的高层结构。系统10包括标题检测模块205、标题评估模块210和副标题提取模块215。每个包括新闻文章的网页一般包括一个标题。系统10通过对文档中的标题进行识别并且定位靠近被识别的标题的副标题,对副标题信息进行定位和提取。
输入220包括从信源例如WWW获得的被爬行的文档。输入220还包括已经去除了html标签的、被爬行的文档(称为去标签文档)。利用标准的去标签方法将HTML标签去除。输出225包括被识别的副标题信息。
图3示出了系统10的操作方法300。对于一个选择的文档,标题检测模块205从该选择的文档的题目元标签(title meta-tag)中,选择潜在标题的集合。每个选择的文档包括一个题目元标签(图4的步骤400,方法400)。示例性的题目元标签包括:
<title>Guardian Unlimited|Special reports|No more near
misses,says new air traffic chief</title>
<title>CNN.com-jury’s still out on e-voting-Nov 5,2004</title>
<title>Nov.2 the biggest test yet for touch-screen voting|
csmonitor.com</title>
标题评估模块210通过在选择的文档的去标签版本中对选择的候选标题进行定位并且对候选标题进行评估,从潜在标题的集合H中选择候选标题(步骤500,图5的方法500)。
副标题提取模块210提取代表副标题信息的字符串(步骤305)。提取的字符串位于候选标题的预定最短距离以内。提取的字符串可以是名字、来源、日期、位置或者副标题信息的任何其它项目。预定最短距离包括约50个字符到约100个字符。预定最短距离是可配置的;预定距离的典型值为约100个字符。
图4示出了在对潜在标题的集合H进行检测过程中,标题检测模块205的方法400。标题检测模块205从输入220中选择文档(步骤405)。选择的文档包括被爬行的版本和去标签版本。标题检测模块205通过在被爬行的版本的<title>..</title>元标签中选择字符串,从选择的文档的被爬行版本中获得题目字符串T(步骤410)。标题检测模块205将题目字符串T加到潜在标题的集合H(步骤415)。
标题检测模块205在某些或所有标点符号处,将题目字符串T分开,生成子字符串(步骤420)。标题检测模块205将生成的子字符串加到潜在标题的集合H(步骤425)。标题检测模块205可选地将生成的子字符串的二元语法模型加到潜在标题的集合H(步骤430)。标题检测模块205可选地将生成的子字符串的n元语法模型加到潜在标题的集合H(步骤435)。
图5(图5A,5B)示出了在通过在选择的文档的去标签版本中对选择的候选标题进行定位并且对候选标题进行评估,从潜在标题的集合H中,为选择的文档选择候选标题的过程中,标题评估模块210采用的方法500。标题评估模块210在选择的文档中,选择潜在标题的集合H中的最长的潜在标题(步骤505)。按照标点符号将题目字符串分开之后的最长子字符串是标题的高概率候选者。其它组合可能概率较低。通常,最长的潜在标题是题目字符串T被按照标点符号分开时建立的题目字符串T中的最长子字符串。否则,最长的潜在候选者可能是整个题目字符串T。
标题评估模块210在选择的文档的去标签版本中定位选择的潜在标题(步骤510)。如果潜在标题不位于该文档中(判断步骤515),则被定位的标题不是可用标题选项。标题评估模块210在潜在标题的集合H中选择下一个最长的潜在标题(步骤520),并且进行到步骤555。
在判定步骤555,系统10询问是否已经考虑了所有潜在标题。如果还没有,则系统10进行到步骤510。但是,如果已经考虑了所有潜在标题,没有在选择的文档上发现可接受的标题,则系统10退出对选择的文档的处理(步骤540)。
如果潜在标题位于该文档中(判定步骤515),则标题评估模块210判断被定位的标题是否包括独立的行,被定位的标题包括独立行的全部内容(判定步骤525)。如果不是,则被定位的标题不是可用标题选项。如前面所述,标题评估模块210在潜在标题的集合H中选择下一个最长的潜在标题(步骤520),并且进行到判定框555。
否则,标题评估模块210对被定位的标题是否出现在html链接进行判断(判定步骤530),以确保被定位的标题只包括文本。如果是,则被定位的标题不是可用标题选项。如前面所述,标题评估模块210在潜在标题的集合H中选择下一个最长的潜在标题(步骤520),并且进行到判定框555。
否则,标题评估模块210对被定位的标题是否小于预定最小长度进行判断(判定步骤535)。如果是,则在选择的文档上没有发现可接受的标题,并且系统10退出对选择的文档的处理(步骤540)。
否则,标题评估模块210判断在被定位的标题附近是否发现可接受的日期(判定步骤545)。可接受的日期出现在被定位的标题附近,在日期与被定位的标题之间没有html链接或超文本引用。如果没有发现可接受的日期,则被定位的标题不是可用标题选项。标题评估模块210在潜在标题的集合H中选择下一个最长的潜在标题(步骤520),并且返回到步骤510。
如果发现了可接受的日期,则标题评估模块210将定位的标题输出为选择的标题(步骤550)。
系统10为文档识别潜在标题,在该文档的去标签版本中对潜在标题进行定位,并且根据围绕该位置的文本确认候选标题。即使题目字符串T不是准确的标题,但是,html信源中的题目字符串T通常含有关于文章标题的有价值线索。
系统10包括用于从被爬行的网页或者包括新闻文章的文档中发现副标题信息的一般自动化技术。系统10不要求每个站点定制并且具有很高的准确性,并且,当副标题信息可用时,可以进行再调用。
应该理解,已经描述的本发明的特定实施例只是对本发明的原理的某些应用进行了说明。在不脱离本发明的精神和范围的情况下,可以对这里描述的用于自动提取副标题信息的系统和方法进行许多修改。
Claims (13)
1.一种在被爬行的文档中自动提取副标题信息的、由处理器实现的方法,包括如下步骤:
输入文档,其中所述文档包括题目元标签;
从文档除去格式标签以产生文档的去标签版本;
从文档的题目元标签的子字符串及子字符串的二元语法模型和n元语法模型中检测文档的潜在标题的集合,
所述检测文档的潜在标题的集合的步骤还包括根据题目元标签构成潜在标题的集合并按照所述题目元标签中的所有标点符号将所述题目元标签分开,产生所述题目元标签的子字符串的集合,
将子字符串的多个二元语法模型和子字符串的多个n元语法模型中的任何一个加到潜在标题的集合;
按照所述潜在标题的长度的顺序对潜在标题进行评估,以从所述潜在标题的集合中选择候选标题;以及
利用选择的候选标题的位置,从文档的去标签版本中提取副标题信息。
2.如权利要求1所述的方法,其中,所述评估步骤包括如下步骤:
在文档的去标签版本中,识别正在被评估的选择的候选标题的位置;
检验选择的候选标题在去标签内容中的被识别的位置包括完整的行;
检验选择的候选标题的长度超过去标签内容中的最小长度;并且
确保选择的候选标题包括文档中的规则文本。
3.如权利要求1所述的方法,其中,所述提取步骤包括提取位于距所述潜在标题的位置的最短距离以内的、代表日期的字符串。
4.如权利要求1所述的方法,其中,所述提取步骤包括提取位于距所述潜在标题的位置的最短距离以内的、代表名字的字符串。
5.如权利要求1所述的方法,其中,所述提取步骤包括提取位于距所述潜在标题的位置的最短距离以内的、代表文档来源的字符串。
6.一种在被爬行的文档中自动提取副标题信息的、由处理器实现的系统,包括:
输入文档模块,其中所述文档包括题目元标签;
去标签版本产生模块,从文档除去格式标签以产生文档的去标签版本;
标题检测模块,用于从文档的题目元标签的子字符串及子字符串的二元语法模型和n元语法模型中检测文档的潜在标题的集合,
所述标题检测模块还包括根据题目元标签构成所述潜在标题的集合并通过按照所述题目元标签中的所有标点符号将所述题目元标签分开,产生所述题目元标签的子字符串集合,来构成所述潜在标题的集合,
所述标题检测模块还将所述子字符串的多个二元语法模型和所述子字符串的多个n元语法模型中的任何一个加到所述潜在标题的集合;
标题评估模块,用于按照所述潜在标题的长度的顺序对潜在标题进行评估,以从所述潜在标题的集合中选择候选标题;以及
副标题提取模块,用于利用选择的候选标题的位置,从文档的去标签版本中提取副标题信息。
7.如权利要求6所述的系统,其中,所述标题评估模块通过如下步骤进行评估:
在文档的去标签版本中,识别正在被评估的选择的候选标题的位置;
检验选择的候选标题在去标签内容中的被识别的位置包括完整的行;
检验选择的候选标题的长度超过去标签内容中的最小长度;并且
确保选择的候选标题包括文档中的规则文本。
8.如权利要求6所述的系统,其中,所述副标题提取模块提取位于距所述潜在标题的位置的最短距离以内的、代表日期的字符串。
9.如权利要求6所述的系统,其中,所述副标题提取模块提取位于距所述潜在标题的位置的最短距离以内的、代表名字的字符串。
10.如权利要求6所述的系统,其中,所述副标题提取模块提取位于距所述潜在标题的位置的最短距离以内的、代表文档来源的字符串。
11.一种在被爬行的文档中自动提取副标题信息的、由处理器实现的服务,包括如下步骤:
接收文档;
调用自主硬件配置实用程序,其中,通过以下步骤使文档可用于自主硬件配置实用程序以便在文档中自动提取副标题信息:
输入文档,其中所述文档包括题目元标签;
从文档除去格式标签以产生文档的去标签版本;
从文档的题目元标签的子字符串及子字符串的二元语法模型和n元语法模型中检测文档的潜在标题的集合,
所述检测文档的潜在标题的集合的步骤还包括根据题目元标签构成潜在标题的集合并按照所述题目元标签中的所有标点符号将所述题目元标签分开,产生所述题目元标签的子字符串的集合,
将子字符串的多个二元语法模型和子字符串的多个n元语法模型中的任何一个加到潜在标题的集合;
按照所述潜在标题的长度的顺序对潜在标题进行评估,以从所述潜在标题的集合中选择候选标题;以及
利用选择的候选标题的位置,从文档的去标签版本中提取副标题信息。
12.如权利要求11所述的服务,其中,所述评估步骤包括如下步骤:
在文档的去标签版本中识别正在被评估的选择的候选标题的位置;
检验选择的候选标题在去标签内容中的被识别的位置包括完整的行;
检验选择的候选标题的长度超过去标签内容中的最小长度;并且确保选择的候选标题包括文档中的规则文本。
13.如权利要求11所述的服务,其中,提取步骤包括提取位于距所述潜在标题的位置的最短距离以内的、代表日期的字符串。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/259,608 | 2005-10-25 | ||
US11/259,608 US7464078B2 (en) | 2005-10-25 | 2005-10-25 | Method for automatically extracting by-line information |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1955952A CN1955952A (zh) | 2007-05-02 |
CN100514323C true CN100514323C (zh) | 2009-07-15 |
Family
ID=37986489
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB2006101357007A Expired - Fee Related CN100514323C (zh) | 2005-10-25 | 2006-10-24 | 用于自动提取副标题信息的系统和方法 |
Country Status (2)
Country | Link |
---|---|
US (2) | US7464078B2 (zh) |
CN (1) | CN100514323C (zh) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006044549A2 (en) * | 2004-10-13 | 2006-04-27 | Bloomberg L.P. | System and method for managing news headlines |
US8429148B1 (en) | 2005-11-01 | 2013-04-23 | At&T Intellectual Property Ii, L.P. | Method and apparatus for automatically generating headlines based on data retrieved from a network and for answering questions related to a headline |
US8983970B1 (en) | 2006-12-07 | 2015-03-17 | Google Inc. | Ranking content using content and content authors |
US8577866B1 (en) | 2006-12-07 | 2013-11-05 | Googe Inc. | Classifying content |
US20080168049A1 (en) * | 2007-01-08 | 2008-07-10 | Microsoft Corporation | Automatic acquisition of a parallel corpus from a network |
WO2009070931A1 (en) * | 2007-12-06 | 2009-06-11 | Google Inc. | Cjk name detection |
US10692092B2 (en) * | 2007-12-21 | 2020-06-23 | Ebay Inc. | System and method for providing on-line advertising with dynamic content |
US8156130B2 (en) | 2008-10-17 | 2012-04-10 | Embarq Holdings Company Llc | System and method for collapsing search results |
US8874564B2 (en) * | 2008-10-17 | 2014-10-28 | Centurylink Intellectual Property Llc | System and method for communicating search results to one or more other parties |
US8326829B2 (en) * | 2008-10-17 | 2012-12-04 | Centurylink Intellectual Property Llc | System and method for displaying publication dates for search results |
US8924846B2 (en) * | 2009-07-03 | 2014-12-30 | Hewlett-Packard Development Company, L.P. | Apparatus and method for text extraction |
CN102375806B (zh) * | 2010-08-23 | 2014-05-07 | 北大方正集团有限公司 | 一种文档标题提取方法和装置 |
US8805766B2 (en) | 2010-10-19 | 2014-08-12 | Hewlett-Packard Development Company, L.P. | Methods and systems for modifying a knowledge base system |
US8892584B1 (en) * | 2011-03-28 | 2014-11-18 | Symantec Corporation | Systems and methods for identifying new words from a meta tag |
CA2854886A1 (en) | 2011-11-08 | 2013-05-16 | Google Inc. | Systems and methods for generating and displaying hierarchical search results |
US20150254213A1 (en) * | 2014-02-12 | 2015-09-10 | Kevin D. McGushion | System and Method for Distilling Articles and Associating Images |
CN106503002A (zh) * | 2015-09-07 | 2017-03-15 | 张晓晔 | 一种以若干标签替代标题显示商品主要信息的方法 |
CN105760546B (zh) * | 2016-03-16 | 2019-07-30 | 广州索答信息科技有限公司 | 互联网新闻摘要的自动生成方法和装置 |
CN107203509B (zh) * | 2017-04-20 | 2023-06-20 | 北京拓尔思信息技术股份有限公司 | 标题生成方法和装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1325513A (zh) * | 1998-09-09 | 2001-12-05 | 发明机器公司 | 具有知识生成能力的文档语义分析/选择 |
CN1539112A (zh) * | 2001-08-13 | 2004-10-20 | �Ҵ���˾ | 汇总与聚合以将文件就概念分类 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6924828B1 (en) | 1999-04-27 | 2005-08-02 | Surfnotes | Method and apparatus for improved information representation |
US6836768B1 (en) | 1999-04-27 | 2004-12-28 | Surfnotes | Method and apparatus for improved information representation |
US7240067B2 (en) * | 2000-02-08 | 2007-07-03 | Sybase, Inc. | System and methodology for extraction and aggregation of data from dynamic content |
US6735586B2 (en) | 2000-02-08 | 2004-05-11 | Sybase, Inc. | System and method for dynamic content retrieval |
US6738767B1 (en) * | 2000-03-20 | 2004-05-18 | International Business Machines Corporation | System and method for discovering schematic structure in hypertext documents |
US7152058B2 (en) * | 2000-07-13 | 2006-12-19 | Biap Systems, Inc. | Apparatus for and method of selectively retrieving information and enabling its subsequent display |
US7925967B2 (en) * | 2000-11-21 | 2011-04-12 | Aol Inc. | Metadata quality improvement |
JP3768105B2 (ja) * | 2001-01-29 | 2006-04-19 | 株式会社東芝 | 翻訳装置、翻訳方法並びに翻訳プログラム |
GB0104052D0 (en) * | 2001-02-19 | 2001-04-04 | Calaba Ltd | Da`a mining method and system |
JP2003000673A (ja) | 2001-06-19 | 2003-01-07 | Tachibana Yoki Kk | 足裏ツボ刺激健康器具 |
JP4198343B2 (ja) | 2001-08-27 | 2008-12-17 | セイコーエプソン株式会社 | 文書表示装置の制御方法および文書表示装置 |
US20040111400A1 (en) * | 2002-12-10 | 2004-06-10 | Xerox Corporation | Method for automatic wrapper generation |
JP3982454B2 (ja) * | 2003-05-27 | 2007-09-26 | ソニー株式会社 | 携帯型電子機器、ウェブページ処理方法およびプログラム |
US7363294B2 (en) * | 2003-12-19 | 2008-04-22 | Fuji Xerox Co., Ltd. | Indexing for contextual revisitation and digest generation |
US20050165789A1 (en) * | 2003-12-22 | 2005-07-28 | Minton Steven N. | Client-centric information extraction system for an information network |
WO2006046523A1 (ja) * | 2004-10-25 | 2006-05-04 | Nec Corporation | 文書解析システム、及び文書適応システム |
US20060259462A1 (en) * | 2005-05-12 | 2006-11-16 | Sybase, Inc. | System and Methodology for Real-time Content Aggregation and Syndication |
US7660783B2 (en) * | 2006-09-27 | 2010-02-09 | Buzzmetrics, Inc. | System and method of ad-hoc analysis of data |
-
2005
- 2005-10-25 US US11/259,608 patent/US7464078B2/en not_active Expired - Fee Related
-
2006
- 2006-10-24 CN CNB2006101357007A patent/CN100514323C/zh not_active Expired - Fee Related
-
2008
- 2008-08-15 US US12/192,917 patent/US8321396B2/en not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1325513A (zh) * | 1998-09-09 | 2001-12-05 | 发明机器公司 | 具有知识生成能力的文档语义分析/选择 |
CN1539112A (zh) * | 2001-08-13 | 2004-10-20 | �Ҵ���˾ | 汇总与聚合以将文件就概念分类 |
Non-Patent Citations (2)
Title |
---|
http://www.holovaty.com/blog/archive/2002/10/25/1741. ,Page titles on newsarticlePages. 2002 |
http://www.holovaty.com/blog/archive/2002/10/25/1741. ,Page titles on newsarticlePages. 2002 * |
Also Published As
Publication number | Publication date |
---|---|
US8321396B2 (en) | 2012-11-27 |
US20080306941A1 (en) | 2008-12-11 |
US20070094232A1 (en) | 2007-04-26 |
CN1955952A (zh) | 2007-05-02 |
US7464078B2 (en) | 2008-12-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100514323C (zh) | 用于自动提取副标题信息的系统和方法 | |
CN102073726B (zh) | 搜索引擎系统的结构化数据的引入方法和装置 | |
CN102073725B (zh) | 结构化数据的搜索方法和实现该搜索方法的搜索引擎系统 | |
CN101918945B (zh) | 用于执行自动扩展的语言搜索的方法和系统 | |
US7055094B2 (en) | Virtual tags and the process of virtual tagging utilizing user feedback in transformation rules | |
CN101452453B (zh) | 一种输入法网址导航的方法和一种输入法系统 | |
US8554800B2 (en) | System, methods and applications for structured document indexing | |
CN113822067A (zh) | 关键信息提取方法、装置、计算机设备及存储介质 | |
US20090248707A1 (en) | Site-specific information-type detection methods and systems | |
US20070198727A1 (en) | Method, apparatus and system for extracting field-specific structured data from the web using sample | |
US20090019015A1 (en) | Mathematical expression structured language object search system and search method | |
Zheng et al. | Template-independent news extraction based on visual consistency | |
CN101809572A (zh) | 在搜索结果页面上包括交互式元素的系统和方法 | |
CN1954321A (zh) | 具有实体检测的查询改写 | |
CN101192234A (zh) | 一种基于网页抽取的搜索系统及搜索方法 | |
US20110246462A1 (en) | Method and System for Prompting Changes of Electronic Document Content | |
Biagioli et al. | The NIR project: Standards and tools for legislative drafting and legal document web publication | |
Mika | Microsearch: An Interface for Semantic Search. | |
JPWO2003060764A1 (ja) | 情報検索システム | |
CN109948015B (zh) | 一种元搜索列表结果抽取方法及系统 | |
CN115186240A (zh) | 基于关联性信息的社交网络用户对齐方法、装置、介质 | |
CN101310274B (zh) | 知识相关性搜索引擎 | |
Lingam et al. | Supporting end-users in the creation of dependable web clips | |
CN105677827A (zh) | 一种表单的获取方法及装置 | |
CN105468688A (zh) | 一种站点模板的处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20090715 Termination date: 20181024 |