CN1400547A - 格式文档中的信息的抽取装置及抽取方法 - Google Patents

格式文档中的信息的抽取装置及抽取方法 Download PDF

Info

Publication number
CN1400547A
CN1400547A CN01123845A CN01123845A CN1400547A CN 1400547 A CN1400547 A CN 1400547A CN 01123845 A CN01123845 A CN 01123845A CN 01123845 A CN01123845 A CN 01123845A CN 1400547 A CN1400547 A CN 1400547A
Authority
CN
China
Prior art keywords
special
string
information
character string
typesetting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN01123845A
Other languages
English (en)
Other versions
CN1167027C (zh
Inventor
黄晓宏
徐国伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CNB011238453A priority Critical patent/CN1167027C/zh
Priority to JP2003519828A priority patent/JP2004538576A/ja
Priority to PCT/JP2002/007983 priority patent/WO2003014966A2/en
Publication of CN1400547A publication Critical patent/CN1400547A/zh
Priority to US10/768,178 priority patent/US20060143555A1/en
Application granted granted Critical
Publication of CN1167027C publication Critical patent/CN1167027C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

格式文档中的信息的抽取装置,包括:输入格式文档的输入单元(1);对输入的格式文档进行分析,并保持特殊排印信息的排印信息保持单元(2);对于分析的结果,利用字号、字体、颜色等排印信息来识别特殊字符串的特殊字符串判定单元(3);抽取识别出来的特殊字符串的特殊字符串抽取单元(4);以及输出抽取出来的字符串的输出单元(5)。当判断出某个字符串的排印信息为特殊排印信息时,将其判断为特殊字符串。由此,能够对于不同类型的格式文档自动地进行信息的抽取。

Description

格式文档中的信息的抽取装置及抽取方法
技术领域
本发明涉及从输入的文档,例如进行网上销售的网页中自动地抽取出特殊字符串的文档中的信息的抽取装置及抽取方法。
背景技术
现有的从文档中抽取信息的装置,例如有S.Soderland“Learning toExtract Text-based Information from the World Wide Web”,Proc.3rd Intl Conf.on Knowledge Discovery and Data Mining(KDD-97)中公开的技术。在现有技术中,利用位于特殊字符串之前的属性名(例如“商品名”)的字符串来判别特殊字符串并将其抽出。
在现有技术中,因为是利用位于特殊字符串之前的属性名(“商品名”等)的字符串来判别特殊字符串并将其抽出的,因而在像‘商品名:モノグラムアクセサリ一ポ一チ’那样的、齐备了作为属性名的‘商品名’和作为属性值的商品名称的场合是有效的。但是,像因特网的网页那样的文档有各种各样的格式,存在着没有属性名的情况。例如,存在着只有‘モノダラムアクセサリ一ポ一チ’的情况。在没有属性名的情况下,采用上述技术就不能抽出特殊字符串。另外,在现有技术中需要人工提供样本供机器学习,不能自动地抽取出特殊字符串。
本发明是为了解决上述问题而作出的,其目的在于提供一种能够从输入的格式文档中自动地抽取出特殊字符串的文档中的信息的抽取装置及抽取方法。
发明内容
为了解决上述问题,本发明的格式文档中的信息的抽取装置,包括:输入格式文档的输入单元;对输入的格式文档进行分析,并保持特殊排印信息的排印信息保持单元;对于分析的结果,利用字号、字体、颜色等排印信息来识别特殊字符串的特殊字符串判定单元;抽取识别出来的特殊字符串的特殊字符串抽取单元;以及输出抽取出来的字符串的输出单元。
本发明的格式文档中的信息的抽取方法,包括以下步骤:输入格式文档的步骤;对输入的格式文档进行分析,并保持特殊排印信息的步骤;对于分析的结果,利用字号、字体、颜色等排印信息来识别特殊字符串的步骤;抽取识别出来的特殊字符串的步骤;以及输出抽取出来的字符串的步骤。
若采用本发明,因为对输入的格式文档进行分析,利用字号、字体、颜色等排印信息来判断出特殊字符串信息并抽取特殊字符串,故能够从输入的格式文档中自动地抽取出特殊字符串,并能够大幅度提高抽取准确度。另外,在现有技术中需要人工提供样本供机器学习,而本发明不需要学习样本,能够对于不同类型的格式文档自动地进行判断和抽取。
附图说明
图1为本发明的格式文档中的信息的抽取装置的结构框图。
图2为说明本发明的实施例1的文档数据和流程图。
图3为说明本发明的实施例2的文档数据和流程图。
图4为说明本发明的实施例3的文档数据和流程图。
图5为说明本发明的实施例4的文档数据和流程图。
具体实施方式
图1为本发明的格式文档中的信息的抽取装置的结构框图。
在图1的格式文档中的信息的抽取装置中,1为输入格式文档的输入单元;2为利用某种方法对输入的格式文档进行分析,并保持特殊排印信息的排印信息保持单元;3为对于分析的结果,利用字号、字体、颜色等排印信息来识别特殊字符串的特殊字符串判定单元;4为抽取识别出来的特殊字符串的特殊字符串抽取单元;5为输出抽取出来的字符串的输出单元。
下面,参照图2-图5,以从HTML(超文本标志语言)文档中抽取出特殊字符串为例来说明本发明的格式文档中的信息的抽取装置的动作。
(实施例1)
图2为说明本发明的实施例1的文档数据和流程图。其中,图2(a)为某个网上销售信息(HTML形式的文档);图2(b)为图2(a)中的信息的HTML源文件;图2(c)为实施例1的信息抽取动作的流程图。
下面说明实施例1的信息抽取动作的流程。在步骤101中,输入图2(b)所示的HTML源文件。在步骤102中对在步骤101中输入的HTML源文件进行分析,发现排印信息。接着在步骤103-107中进行特殊字符串的抽取。
首先,在步骤103中根据步骤102的分析结果确定字符串判断对象。在步骤104中判断在步骤103中确定的字符串的字号与周围相比是否为最大。若判断为否则进入步骤106。在步骤106判断该字符串的排印信息是否超出了预先设定的范围,如果超出了预先设定的范围则进到步骤107,结束信息抽取动作。在步骤106中如果判断为没有超出预先设定的范围则返回步骤103,在步骤103确定下一个判断对象。
若在步骤104中判断为是,具体说在本例中字符串“Windows操作及应用技术(第二版)”的排印信息为(FONT size=5),与周围相比为最大,因而判断为特殊排印信息。于是,进到步骤105,在步骤105中将字符串“Windows操作及应用技术(第二版)”判定为特殊字符串(商品名)。
采用本实施例的信息抽取装置,利用字号这样的排印信息来判断出特殊字符串,故能够从输入的格式文档中自动地抽取出特殊字符串。
(实施例2)
图3为说明本发明的实施例2的文档数据和流程图。其中,图3(a)为某个网上销售信息(HTML形式的文档);图3(b)为图3(a)中的信息的HTML源文件;图3(c)为实施例2的信息抽取动作的流程图。
下面说明实施例2的信息抽取动作的流程。与上述实施例1相同的动作在此省略重复的说明,仅对不同的动作进行说明。
在步骤204中判断在步骤203中确定的字符串的字体等是否与其他不同,与周围相比是否为特殊。若在步骤204中判断为是,具体说在本例中字符串“Windows操作及应用技术(第二版)”的排印信息为(字体“华文行楷”,且颜色为红(color=#ff0000)),与周围相比为特殊,因而判断为特殊排印信息。于是,进到步骤205,在步骤205中将字符串“Windows操作及应用技术(第二版)”判定为特殊字符串(商品名)。
采用本实施例的信息抽取装置,利用字体和颜色这样的排印信息来判断出特殊字符串,故能够从输入的格式文档中自动地抽取出特殊字符串。
(实施例3)
图4为说明本发明的实施例3的文档数据和流程图。其中,图4(a)为某个网上销售信息(HTML形式的文档);图4(b)为图4(a)中的信息的HTML源文件;图4(c)为实施例3的信息抽取动作的流程图。
下面说明实施例3的信息抽取动作的流程。与上述实施例1相同的动作在此省略重复的说明,仅对不同的动作进行说明。
在步骤304中判断在步骤303中确定的字符串的字体等是否与其他不同,与周围相比是否为特殊。若在步骤304中判断为是,具体说在本例中字符串“Windows操作及应用技术(第二版)”的排印信息为(字体“华文行楷”,且为粗字(<B><FONT  …</B>)),与周围相比为特殊,因而判断为特殊排印信息。于是,进到步骤305,在步骤305中将字符串“Windows操作及应用技术(第二版)”判定为特殊字符串(商品名)。
采用本实施例的信息抽取装置,利用字体和粗字这样的排印信息来判断出特殊字符串,故能够从输入的格式文档中自动地抽取出特殊字符串。
(实施例4)
图5为说明本发明的实施例4的文档数据和流程图。其中,图5(a)为某个网上销售信息(HTML形式的文档);图5(b)为图5(a)中的信息的HTML源文件;图5(c)为实施例4的信息抽取动作的流程图。
下面说明实施例4的信息抽取动作的流程。与上述实施例1相同的动作在此省略重复的说明,仅对不同的动作进行说明。
在步骤404中判断在步骤403中确定的字符串的字体等是否与其他不同,与周围相比是否为特殊。若在步骤404中判断为是,具体说在本例中字符串“Windows操作及应用技术(第二版)”的排印信息为(颜色为红(color=#ff0000),且为粗字),与周围相比为特殊,因而判断为特殊排印信息。于是,进到步骤405,在步骤405中将字符串“Windows操作及应用技术(第二版)”判定为特殊字符串(商品名)。
采用本实施例的信息抽取装置,利用颜色和粗字这样的排印信息来判断出特殊字符串,故能够从输入的格式文档中自动地抽取出特殊字符串。
以上的实施例1-4仅仅是用来说明本发明的,而不是限定本发明的。在不脱离本发明的精神实质的范围内的变更应包含在本发明中。例如,将上述实施例1-4进行适当组合和变更,同样可以达到本发明自动地抽取出特殊字符串的效果。

Claims (12)

1.格式文档中的信息的抽取装置,包括:输入格式文档的输入单元(1);对输入的格式文档进行分析,并保持特殊排印信息的排印信息保持单元(2);对于分析的结果,利用字号、字体、颜色等排印信息来识别特殊字符串的特殊字符串判定单元(3);抽取识别出来的特殊字符串的特殊字符串抽取单元(4);以及输出抽取出来的字符串的输出单元(5)。
2.权利要求1所述的格式文档中的信息的抽取装置,其特征在于,上述特殊字符串判定单元(3)利用格式文档的排印信息,当判断出某个字符串的排印信息为特殊排印信息时,将其判断为特殊字符串。
3.权利要求1或2所述的格式文档中的信息的抽取装置,其特征在于,上述格式文档为HTML文档,上述特殊字符串判定单元(3)根据对HTML文档的分析结果,当判断出某个字符串的字号与周围相比为最大时将该字符串判断为特殊字符串。
4.权利要求1或2所述的格式文档中的信息的抽取装置,其特征在于,上述格式文档为HTML文档,上述特殊字符串判定单元(3)根据对HTML文档的分析结果,当判断出某个字符串的颜色和字体与周围相比为特殊时将该字符串判断为特殊字符串。
5.权利要求1或2所述的格式文档中的信息的抽取装置,其特征在于,上述格式文档为HTML文档,上述特殊字符串判定单元(3)根据对HTML文档的分析结果,当判断出某个字符串的字体与其他不同且为粗字,与周围相比为特殊时将该字符串判断为特殊字符串。
6.权利要求1或2所述的格式文档中的信息的抽取装置,其特征在于,上述格式文档为HTML文档,上述特殊字符串判定单元(3)根据对HTML文档的分析结果,当判断出某个字符串的颜色与其他不同且为粗字,与周围相比为特殊时将该字符串判断为特殊字符串。
7.格式文档中的信息的抽取方法,包括以下步骤:输入格式文档的步骤;对输入的格式文档进行分析,并保持特殊排印信息的步骤;对于分析的结果,利用字号、字体、颜色等排印信息来识别特殊字符串的步骤;抽取识别出来的特殊字符串的步骤;以及输出抽取出来的字符串的步骤。
8.权利要求7所述的格式文档中的信息的抽取方法,其特征在于,在上述识别特殊字符串的步骤中利用格式文档的排印信息,当判断出某个字符串的排印信息为特殊排印信息时,将其判断为特殊字符串。
9.权利要求7或8所述的格式文档中的信息的抽取方法,其特征在于,上述格式文档为HTML文档,在上述识别特殊字符串的步骤中根据对HTML文档的分析结果,当判断出某个字符串的字号与周围相比为最大时将该字符串判断为特殊字符串。
10.权利要求7或8所述的格式文档中的信息的抽取方法,其特征在于,上述格式文档为HTML文档,在上述识别特殊字符串的步骤中根据对HTML文档的分析结果,当判断出某个字符串的颜色和字体与周围相比为特殊时将该字符串判断为特殊字符串。
11.权利要求7或8所述的格式文档中的信息的抽取方法,其特征在于,上述格式文档为HTML文档,在上述识别特殊字符串的步骤中根据对HTML文档的分析结果,当判断出某个字符串的字体与其他不同且为粗字,与周围相比为特殊时将该字符串判断为特殊字符串。
12.权利要求7或8所述的格式文档中的信息的抽取方法,其特征在于,上述格式文档为HTML文档,根据对HTML文档的分析结果,当判断出某个字符串的颜色与其他不同且为粗字,与周围相比为特殊时将该字符串判断为特殊字符串。
CNB011238453A 2001-08-03 2001-08-03 格式文档中的信息的抽取装置及抽取方法 Expired - Fee Related CN1167027C (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CNB011238453A CN1167027C (zh) 2001-08-03 2001-08-03 格式文档中的信息的抽取装置及抽取方法
JP2003519828A JP2004538576A (ja) 2001-08-03 2002-08-05 書式付き文書から情報を抽出する装置および方法
PCT/JP2002/007983 WO2003014966A2 (en) 2001-08-03 2002-08-05 An apparatus and method for extracting information from a formatted document
US10/768,178 US20060143555A1 (en) 2001-08-03 2004-02-02 Apparatus and method for extracting information from a formatted document

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB011238453A CN1167027C (zh) 2001-08-03 2001-08-03 格式文档中的信息的抽取装置及抽取方法

Publications (2)

Publication Number Publication Date
CN1400547A true CN1400547A (zh) 2003-03-05
CN1167027C CN1167027C (zh) 2004-09-15

Family

ID=4665327

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB011238453A Expired - Fee Related CN1167027C (zh) 2001-08-03 2001-08-03 格式文档中的信息的抽取装置及抽取方法

Country Status (4)

Country Link
US (1) US20060143555A1 (zh)
JP (1) JP2004538576A (zh)
CN (1) CN1167027C (zh)
WO (1) WO2003014966A2 (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102682065A (zh) * 2011-02-03 2012-09-19 微软公司 使用输入-输出示例的语义实体操纵
US9552335B2 (en) 2012-06-04 2017-01-24 Microsoft Technology Licensing, Llc Expedited techniques for generating string manipulation programs
US9613115B2 (en) 2010-07-12 2017-04-04 Microsoft Technology Licensing, Llc Generating programs based on input-output examples using converter modules
US10671353B2 (en) 2018-01-31 2020-06-02 Microsoft Technology Licensing, Llc Programming-by-example using disjunctive programs
US10846298B2 (en) 2016-10-28 2020-11-24 Microsoft Technology Licensing, Llc Record profiling for dataset sampling
CN112446259A (zh) * 2019-09-02 2021-03-05 深圳中兴网信科技有限公司 图像处理方法、装置、终端和计算机可读存储介质
US11256710B2 (en) 2016-10-20 2022-02-22 Microsoft Technology Licensing, Llc String transformation sub-program suggestion
US11620304B2 (en) 2016-10-20 2023-04-04 Microsoft Technology Licensing, Llc Example management for string transformation

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8041695B2 (en) 2008-04-18 2011-10-18 The Boeing Company Automatically extracting data from semi-structured documents
CN101980185B (zh) * 2010-10-29 2013-03-27 方正国际软件有限公司 去除从双层电子文件中复制的文本中的空格的方法与系统
CN102546577A (zh) * 2010-12-27 2012-07-04 北京大学 一种版式数据的压缩和解压缩方法及系统
CN104714969B (zh) * 2013-12-16 2018-04-27 阿里巴巴集团控股有限公司 一种属性值的检测方法和检测装置
CN105095466A (zh) * 2015-07-31 2015-11-25 山东大学 一种web文本信息抽取方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5276793A (en) * 1990-05-14 1994-01-04 International Business Machines Corporation System and method for editing a structured document to preserve the intended appearance of document elements
JP3270351B2 (ja) * 1997-01-31 2002-04-02 株式会社東芝 電子化文書処理装置
US6298357B1 (en) * 1997-06-03 2001-10-02 Adobe Systems Incorporated Structure extraction on electronic documents
CA2242158C (en) * 1997-07-01 2004-06-01 Hitachi, Ltd. Method and apparatus for searching and displaying structured document
US6044375A (en) * 1998-04-30 2000-03-28 Hewlett-Packard Company Automatic extraction of metadata using a neural network
JP4042830B2 (ja) * 1998-05-12 2008-02-06 日本電信電話株式会社 コンテンツ属性情報正規化方法、情報収集・サービス提供システム、並びにプログラム格納記録媒体
JP3715444B2 (ja) * 1998-06-30 2005-11-09 株式会社東芝 構造化文書保存方法及び構造化文書保存装置
US6924828B1 (en) * 1999-04-27 2005-08-02 Surfnotes Method and apparatus for improved information representation
JP4256543B2 (ja) * 1999-08-17 2009-04-22 インターナショナル・ビジネス・マシーンズ・コーポレーション 表示情報確定方法及び装置、表示情報確定のためのソフトウエア・プロダクトを格納した記憶媒体
JP3879350B2 (ja) * 2000-01-25 2007-02-14 富士ゼロックス株式会社 構造化文書処理システム及び構造化文書処理方法
JP2001331362A (ja) * 2000-03-17 2001-11-30 Sony Corp ファイル変換方法、データ変換装置及びファイル表示システム
US6778986B1 (en) * 2000-07-31 2004-08-17 Eliyon Technologies Corporation Computer method and apparatus for determining site type of a web site
US7581170B2 (en) * 2001-05-31 2009-08-25 Lixto Software Gmbh Visual and interactive wrapper generation, automated information extraction from Web pages, and translation into XML

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9613115B2 (en) 2010-07-12 2017-04-04 Microsoft Technology Licensing, Llc Generating programs based on input-output examples using converter modules
CN102682065A (zh) * 2011-02-03 2012-09-19 微软公司 使用输入-输出示例的语义实体操纵
CN102682065B (zh) * 2011-02-03 2015-03-25 微软公司 使用输入-输出示例的语义实体操纵
US9552335B2 (en) 2012-06-04 2017-01-24 Microsoft Technology Licensing, Llc Expedited techniques for generating string manipulation programs
US11256710B2 (en) 2016-10-20 2022-02-22 Microsoft Technology Licensing, Llc String transformation sub-program suggestion
US11620304B2 (en) 2016-10-20 2023-04-04 Microsoft Technology Licensing, Llc Example management for string transformation
US10846298B2 (en) 2016-10-28 2020-11-24 Microsoft Technology Licensing, Llc Record profiling for dataset sampling
US10671353B2 (en) 2018-01-31 2020-06-02 Microsoft Technology Licensing, Llc Programming-by-example using disjunctive programs
CN112446259A (zh) * 2019-09-02 2021-03-05 深圳中兴网信科技有限公司 图像处理方法、装置、终端和计算机可读存储介质

Also Published As

Publication number Publication date
CN1167027C (zh) 2004-09-15
US20060143555A1 (en) 2006-06-29
JP2004538576A (ja) 2004-12-24
WO2003014966A3 (en) 2003-10-30
WO2003014966A2 (en) 2003-02-20

Similar Documents

Publication Publication Date Title
CN1167027C (zh) 格式文档中的信息的抽取装置及抽取方法
Ducasse et al. A language independent approach for detecting duplicated code
CN1235143C (zh) 用于存储提交的网页表格的系统、方法和程序产品
US6496203B1 (en) Standardized and application-independent graphical user interface components implemented with web technology
US7013309B2 (en) Method and apparatus for extracting anchorable information units from complex PDF documents
KR100270344B1 (ko) 제1및제2html문서렌더링방법및그시스템
US7092871B2 (en) Tokenizer for a natural language processing system
US6941509B2 (en) Editing HTML DOM elements in web browsers with non-visual capabilities
US20060184639A1 (en) Web content adaption process and system
US20040202352A1 (en) Enhanced readability with flowed bitmaps
CN106557695A (zh) 一种恶意应用检测方法和系统
JPH06223021A (ja) 周辺装置のための制御言語の境界判定方法
CN113569181A (zh) 一种分页数据采集方法及系统
CN1797403A (zh) 用于网页各方面的评估的方法和系统
WO2000060480A9 (en) Automated document inspection system
US6263336B1 (en) Text structure analysis method and text structure analysis device
CN1768337A (zh) 用于优化基于标签的协议流分析的系统和方法
US20030076512A1 (en) System and method to automatically scale preformatted text within an electronic document for printing
CN109684844B (zh) 一种webshell检测方法、装置以及计算设备、计算机可读存储介质
CN108985059B (zh) 一种网页后门检测方法、装置、设备及存储介质
US20020092007A1 (en) Web based application re-coded for OS/2 compatibility
CN1627256A (zh) 一种浏览器显示网页的方法
Perlin An expert system for scoring DNA database profiles
CN114239570A (zh) 基于语义分析的敏感数据识别方法和系统
JP3461938B2 (ja) プログラムのコメント解析装置

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20040915