CN1400547A - 格式文档中的信息的抽取装置及抽取方法 - Google Patents
格式文档中的信息的抽取装置及抽取方法 Download PDFInfo
- Publication number
- CN1400547A CN1400547A CN01123845A CN01123845A CN1400547A CN 1400547 A CN1400547 A CN 1400547A CN 01123845 A CN01123845 A CN 01123845A CN 01123845 A CN01123845 A CN 01123845A CN 1400547 A CN1400547 A CN 1400547A
- Authority
- CN
- China
- Prior art keywords
- special
- string
- information
- character string
- typesetting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
Abstract
格式文档中的信息的抽取装置,包括:输入格式文档的输入单元(1);对输入的格式文档进行分析,并保持特殊排印信息的排印信息保持单元(2);对于分析的结果,利用字号、字体、颜色等排印信息来识别特殊字符串的特殊字符串判定单元(3);抽取识别出来的特殊字符串的特殊字符串抽取单元(4);以及输出抽取出来的字符串的输出单元(5)。当判断出某个字符串的排印信息为特殊排印信息时,将其判断为特殊字符串。由此,能够对于不同类型的格式文档自动地进行信息的抽取。
Description
技术领域
本发明涉及从输入的文档,例如进行网上销售的网页中自动地抽取出特殊字符串的文档中的信息的抽取装置及抽取方法。
背景技术
现有的从文档中抽取信息的装置,例如有S.Soderland“Learning toExtract Text-based Information from the World Wide Web”,Proc.3rd Intl Conf.on Knowledge Discovery and Data Mining(KDD-97)中公开的技术。在现有技术中,利用位于特殊字符串之前的属性名(例如“商品名”)的字符串来判别特殊字符串并将其抽出。
在现有技术中,因为是利用位于特殊字符串之前的属性名(“商品名”等)的字符串来判别特殊字符串并将其抽出的,因而在像‘商品名:モノグラムアクセサリ一ポ一チ’那样的、齐备了作为属性名的‘商品名’和作为属性值的商品名称的场合是有效的。但是,像因特网的网页那样的文档有各种各样的格式,存在着没有属性名的情况。例如,存在着只有‘モノダラムアクセサリ一ポ一チ’的情况。在没有属性名的情况下,采用上述技术就不能抽出特殊字符串。另外,在现有技术中需要人工提供样本供机器学习,不能自动地抽取出特殊字符串。
本发明是为了解决上述问题而作出的,其目的在于提供一种能够从输入的格式文档中自动地抽取出特殊字符串的文档中的信息的抽取装置及抽取方法。
发明内容
为了解决上述问题,本发明的格式文档中的信息的抽取装置,包括:输入格式文档的输入单元;对输入的格式文档进行分析,并保持特殊排印信息的排印信息保持单元;对于分析的结果,利用字号、字体、颜色等排印信息来识别特殊字符串的特殊字符串判定单元;抽取识别出来的特殊字符串的特殊字符串抽取单元;以及输出抽取出来的字符串的输出单元。
本发明的格式文档中的信息的抽取方法,包括以下步骤:输入格式文档的步骤;对输入的格式文档进行分析,并保持特殊排印信息的步骤;对于分析的结果,利用字号、字体、颜色等排印信息来识别特殊字符串的步骤;抽取识别出来的特殊字符串的步骤;以及输出抽取出来的字符串的步骤。
若采用本发明,因为对输入的格式文档进行分析,利用字号、字体、颜色等排印信息来判断出特殊字符串信息并抽取特殊字符串,故能够从输入的格式文档中自动地抽取出特殊字符串,并能够大幅度提高抽取准确度。另外,在现有技术中需要人工提供样本供机器学习,而本发明不需要学习样本,能够对于不同类型的格式文档自动地进行判断和抽取。
附图说明
图1为本发明的格式文档中的信息的抽取装置的结构框图。
图2为说明本发明的实施例1的文档数据和流程图。
图3为说明本发明的实施例2的文档数据和流程图。
图4为说明本发明的实施例3的文档数据和流程图。
图5为说明本发明的实施例4的文档数据和流程图。
具体实施方式
图1为本发明的格式文档中的信息的抽取装置的结构框图。
在图1的格式文档中的信息的抽取装置中,1为输入格式文档的输入单元;2为利用某种方法对输入的格式文档进行分析,并保持特殊排印信息的排印信息保持单元;3为对于分析的结果,利用字号、字体、颜色等排印信息来识别特殊字符串的特殊字符串判定单元;4为抽取识别出来的特殊字符串的特殊字符串抽取单元;5为输出抽取出来的字符串的输出单元。
下面,参照图2-图5,以从HTML(超文本标志语言)文档中抽取出特殊字符串为例来说明本发明的格式文档中的信息的抽取装置的动作。
(实施例1)
图2为说明本发明的实施例1的文档数据和流程图。其中,图2(a)为某个网上销售信息(HTML形式的文档);图2(b)为图2(a)中的信息的HTML源文件;图2(c)为实施例1的信息抽取动作的流程图。
下面说明实施例1的信息抽取动作的流程。在步骤101中,输入图2(b)所示的HTML源文件。在步骤102中对在步骤101中输入的HTML源文件进行分析,发现排印信息。接着在步骤103-107中进行特殊字符串的抽取。
首先,在步骤103中根据步骤102的分析结果确定字符串判断对象。在步骤104中判断在步骤103中确定的字符串的字号与周围相比是否为最大。若判断为否则进入步骤106。在步骤106判断该字符串的排印信息是否超出了预先设定的范围,如果超出了预先设定的范围则进到步骤107,结束信息抽取动作。在步骤106中如果判断为没有超出预先设定的范围则返回步骤103,在步骤103确定下一个判断对象。
若在步骤104中判断为是,具体说在本例中字符串“Windows操作及应用技术(第二版)”的排印信息为(FONT size=5),与周围相比为最大,因而判断为特殊排印信息。于是,进到步骤105,在步骤105中将字符串“Windows操作及应用技术(第二版)”判定为特殊字符串(商品名)。
采用本实施例的信息抽取装置,利用字号这样的排印信息来判断出特殊字符串,故能够从输入的格式文档中自动地抽取出特殊字符串。
(实施例2)
图3为说明本发明的实施例2的文档数据和流程图。其中,图3(a)为某个网上销售信息(HTML形式的文档);图3(b)为图3(a)中的信息的HTML源文件;图3(c)为实施例2的信息抽取动作的流程图。
下面说明实施例2的信息抽取动作的流程。与上述实施例1相同的动作在此省略重复的说明,仅对不同的动作进行说明。
在步骤204中判断在步骤203中确定的字符串的字体等是否与其他不同,与周围相比是否为特殊。若在步骤204中判断为是,具体说在本例中字符串“Windows操作及应用技术(第二版)”的排印信息为(字体“华文行楷”,且颜色为红(color=#ff0000)),与周围相比为特殊,因而判断为特殊排印信息。于是,进到步骤205,在步骤205中将字符串“Windows操作及应用技术(第二版)”判定为特殊字符串(商品名)。
采用本实施例的信息抽取装置,利用字体和颜色这样的排印信息来判断出特殊字符串,故能够从输入的格式文档中自动地抽取出特殊字符串。
(实施例3)
图4为说明本发明的实施例3的文档数据和流程图。其中,图4(a)为某个网上销售信息(HTML形式的文档);图4(b)为图4(a)中的信息的HTML源文件;图4(c)为实施例3的信息抽取动作的流程图。
下面说明实施例3的信息抽取动作的流程。与上述实施例1相同的动作在此省略重复的说明,仅对不同的动作进行说明。
在步骤304中判断在步骤303中确定的字符串的字体等是否与其他不同,与周围相比是否为特殊。若在步骤304中判断为是,具体说在本例中字符串“Windows操作及应用技术(第二版)”的排印信息为(字体“华文行楷”,且为粗字(<B><FONT …</B>)),与周围相比为特殊,因而判断为特殊排印信息。于是,进到步骤305,在步骤305中将字符串“Windows操作及应用技术(第二版)”判定为特殊字符串(商品名)。
采用本实施例的信息抽取装置,利用字体和粗字这样的排印信息来判断出特殊字符串,故能够从输入的格式文档中自动地抽取出特殊字符串。
(实施例4)
图5为说明本发明的实施例4的文档数据和流程图。其中,图5(a)为某个网上销售信息(HTML形式的文档);图5(b)为图5(a)中的信息的HTML源文件;图5(c)为实施例4的信息抽取动作的流程图。
下面说明实施例4的信息抽取动作的流程。与上述实施例1相同的动作在此省略重复的说明,仅对不同的动作进行说明。
在步骤404中判断在步骤403中确定的字符串的字体等是否与其他不同,与周围相比是否为特殊。若在步骤404中判断为是,具体说在本例中字符串“Windows操作及应用技术(第二版)”的排印信息为(颜色为红(color=#ff0000),且为粗字),与周围相比为特殊,因而判断为特殊排印信息。于是,进到步骤405,在步骤405中将字符串“Windows操作及应用技术(第二版)”判定为特殊字符串(商品名)。
采用本实施例的信息抽取装置,利用颜色和粗字这样的排印信息来判断出特殊字符串,故能够从输入的格式文档中自动地抽取出特殊字符串。
以上的实施例1-4仅仅是用来说明本发明的,而不是限定本发明的。在不脱离本发明的精神实质的范围内的变更应包含在本发明中。例如,将上述实施例1-4进行适当组合和变更,同样可以达到本发明自动地抽取出特殊字符串的效果。
Claims (12)
1.格式文档中的信息的抽取装置,包括:输入格式文档的输入单元(1);对输入的格式文档进行分析,并保持特殊排印信息的排印信息保持单元(2);对于分析的结果,利用字号、字体、颜色等排印信息来识别特殊字符串的特殊字符串判定单元(3);抽取识别出来的特殊字符串的特殊字符串抽取单元(4);以及输出抽取出来的字符串的输出单元(5)。
2.权利要求1所述的格式文档中的信息的抽取装置,其特征在于,上述特殊字符串判定单元(3)利用格式文档的排印信息,当判断出某个字符串的排印信息为特殊排印信息时,将其判断为特殊字符串。
3.权利要求1或2所述的格式文档中的信息的抽取装置,其特征在于,上述格式文档为HTML文档,上述特殊字符串判定单元(3)根据对HTML文档的分析结果,当判断出某个字符串的字号与周围相比为最大时将该字符串判断为特殊字符串。
4.权利要求1或2所述的格式文档中的信息的抽取装置,其特征在于,上述格式文档为HTML文档,上述特殊字符串判定单元(3)根据对HTML文档的分析结果,当判断出某个字符串的颜色和字体与周围相比为特殊时将该字符串判断为特殊字符串。
5.权利要求1或2所述的格式文档中的信息的抽取装置,其特征在于,上述格式文档为HTML文档,上述特殊字符串判定单元(3)根据对HTML文档的分析结果,当判断出某个字符串的字体与其他不同且为粗字,与周围相比为特殊时将该字符串判断为特殊字符串。
6.权利要求1或2所述的格式文档中的信息的抽取装置,其特征在于,上述格式文档为HTML文档,上述特殊字符串判定单元(3)根据对HTML文档的分析结果,当判断出某个字符串的颜色与其他不同且为粗字,与周围相比为特殊时将该字符串判断为特殊字符串。
7.格式文档中的信息的抽取方法,包括以下步骤:输入格式文档的步骤;对输入的格式文档进行分析,并保持特殊排印信息的步骤;对于分析的结果,利用字号、字体、颜色等排印信息来识别特殊字符串的步骤;抽取识别出来的特殊字符串的步骤;以及输出抽取出来的字符串的步骤。
8.权利要求7所述的格式文档中的信息的抽取方法,其特征在于,在上述识别特殊字符串的步骤中利用格式文档的排印信息,当判断出某个字符串的排印信息为特殊排印信息时,将其判断为特殊字符串。
9.权利要求7或8所述的格式文档中的信息的抽取方法,其特征在于,上述格式文档为HTML文档,在上述识别特殊字符串的步骤中根据对HTML文档的分析结果,当判断出某个字符串的字号与周围相比为最大时将该字符串判断为特殊字符串。
10.权利要求7或8所述的格式文档中的信息的抽取方法,其特征在于,上述格式文档为HTML文档,在上述识别特殊字符串的步骤中根据对HTML文档的分析结果,当判断出某个字符串的颜色和字体与周围相比为特殊时将该字符串判断为特殊字符串。
11.权利要求7或8所述的格式文档中的信息的抽取方法,其特征在于,上述格式文档为HTML文档,在上述识别特殊字符串的步骤中根据对HTML文档的分析结果,当判断出某个字符串的字体与其他不同且为粗字,与周围相比为特殊时将该字符串判断为特殊字符串。
12.权利要求7或8所述的格式文档中的信息的抽取方法,其特征在于,上述格式文档为HTML文档,根据对HTML文档的分析结果,当判断出某个字符串的颜色与其他不同且为粗字,与周围相比为特殊时将该字符串判断为特殊字符串。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB011238453A CN1167027C (zh) | 2001-08-03 | 2001-08-03 | 格式文档中的信息的抽取装置及抽取方法 |
JP2003519828A JP2004538576A (ja) | 2001-08-03 | 2002-08-05 | 書式付き文書から情報を抽出する装置および方法 |
PCT/JP2002/007983 WO2003014966A2 (en) | 2001-08-03 | 2002-08-05 | An apparatus and method for extracting information from a formatted document |
US10/768,178 US20060143555A1 (en) | 2001-08-03 | 2004-02-02 | Apparatus and method for extracting information from a formatted document |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB011238453A CN1167027C (zh) | 2001-08-03 | 2001-08-03 | 格式文档中的信息的抽取装置及抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1400547A true CN1400547A (zh) | 2003-03-05 |
CN1167027C CN1167027C (zh) | 2004-09-15 |
Family
ID=4665327
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB011238453A Expired - Fee Related CN1167027C (zh) | 2001-08-03 | 2001-08-03 | 格式文档中的信息的抽取装置及抽取方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20060143555A1 (zh) |
JP (1) | JP2004538576A (zh) |
CN (1) | CN1167027C (zh) |
WO (1) | WO2003014966A2 (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102682065A (zh) * | 2011-02-03 | 2012-09-19 | 微软公司 | 使用输入-输出示例的语义实体操纵 |
US9552335B2 (en) | 2012-06-04 | 2017-01-24 | Microsoft Technology Licensing, Llc | Expedited techniques for generating string manipulation programs |
US9613115B2 (en) | 2010-07-12 | 2017-04-04 | Microsoft Technology Licensing, Llc | Generating programs based on input-output examples using converter modules |
US10671353B2 (en) | 2018-01-31 | 2020-06-02 | Microsoft Technology Licensing, Llc | Programming-by-example using disjunctive programs |
US10846298B2 (en) | 2016-10-28 | 2020-11-24 | Microsoft Technology Licensing, Llc | Record profiling for dataset sampling |
CN112446259A (zh) * | 2019-09-02 | 2021-03-05 | 深圳中兴网信科技有限公司 | 图像处理方法、装置、终端和计算机可读存储介质 |
US11256710B2 (en) | 2016-10-20 | 2022-02-22 | Microsoft Technology Licensing, Llc | String transformation sub-program suggestion |
US11620304B2 (en) | 2016-10-20 | 2023-04-04 | Microsoft Technology Licensing, Llc | Example management for string transformation |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8041695B2 (en) | 2008-04-18 | 2011-10-18 | The Boeing Company | Automatically extracting data from semi-structured documents |
CN101980185B (zh) * | 2010-10-29 | 2013-03-27 | 方正国际软件有限公司 | 去除从双层电子文件中复制的文本中的空格的方法与系统 |
CN102546577A (zh) * | 2010-12-27 | 2012-07-04 | 北京大学 | 一种版式数据的压缩和解压缩方法及系统 |
CN104714969B (zh) * | 2013-12-16 | 2018-04-27 | 阿里巴巴集团控股有限公司 | 一种属性值的检测方法和检测装置 |
CN105095466A (zh) * | 2015-07-31 | 2015-11-25 | 山东大学 | 一种web文本信息抽取方法 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5276793A (en) * | 1990-05-14 | 1994-01-04 | International Business Machines Corporation | System and method for editing a structured document to preserve the intended appearance of document elements |
JP3270351B2 (ja) * | 1997-01-31 | 2002-04-02 | 株式会社東芝 | 電子化文書処理装置 |
US6298357B1 (en) * | 1997-06-03 | 2001-10-02 | Adobe Systems Incorporated | Structure extraction on electronic documents |
CA2242158C (en) * | 1997-07-01 | 2004-06-01 | Hitachi, Ltd. | Method and apparatus for searching and displaying structured document |
US6044375A (en) * | 1998-04-30 | 2000-03-28 | Hewlett-Packard Company | Automatic extraction of metadata using a neural network |
JP4042830B2 (ja) * | 1998-05-12 | 2008-02-06 | 日本電信電話株式会社 | コンテンツ属性情報正規化方法、情報収集・サービス提供システム、並びにプログラム格納記録媒体 |
JP3715444B2 (ja) * | 1998-06-30 | 2005-11-09 | 株式会社東芝 | 構造化文書保存方法及び構造化文書保存装置 |
US6924828B1 (en) * | 1999-04-27 | 2005-08-02 | Surfnotes | Method and apparatus for improved information representation |
JP4256543B2 (ja) * | 1999-08-17 | 2009-04-22 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 表示情報確定方法及び装置、表示情報確定のためのソフトウエア・プロダクトを格納した記憶媒体 |
JP3879350B2 (ja) * | 2000-01-25 | 2007-02-14 | 富士ゼロックス株式会社 | 構造化文書処理システム及び構造化文書処理方法 |
JP2001331362A (ja) * | 2000-03-17 | 2001-11-30 | Sony Corp | ファイル変換方法、データ変換装置及びファイル表示システム |
US6778986B1 (en) * | 2000-07-31 | 2004-08-17 | Eliyon Technologies Corporation | Computer method and apparatus for determining site type of a web site |
US7581170B2 (en) * | 2001-05-31 | 2009-08-25 | Lixto Software Gmbh | Visual and interactive wrapper generation, automated information extraction from Web pages, and translation into XML |
-
2001
- 2001-08-03 CN CNB011238453A patent/CN1167027C/zh not_active Expired - Fee Related
-
2002
- 2002-08-05 WO PCT/JP2002/007983 patent/WO2003014966A2/en active Application Filing
- 2002-08-05 JP JP2003519828A patent/JP2004538576A/ja not_active Withdrawn
-
2004
- 2004-02-02 US US10/768,178 patent/US20060143555A1/en not_active Abandoned
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9613115B2 (en) | 2010-07-12 | 2017-04-04 | Microsoft Technology Licensing, Llc | Generating programs based on input-output examples using converter modules |
CN102682065A (zh) * | 2011-02-03 | 2012-09-19 | 微软公司 | 使用输入-输出示例的语义实体操纵 |
CN102682065B (zh) * | 2011-02-03 | 2015-03-25 | 微软公司 | 使用输入-输出示例的语义实体操纵 |
US9552335B2 (en) | 2012-06-04 | 2017-01-24 | Microsoft Technology Licensing, Llc | Expedited techniques for generating string manipulation programs |
US11256710B2 (en) | 2016-10-20 | 2022-02-22 | Microsoft Technology Licensing, Llc | String transformation sub-program suggestion |
US11620304B2 (en) | 2016-10-20 | 2023-04-04 | Microsoft Technology Licensing, Llc | Example management for string transformation |
US10846298B2 (en) | 2016-10-28 | 2020-11-24 | Microsoft Technology Licensing, Llc | Record profiling for dataset sampling |
US10671353B2 (en) | 2018-01-31 | 2020-06-02 | Microsoft Technology Licensing, Llc | Programming-by-example using disjunctive programs |
CN112446259A (zh) * | 2019-09-02 | 2021-03-05 | 深圳中兴网信科技有限公司 | 图像处理方法、装置、终端和计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN1167027C (zh) | 2004-09-15 |
US20060143555A1 (en) | 2006-06-29 |
JP2004538576A (ja) | 2004-12-24 |
WO2003014966A3 (en) | 2003-10-30 |
WO2003014966A2 (en) | 2003-02-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1167027C (zh) | 格式文档中的信息的抽取装置及抽取方法 | |
Ducasse et al. | A language independent approach for detecting duplicated code | |
CN1235143C (zh) | 用于存储提交的网页表格的系统、方法和程序产品 | |
US6496203B1 (en) | Standardized and application-independent graphical user interface components implemented with web technology | |
US7013309B2 (en) | Method and apparatus for extracting anchorable information units from complex PDF documents | |
KR100270344B1 (ko) | 제1및제2html문서렌더링방법및그시스템 | |
US7092871B2 (en) | Tokenizer for a natural language processing system | |
US6941509B2 (en) | Editing HTML DOM elements in web browsers with non-visual capabilities | |
US20060184639A1 (en) | Web content adaption process and system | |
US20040202352A1 (en) | Enhanced readability with flowed bitmaps | |
CN106557695A (zh) | 一种恶意应用检测方法和系统 | |
JPH06223021A (ja) | 周辺装置のための制御言語の境界判定方法 | |
CN113569181A (zh) | 一种分页数据采集方法及系统 | |
CN1797403A (zh) | 用于网页各方面的评估的方法和系统 | |
WO2000060480A9 (en) | Automated document inspection system | |
US6263336B1 (en) | Text structure analysis method and text structure analysis device | |
CN1768337A (zh) | 用于优化基于标签的协议流分析的系统和方法 | |
US20030076512A1 (en) | System and method to automatically scale preformatted text within an electronic document for printing | |
CN109684844B (zh) | 一种webshell检测方法、装置以及计算设备、计算机可读存储介质 | |
CN108985059B (zh) | 一种网页后门检测方法、装置、设备及存储介质 | |
US20020092007A1 (en) | Web based application re-coded for OS/2 compatibility | |
CN1627256A (zh) | 一种浏览器显示网页的方法 | |
Perlin | An expert system for scoring DNA database profiles | |
CN114239570A (zh) | 基于语义分析的敏感数据识别方法和系统 | |
JP3461938B2 (ja) | プログラムのコメント解析装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20040915 |