JP2020098596A - ウェブページから情報を抽出する方法、装置及び記憶媒体 - Google Patents
ウェブページから情報を抽出する方法、装置及び記憶媒体 Download PDFInfo
- Publication number
- JP2020098596A JP2020098596A JP2019223095A JP2019223095A JP2020098596A JP 2020098596 A JP2020098596 A JP 2020098596A JP 2019223095 A JP2019223095 A JP 2019223095A JP 2019223095 A JP2019223095 A JP 2019223095A JP 2020098596 A JP2020098596 A JP 2020098596A
- Authority
- JP
- Japan
- Prior art keywords
- node
- leaf
- tree structure
- navigation bar
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000000605 extraction Methods 0.000 description 20
- 230000008569 process Effects 0.000 description 7
- 238000004590 computer program Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000013016 learning Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000002910 structure generation Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/957—Browsing optimisation, e.g. caching or content distillation
- G06F16/9577—Optimising the visualization of content, e.g. distillation of HTML documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/954—Navigation, e.g. using categorised browsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
従って、集合pから関連情報を含むウェブページの集合p’=[<p’0,u’0,t’0>,<p’1,u’1,t’1>,<p’2,u’2,t’2>,…,<p’n,u’n,t’n>]を選択してもよく、ここで、p’i及びu’iは上記の定義されたpi及びuiと同じであり、t’iは、該ページに対応するタイプ、例えば製品、人物、連絡先などを表す。これによって、ページの異なるタイプに応じて、異なる解析器を選択して抽出を行うことができる。
(付記1)
ウェブページから情報を抽出する方法であって、
前記ウェブページ及びその全ての拡張ウェブページにおける前記ウェブページのドメイン名を含む各ページについて木構造を生成するステップと、
前記木構造におけるナビゲーションバーノードを決定するステップと、
前記ナビゲーションバーノードによりカバーされる、1つ又は複数のキーワードにマッチする葉ノードを決定するステップと、
マッチする葉ノードに対応するページにおける情報を抽出するステップと、を含む、方法。
(付記2)
統計的方法を用いて前記ナビゲーションバーノードを決定する、付記1に記載の方法。
(付記3)
前記木構造におけるナビゲーションバーノードを決定するステップは、
前記木構造に出現する回数が所定閾値よりも大きい葉ノードのみを含む非葉ノードを決定するステップと、
前記非葉ノードを並び替えて前記ナビゲーションバーノードを決定するステップと、を含む、付記2に記載の方法。
(付記4)
葉ノードの出現回数が所定閾値よりも大きいか否かを決定することは、
前記葉ノードのテキスト及び経路情報の前記木構造における出現回数が前記所定閾値よりも大きいか否かを決定すること、を含む、付記3に記載の方法。
(付記5)
前記経路情報は、前記葉ノードからそのn番目の先祖ノードまでの経路であり、nは正整数である、付記4に記載の方法。
(付記6)
nは5以上である、付記5に記載の方法。
(付記7)
前記非葉ノードを並び替えて前記ナビゲーションバーノードを決定するステップは、
前記非葉ノードの特徴値を計算するステップであって、前記特徴値は、前記非葉ノードによりカバーされる葉ノードの数及び前記回数により決定される、ステップと、
前記非葉ノードのうちの最大の特徴値を有する非葉ノードを前記ナビゲーションバーノードとして決定するステップと、を含む、付記3に記載の方法。
(付記8)
前記特徴値は、前記非葉ノードによりカバーされる葉ノードの数と前記回数との積の、前記ウェブページのドメイン名を含むページの総数に対する比率である、付記7に記載の方法。
(付記9)
マッチする葉ノードに対応するページにおける情報を抽出するステップは、
前記マッチする葉ノードに対応するページに含まれるターゲットノードを決定するステップと、
前記ターゲットノードによりカバーされる各葉ノードのテキストをそれぞれ抽出するステップと、を含む、付記1乃至8の何れかに記載の方法。
(付記10)
前記ターゲットノードは、
前記ターゲットノードに含まれる各葉ノードのテキスト及び経路情報の前記木構造における出現回数が前記所定閾値以下であること、
前記ターゲットノードが、前記木構造に出現する回数が所定閾値よりも大きい葉ノードのみを含む非葉ノードのうちの非葉ノードではないこと、及び
前記ターゲットノードに含まれる全ての葉ノードのテキストの合計長さが該木構造における他の非葉ノードのテキストの合計長さよりも大きいこと、により決定される、付記9に記載の方法。
(付記11)
前記ターゲットノードによりカバーされる各葉ノードのテキストをそれぞれ抽出するステップは、
前記ターゲットノードに対応するページのタイプに応じて、異なる解析器を選択して抽出を行うステップ、を含む、付記9に記載の方法。
(付記12)
前記ターゲットノードの各葉ノードを独立した属性抽出空間とする、付記11に記載の方法。
(付記13)
前記解析器は、エンティティ認識器、固有名詞認識器又は数値認識器である、付記11に記載の方法。
(付記14)
決定されたナビゲーションバーノードの経路情報を用いて前記ウェブページ及びその全ての拡張ウェブページにおけるナビゲーションバーノードを決定する、付記1乃至8の何れかに記載の方法。
(付記15)
URLトップレベルドメイン名を抽出することにより、前記ウェブページ及びその全ての拡張ウェブページにおける前記ウェブページのドメイン名を含むページを決定する、付記1乃至8の何れかに記載の方法。
(付記16)
前記木構造は、HTML文書オブジェクトモデル(DOM)である、付記1乃至8の何れかに記載の方法。
(付記17)
前記キーワードは、所定のキーワードである、付記1乃至8の何れかに記載の方法。
(付記18)
前記拡張ウェブページをn回だけ拡張して前記ウェブページのドメイン名を含むページを取得し、nは2以上の整数である、付記1乃至8の何れかに記載の方法。
(付記19)
ウェブページから情報を抽出する装置であって、
前記ウェブページ及びその全ての拡張ウェブページにおける前記ウェブページのドメイン名を含む各ページについて木構造を生成する木構造生成手段と、
前記木構造におけるナビゲーションバーノードを決定するナビゲーションバーノード決定手段と、
前記ナビゲーションバーノードによりカバーされる、1つ又は複数のキーワードにマッチする葉ノードを決定するマッチノード決定手段と、
マッチする葉ノードに対応するページにおける情報を抽出する情報抽出手段と、を含む、装置。
(付記20)
プログラムを記憶したコンピュータ読み取り可能な記憶媒体であって、前記プログラムがプロセッサにより実行される際に、
ウェブページ及びその全ての拡張ウェブページにおける前記ウェブページのドメイン名を含む各ページについて木構造を生成するステップと、
前記木構造におけるナビゲーションバーノードを決定するステップと、
前記ナビゲーションバーノードによりカバーされる、1つ又は複数のキーワードにマッチする葉ノードを決定するステップと、
マッチする葉ノードに対応するページにおける情報を抽出するステップと、を実行させる、記憶媒体。
Claims (10)
- ウェブページから情報を抽出する方法であって、
前記ウェブページ及びその全ての拡張ウェブページにおける前記ウェブページのドメイン名を含む各ページについて木構造を生成するステップと、
前記木構造におけるナビゲーションバーノードを決定するステップと、
前記ナビゲーションバーノードによりカバーされる、1つ又は複数のキーワードにマッチする葉ノードを決定するステップと、
マッチする葉ノードに対応するページにおける情報を抽出するステップと、を含む、方法。 - 前記木構造におけるナビゲーションバーノードを決定するステップは、
前記木構造に出現する回数が所定閾値よりも大きい葉ノードのみを含む非葉ノードを決定するステップと、
前記非葉ノードを並び替えて前記ナビゲーションバーノードを決定するステップと、を含む、請求項1に記載の方法。 - 葉ノードの出現回数が所定閾値よりも大きいか否かを決定することは、
前記葉ノードのテキスト及び経路情報の前記木構造における出現回数が前記所定閾値よりも大きいか否かを決定すること、を含む、請求項2に記載の方法。 - 前記経路情報は、前記葉ノードからそのn番目の先祖ノードまでの経路であり、nは正整数である、請求項3に記載の方法。
- nは5以上である、請求項4に記載の方法。
- 前記非葉ノードを並び替えて前記ナビゲーションバーノードを決定するステップは、
前記非葉ノードの特徴値を計算するステップであって、前記特徴値は、前記非葉ノードによりカバーされる葉ノードの数及び前記回数により決定される、ステップと、
前記非葉ノードのうちの最大の特徴値を有する非葉ノードを前記ナビゲーションバーノードとして決定するステップと、を含む、請求項2に記載の方法。 - マッチする葉ノードに対応するページにおける情報を抽出するステップは、
前記マッチする葉ノードに対応するページに含まれるターゲットノードを決定するステップと、
前記ターゲットノードによりカバーされる各葉ノードのテキストをそれぞれ抽出するステップと、を含む、請求項1乃至6の何れかに記載の方法。 - 前記ターゲットノードは、
前記ターゲットノードに含まれる各葉ノードのテキスト及び経路情報の前記木構造における出現回数が前記所定閾値以下であること、
前記ターゲットノードが、前記木構造に出現する回数が所定閾値よりも大きい葉ノードのみを含む非葉ノードのうちの非葉ノードではないこと、及び
前記ターゲットノードに含まれる全ての葉ノードのテキストの合計長さが該木構造における他の非葉ノードのテキストの合計長さよりも大きいこと、により決定される、請求項7に記載の方法。 - ウェブページから情報を抽出する装置であって、
前記ウェブページ及びその全ての拡張ウェブページにおける前記ウェブページのドメイン名を含む各ページについて木構造を生成する木構造生成手段と、
前記木構造におけるナビゲーションバーノードを決定するナビゲーションバーノード決定手段と、
前記ナビゲーションバーノードによりカバーされる、1つ又は複数のキーワードにマッチする葉ノードを決定するマッチノード決定手段と、
マッチする葉ノードに対応するページにおける情報を抽出する情報抽出手段と、を含む、装置。 - プログラムを記憶したコンピュータ読み取り可能な記憶媒体であって、前記プログラムがプロセッサにより実行される際に、
ウェブページ及びその全ての拡張ウェブページにおける前記ウェブページのドメイン名を含む各ページについて木構造を生成するステップと、
前記木構造におけるナビゲーションバーノードを決定するステップと、
前記ナビゲーションバーノードによりカバーされる、1つ又は複数のキーワードにマッチする葉ノードを決定するステップと、
マッチする葉ノードに対応するページにおける情報を抽出するステップと、を実行させる、記憶媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811549030.2 | 2018-12-18 | ||
CN201811549030.2A CN111339457B (zh) | 2018-12-18 | 2018-12-18 | 用于从网页抽取信息的方法和设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020098596A true JP2020098596A (ja) | 2020-06-25 |
JP7434867B2 JP7434867B2 (ja) | 2024-02-21 |
Family
ID=71105986
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019223095A Active JP7434867B2 (ja) | 2018-12-18 | 2019-12-10 | ウェブページから情報を抽出する方法、装置及び記憶媒体 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7434867B2 (ja) |
CN (1) | CN111339457B (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111768234A (zh) * | 2020-06-28 | 2020-10-13 | 百度在线网络技术(北京)有限公司 | 为用户生成推荐文案的方法及设备、电子设备和介质 |
CN113918460A (zh) * | 2021-10-15 | 2022-01-11 | 京东科技信息技术有限公司 | 页面测试方法、装置、设备和介质 |
CN114201971A (zh) * | 2021-12-13 | 2022-03-18 | 海南港航控股有限公司 | 一种从网页中提取人物属性的方法及系统 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009042908A (ja) | 2007-08-07 | 2009-02-26 | Nec Corp | ニュース記事抽出装置、ニュース記事リンク特定方法およびニュース記事抽出用プログラム |
CN101872350A (zh) * | 2009-04-24 | 2010-10-27 | 富士通株式会社 | 网页正文抽取方法和装置 |
CN102043802B (zh) * | 2009-10-16 | 2013-09-25 | 上海飞机制造有限公司 | 基于结构摘要的xml关键字检索方法 |
CN102662969B (zh) * | 2012-03-11 | 2013-11-27 | 复旦大学 | 一种基于网页结构语义的互联网信息对象定位方法 |
CN102760150A (zh) * | 2012-04-05 | 2012-10-31 | 中国人民解放军国防科学技术大学 | 基于属性重现和标签路径的网页抽取方法 |
CN103246732B (zh) * | 2013-05-10 | 2016-02-24 | 合肥工业大学 | 一种在线Web新闻内容的抽取方法及系统 |
CN103823824B (zh) | 2013-11-12 | 2017-04-05 | 哈尔滨工业大学深圳研究生院 | 一种借助互联网自动构建文本分类语料库的方法及系统 |
CN104809125A (zh) * | 2014-01-24 | 2015-07-29 | 腾讯科技(深圳)有限公司 | 一种网页类别的识别方法和装置 |
CN105893389A (zh) * | 2015-01-26 | 2016-08-24 | 阿里巴巴集团控股有限公司 | 一种语音信息搜索方法、装置及服务器 |
CN106156143A (zh) | 2015-04-13 | 2016-11-23 | 富士通株式会社 | 网页处理装置和网页处理方法 |
CN105069107B (zh) | 2015-08-07 | 2019-03-05 | 北京百度网讯科技有限公司 | 监控网站的方法和装置 |
CN105630941B (zh) * | 2015-12-23 | 2018-11-06 | 成都云数未来信息科学有限公司 | 基于统计和网页结构的Web正文内容抽取方法 |
CN107229668B (zh) * | 2017-03-07 | 2020-04-21 | 桂林电子科技大学 | 一种基于关键词匹配的正文抽取方法 |
-
2018
- 2018-12-18 CN CN201811549030.2A patent/CN111339457B/zh active Active
-
2019
- 2019-12-10 JP JP2019223095A patent/JP7434867B2/ja active Active
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111768234A (zh) * | 2020-06-28 | 2020-10-13 | 百度在线网络技术(北京)有限公司 | 为用户生成推荐文案的方法及设备、电子设备和介质 |
CN111768234B (zh) * | 2020-06-28 | 2023-12-19 | 百度在线网络技术(北京)有限公司 | 为用户生成推荐文案的方法及设备、电子设备和介质 |
CN113918460A (zh) * | 2021-10-15 | 2022-01-11 | 京东科技信息技术有限公司 | 页面测试方法、装置、设备和介质 |
CN114201971A (zh) * | 2021-12-13 | 2022-03-18 | 海南港航控股有限公司 | 一种从网页中提取人物属性的方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
JP7434867B2 (ja) | 2024-02-21 |
CN111339457B (zh) | 2023-09-08 |
CN111339457A (zh) | 2020-06-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7269544B2 (en) | System and method for identifying special word usage in a document | |
US7669119B1 (en) | Correlation-based information extraction from markup language documents | |
Uzun et al. | A hybrid approach for extracting informative content from web pages | |
US20150067476A1 (en) | Title and body extraction from web page | |
JP7434867B2 (ja) | ウェブページから情報を抽出する方法、装置及び記憶媒体 | |
JP5370159B2 (ja) | 情報抽出装置及び情報抽出システム | |
US20200372088A1 (en) | Recommending web api's and associated endpoints | |
US8359307B2 (en) | Method and apparatus for building sales tools by mining data from websites | |
JP4299963B2 (ja) | 意味的まとまりに基づいて文書を分割する装置および方法 | |
KR101933953B1 (ko) | 페이지랭크와 토픽 모델링을 이용한 소프트웨어 도메인 토픽 추출 시스템 | |
Uzun et al. | An effective and efficient Web content extractor for optimizing the crawling process | |
KR20150084706A (ko) | 온톨로지의 지식 학습 장치 및 그의 방법 | |
JP7254925B2 (ja) | 改良されたデータマッチングのためのデータレコードの字訳 | |
CN112417338A (zh) | 一种页面适配方法、系统及设备 | |
JP4143085B2 (ja) | 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
CN112380337A (zh) | 基于富文本的高亮方法及装置 | |
US9195940B2 (en) | Jabba-type override for correcting or improving output of a model | |
JP3743204B2 (ja) | データ分析支援方法および装置 | |
JP5379627B2 (ja) | 検索制御装置、検索制御方法、及びプログラム | |
US11275729B2 (en) | Template search system and template search method | |
JP4148247B2 (ja) | 語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
JP7135730B2 (ja) | 要約生成方法及び要約生成プログラム | |
JP3518998B2 (ja) | 意味属性辞書作成方法及び装置並びに意味属性辞書作成プログラムを記録した記録媒体 | |
JP2011070541A (ja) | ネットマーケティング支援方法及びネットマーケティング支援装置 | |
JP4726683B2 (ja) | 体験情報抽出方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220809 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230719 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230808 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231004 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240109 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240122 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7434867 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |